Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months ago
Новое видео на канале -- пробую систем дизайн секцию технического интервью. Пока неказисто, но дорогу осилит идущий!
-> Ссылка на видео (youtube)
-> Ссылка на видео (vk video)
Видео записали вместе с @halltape_data, спасибо, Женя, за участие.
Оставляй благодарность и критику, пробуй спроектировать платформу данных по вводным самостоятельно. Прокачиваемся!
YouTube
Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
-- Больше контента по ссылкам -- Канал Жени DE - https://t.me/halltape\_data Boosty Жени DE - https://boosty.to/halltape\_data Канал Лёши DE - https://t.me/rzv\_de Boosty Лёши DE - https://boosty.to/rzv\_de -- Пояснение к видео -- Публично тренируюсь проходить…
? Мой обновленный ETL проект на GitHub!
https://github.com/halltape/HalltapeETL
Это полноценный инструмент собранный на базе Docker-Compose.
С ним можно запустить ETL процесс от загрузки данных до их визуализации!
Вот, что я добавил и исправил:
⚫️Добавил Jupyter Lab (Spark + Pandas) - Теперь можно отлаживать код в Jupyter Lab
⚫️Установил Spark в Apache Airflow - Теперь можно собирать витрины данных еще и на Spark (до этого был только Pandas)
⚫️Подключил Data Lake к Clickhouse - Теперь Clickhouse может читать данные напрямую из Data Lake
⚫️Добавил Apache Superset - Можно подключиться, как к Clickhouse, так и к PostgreSQL
⚫️Синтетические данные - Залил готовые данные, на которых можно тренироваться
⚫️Написанные и подготовленные DAG в Airflow - Написал скрипты для сборки витрины на PySpark
⚫️DAG для мониторинга загрузки данных - Написал скрипты для мониторинга загрузки данных на дашборде!
Крайне рекомендую дойти до этого проекта и собрать его самостоятельно. Попробуйте там собрать свою первую витрину на Spark. И обязательно доведите всё до визуализации. В процессе отладки вы очень сильно прокачаетесь, а если еще и разберетесь, как этот проект собирается и работает, то у вас будет сильное преимущество перед теми, кто просто проходит курсы на степике.
Считайте, что это бесплатное повышение вашей квалификации. Более того, вы можете использовать это либо на работе или для своего пет проекта. Реальное отличие этого проекта от коммерческого будет в объеме данных и доступных ресурсах. А так, python он и в Африке python!
*? *Выражаю огромную благодарность тем, кто помогал и делал pull request в мой проект:
https://github.com/ATAGAEV95
https://github.com/kirill505
https://github.com/RiskofStorm
P.S Сейчас Data Lake – это просто папка, к которой примонтировано несколько контейнеров. В планах сделать из нее либо HDFS, либо S3. Либо S3 добавить в качестве источника. Расширяться здесь можно бесконечно, главное, чтобы памяти на все хватило. Кстати вы всегда можете контрибьютить в мой проект и кидать pull request, если нашли ошибку или хотите добавить функционала!
Спасибо!
GitHub
GitHub - halltape/HalltapeETL: The simple ETL with docker container
The simple ETL with docker container. Contribute to halltape/HalltapeETL development by creating an account on GitHub.
?️????❓
Наконец-то куплю трешку на Патриках!
Сразу к делу! Думаю о том, чтобы завести бусти.
И вот, что вы получите:
1. Еженедельные созвоны (от обсуждения технологий и работы до сплетней, денег и скандалов)
2. Задачи и вопросы с реальных собеседований (+ условия, описание проекта и так далее). А возможно даже и записи с собесов!
3. Закрытый чат для подписчиков (никаких лишних глаз, любое NDA станет не NDA)
4. Мастер-классы по софт скиллам (это я для прикола написал, но может кто-то хочет побороть страх. Можем попробовать поработать)
*❓ *Зачем я это делаю?
Я хочу заработать на хаты на патриках и начать разыгрывать их в канале за правильное решенные задачи.
*? *Сколько это будет стоить денег?
Хочу 500 руб / месяц. Зависит от трафика.
? Ставьте реакции и пишите в комменты что думаете можно было бы добавить. Если считаете, что я офигел, то это правда)
⚡️⚡️⚡️Удаленка Мир! (DE)? до **220к на руки
Требования: • Опытом работы на позиции дата-инженера от 1 года;
• Уверенным владением SQL;
• Уверенным владением Python;
• Уверенным владением Apache Airflow 2;
• Уверенным владением bash;
• Опытом разработки ETL, проектирования и разработки хранилищ данных и аналитической отчетности (просим рассказать Ваши кейсы);
• Способностью анализировать;
• Опытом работы с ClickHouse, Kafka, S3 и dbt.
• Высшим техническим или другим релевантным образованием;
• Владением английским языком на уровне B2 и выше.
Подробнее:** здесь
Писать:@tanya_zab
Valiotti Analytics on Notion
Data Engineer (Middle) | Notion
Компания Valiotti Analytics стартовала в 2019 году, занимаемся построением процессов аналитики и инжиниринга данных для digital компаний из Европы и стран СНГ. Наша команда — молодые талантливые специалисты (средний возраст 27 лет), которые любят челленджи…
?? Очень четко про ИНДЕКСЫ в PostgreSQL!
.
Рекомендую смотреть только тем, кого не пугают такие слова:
⚫️ B-tree индексы
⚫️ Explain analyse
⚫️ VACUUM
Парень рассказывает по то, как стоит использовать индексы, в чем разница индексов по двум и более полям и многое другое.
YouTube
Владимир Ситников — B-tree индексы в базах данных на примере PostgreSQL
Ближайшая конференция — Heisenbug 2024 Autumn, 10 октября (Online), 17—18 октября, Санкт-Петербург — Ближайшая конференция: Heisenbug 2023 Autumn — 10–11 октября (online), 15–16 октября (offline) Подробности и билеты: https://bit.ly/3qd3swV — — Доклад о том…
? Оффер за самое элегантное решение!
Две строки. Нужно из них получить python словарь. Побеждает самое короткое простое, но ПОНЯТНОЕ решение.
Столкнулся на работе. Эти строки – это значения в двух столбцах огромной таблицы. Поэтому при желании можете также оценить O(n).
P.S. Здесь требуется решение на питоне, но у меня конечно на самом деле был spark и там есть некоторые нюансы. Я комментах его опишу, потому что оно ДУШНОЕ и если вы новичек, то не забивайте себе голову и смело скипайте.
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months ago