rzv Data Engineering

Description
Авторский канал о том, как я понимаю инжиниринг данных. Объясняю термины, best practice, делюсь описанием рабочих задачек. См закрепы

Рассчитан на новичков в DE и инженеров до Senior.

Чат: t.me/+jtQ1tjvNUtwzN2My
По вопросам: @razvodov_de_mentor
Advertising
We recommend to visit
Roxman
Roxman
12,178,200 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 3 days, 23 hours ago

HAYZON
HAYZON
6,631,082 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 22 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 2 weeks ago

1 month ago
Завтра, в субботу 7 сентября, в …

Завтра, в субботу 7 сентября, в 12:00 мск будет стрим-интервью с @digitalberd

Расскажу о своём пути, почему и как пришёл в менторство и в инженерию данных, затронем ещё пару тем.

https://www.youtube.com/live/Zh5WGo18-L8?si=OicFyIX2nr6VFHmE

Стрим начинается!

1 month, 1 week ago

#видео #моксобес

Подвёз контент под вечер. Пятый выпуск серии мок-собесов на youtube

-> Ссылка на видео (youtube)
-> Ссылка на видео (vk video)

YouTube

Мок-собеседование на junior+ Data Engineer S1E5 | rzv_de | Aug 2024

Погружаемся в роли интервьюера и кандидата на час, плотная получасовая обратная связь уже выложена на бусти. https://boosty.to/rzv\_de Я не представляю компанию из интервью, вакансия выбрана кандидатом для тренировки. Послушал про опыт кандидата, копнули…

1 month, 1 week ago

#поразмыслим

С какими проблемами может столкнуться дата инженер, выполняя изменение схемы данных на проде (schema evolution)?

Как эти проблемы можно решить на проекте?

Ограничимся RDBMS MPP классом систем

1 month, 2 weeks ago

#вести_с_полей

Настройка CDC на примере Kafka Connect, Debezium и Postgres 1/2

? Итак, что такое CDC и зачем это надо.
Change data capture это технология захвата изменений данных с источника, для реляционных СУБД — обычно через лог базы данных. В таком случае таблица не блокируется, нагружается именно компонент, отвечающий за репликацию. В отличие от батч загрузок, которые запускаются по расписанию и теряют промежуточные изменения, CDC подтягивает все операции. Это и благо, если такая детализация нужна, и головная боль, если надо схлопывать эти изменения и сохранять только состояние, например, на закрытие операционного дня.

? CDC создаёт поток изменений, который можно использовать для стриминговой загрузки. Но как связаны между собой Kafka Connect, Debezium и Kafka? Для ознакомления допустим, что Debezium CDC коннекторы используются как компоненты Kafka Connect для подключения к источникам. Для приёмников используются внутренние компоненты Kafka Connect (Sink). Данные между Debezium CDC и Kafka Connect Sink лежат в топиках кафки.

? Как это может выглядеть на практике?
Считаем, что сервисы уже развёрнуты и доступны по сети, и у тебя есть ко всему доступ и данные для входа (credentials). Плагины на Kafka Connect установлены для всех источников и приёмников, которые нам понадобятся.
Создай слот репликации в базе, такой же как для обычных реплик.
Подготовь конфигурацию для Кафка коннекта — о ней будет ниже.
Отправь POST запрос на API endpoint сервиса Kafka Connect для публикации коннектора, где указываются конфиг и имя.
Проверь статус самого коннектора через GET запрос или UI, он должен быть "up and running".
Зайди через UI или CLI в список топиков, найди по topic.prefix и имени таблицы нужный, проверь что сообщения появились и в них содержатся данные из таблички.

Теперь данные попадают в кафку и накапливаются в ней. Осталось аналогично настроить Sink для выгрузки данных в нужное место из топика, передав там маппинг топик-таблица.

1 month, 3 weeks ago

Разыгрываю мок-собес! Разыгрываю одну запись тренировочного технического интервью (с выкладыванием на youtube), победителю нужно будет запланировать 1.5 часовой звонок в течение двух недель после окончания розыгрыша. Начинаем сейчас, заканчиваем 2024-08-20…

1 month, 3 weeks ago

Разыгрываю мок-собес!

Разыгрываю одну запись тренировочного технического интервью (с выкладыванием на youtube), победителю нужно будет запланировать 1.5 часовой звонок в течение двух недель после окончания розыгрыша.
Начинаем сейчас, заканчиваем 2024-08-20 в 23:00 мск.

Примеры можно посмотреть здесь

Можно остаться анонимным(-ой), попросить изменить высоту голоса, внести помехи, закрыть имя и пр.

1 month, 3 weeks ago

Как DE может решать задачи CI/CD 3/3

? Первое время немного неуклюже выглядит интеграция python и bash. Для этого нужно пробрасывать параметры из workflow в python скрипт и передавать результат работы обратно, но GPT помогают с нюансами Bash, и со временем картинка выстраивается. Кстати, я недавно перешёл на Claude Sonet, пока нравится больше, чем Gemini. Приятно, этот инструмент становится привычным, и на дейликах разработчики больше не стесняются говорить о парной работе с таким помощником.

? Немного про разделение ответственности. В компаниях, где я работал, обычно было так: девопсы поднимают сервисы в ВМ или в контейнерах, а как с ними будут работать DE -- дело последних. Например, пайплайн по перезапуску упавшего Airflow скорее напишет DevOps. Пайплайн по доставке дагов из гита и тесты для проверок кода скорее будут писать DE.

Пиши в комментах, с какими нюансами CI/CD столкнули рабочие задачи тебя. Или пока ещё дикий запад и всё накатывается руками?

4 months, 1 week ago

Если сможешь нагуглить такое решение или построить правильный промпт в GPT, тоже делись под спойлером. Я не смог найти, пришлось думать своей головой.

We recommend to visit
Roxman
Roxman
12,178,200 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 3 days, 23 hours ago

HAYZON
HAYZON
6,631,082 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 22 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 2 weeks ago