DE++ от Валентина

Description
Буду сюда скидывать статьи и интересные штуки по data engineering и SWE в целом.
Пишу только про то, что сам прочитал

Написать можно в комменты или @valentinoneone
Advertising
We recommend to visit

Первый верифицированный канал о технологиях и искусственном интеллекте.

Сотрудничество/Реклама: @alexostro1

Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official

Last updated 4 days, 15 hours ago

Единственный легальный канал Wylsacom Media.
Есть новость или что сказать, наш бот для вас: @WylsacomRedNewsBot

По всем вопросам пишите сюда:
[email protected]
[email protected]

Last updated 3 weeks, 5 days ago

Крупнейшее медиа об интернет-культуре и технологиях.

Больше интересного на https://exploit.media

Написать в редакцию: @exploitex_bot

Сотрудничество: @todaycast

Last updated 2 months, 2 weeks ago

2 months, 4 weeks ago

Сегодня стартует Data+AI Summit Кто планирует смотреть? Могу позволить себе только бесплатную секцию, которая будет 12-13 июня? Интересно всего пара докладов Точно хочу: Data warehousing performance, scale and security with Databricks SQL - перформанс,…

3 months, 1 week ago

Пока досматриваю последние интересующие доклады c Data+AI Summit, расскажу про лучший доклад про реализацию кастомного DataSource для Spark.

В докладе нет примеров с кодом, а показана общая идея и какие классы DataSource APi нужно реализовать.
(Код для конкретного источника всё равно слишком специфичный и в доклад это не уместишь)

Так что полезно будет даже если не планируется писать свой DS, но хочется понять как примерно спарк работает с любым источником данных.

Весь код в общей репо SPYT (Spark Over YT)
live coding DS от Яцека с кодом

DE++ от Валентина

YouTube

Как подключить к Apache Spark проприетарный источник данных / Александра Белоусова (Яндекс.Go)

Приглашаем на конференцию Saint HighLoad++ 2024, которая пройдет 24 и 25 июня в Санкт-Петербурге! Программа, подробности и билеты по ссылке: https://vk.cc/cuyIqx -------- -------- HighLoad++ Весна 2021 Крупнейшая профессиональная конференция для разработчиков…

3 months, 3 weeks ago
Ладно, на самом деле тут не …

Ладно, на самом деле тут не очень много рассказывать

В этом квартале меня добавили на полставки в проект, который призван упростить написание стриминг приложений на PyFlink. А-ля, такая обертка на декораторах поверх Flink’a.

Пока не ясно насколько проект жизнеспособен. Но я смог попробовать Flink и Kafka. И теперь точно не туплю при написании декораторов. Так что я уже доволен.

В целом, ощущения положительные, очень удобно писать map’ы и flatMap’ы над потоком. Всё просто и понятно. Но только до тех пор, пока нужно только что-то стандартное. Если надо сделать, то чего в Python API нет, то придётся делать уже больше, чем если бы писать только на Java.

Например:
Мне из сообщения {“id”, “field1”, “field2”} нужно было “field1” сделать ключом в сообщении в кафке. У Java API можно просто написать лямбду, которая это делает. В реализации PyFlink такое не предусмотрено.

И тут уже придётся делать больше, чем просто написать такое же на Java.
Для лучшего варианта без костылей и лишних трансформаций, пришлось сделать:
1) Вытащить из сорцов флинка, код сериализации
2) Подправить пару строчек
3) Упаковать в Jar и написать обёртку для Python на Py4j.
Это не особо трудно, но это надо будет сделать. А если вы такое можете сделать, то может и сразу на Java писать?)
Лучше только сделать PR в сам Flink, но извини, моё сердце пока занято спарком?

Доп:
Сравнение скорости PyFlink.
В статье выше написано, что если использовать только стандартные вещи из PyFlink Table API, то перформанс будет прямо таким же, как и Flink на Java, но мы это не замеряли.

По стримингу же всё грустно. Внутренние замеры показали, что простейшая перекладка из кафки в кафку с/без простой трасформации на pyFlink в 10 медленнее. На истинность не претендую, но похоже на правду, учитывая, сколько там всего сериализуется туда-сюда.

DE++ от Валентина

4 months, 1 week ago

Сегодня стартует Data+AI Summit
Кто планирует смотреть?
Могу позволить себе только бесплатную секцию, которая будет 12-13 июня?

Интересно всего пара докладов
Точно хочу:
Data warehousing performance, scale and security with Databricks SQL - перформанс, это значит сразу смотрим

меньше:
Introduction to Mosaic AI: How Databricks Simplifies Your GenAI Journey - очень много про этот мозаик говорят, интересно понять есть ли что-то полезное в этом
How to create a holistic customer view to drive performance and revenue - может быть быть тоже что-то будет полезное

Databricks

Home | Databricks

Data and AI Summit — the premier event for the global data, analytics and AI community. Register now to level up your skills.

Сегодня стартует [Data+AI Summit](https://www.databricks.com/dataaisummit)
4 months, 2 weeks ago
[All You Need to Know About …

All You Need to Know About PyFlink

Отличная статья по PyFlink, которая полностью оправдывает своё название.

Тут вместе идёт теория и практика.
По теории рассматриваются: базовые понятия Flink, архитектура, различие Streaming и Table API и тд.
По практике есть куски кода, как правильно запускать Flink и советы, чтобы вариант на питоне был не сильно хуже варианта на Java.

У них же есть курсы по стримингу и Table API. Я посмотрел половину одного курса и могу сказать, что они короткие, но очень плохие.
- Посмотреть видео из середины на нужную тему нельзя, они заблокированы
- Девушка читает скрипт под картинки, потом нудный тест на модуль
- 0 практики
Не советую. Тот самый момент, когда лучше потратить время на доку.

В следующем посте допишу мои субъективные ощущения от работы с PyFlink и как это я мог отвлечься от познания глубин Спарка.

Ссылка на отстойные курсы

DE++ от Валентина

4 months, 2 weeks ago

А ещё сегодня третий митап сообщества Database Internals, куда я точно пойду!

В планах доклады про СУБД Сокол и протокол репликации между кластерами YTsaurus.
Пока не ясно насколько будет полезно/интересно.

Но я давно никуда не ходил. В планах как минимум на умных людей посмотреть, себя показать и может найти кого-нибудь из Spark Over YT?

UPD:
В целом по докладам - мимо. Были темы, которые мне пока не интересны. Но зато была хорошая организация и я удостоверился, что не зря курс по бд смотрю.

Запись докладов можно посмотреть тут

databaseinternals.timepad.ru

Database Internals Meetup #3 (офлайн + онлайн): архитектура СУБД SoQoL, и протокол репликации YTsaurus / События на TimePad.ru

Третий митап российского сообщества разработчиков СУБД и распределенных систем. Обсудим архитектуру новой российской СУБД SoQoL и новый протокол межкластерной репликации данных YTsaurus.

А ещё сегодня [третий митап](https://databaseinternals.timepad.ru/event/2873648/) сообщества Database Internals, куда я точно пойду!
5 months, 4 weeks ago
DE++ от Валентина
5 months, 4 weeks ago
В феврале Кирилл Мокевнин написал пост, …

В феврале Кирилл Мокевнин написал пост, что хочет провести экскурсии для студентов колледжа Хекслет. Ну и что-то меня сподвигло написать, что я могу.

И вот сегодня это свершилось!
Хорошо, что в компании этот процесс налажен и от меня нужно было только соединить нужных людей и выступить.

Я рассказывал про фундаментальные знания в ИТ и переход из одной специальности в другую. На примере себя как я перекатился из бекенда в DE.

По сути, это моё первое добровольное выступление перед аудиторией. В целом прошло очень гладко всё. Я собой доволен.

Хардкор посты давайте уже после майских?

DE++ от Валентина

6 months ago

Хороший доклад от Владимира. Примерно на половину повторяет прошлый доклад, но уже про другие SQL-движки. По сути, тоже обзорный, но с большей степенью погружения во внутренности, что конечно же круто и выгодно отличает от других обзорных докладов. Плюс…

databaseinternals.timepad.ru

Database Internals Meetup #2: зачем нам DBOS, и новый тип гистограмм в openGauss / События на TimePad.ru

Второй митап российского сообщества разработчиков СУБД и распределенных систем. Поговорим о задачах и позиционировании DBOS, а также о новом методе оценки кардинальностей в openGauss

Хороший доклад от Владимира. Примерно на половину повторяет прошлый доклад, но уже про другие SQL-движки. По сути, тоже обзорный, но …
7 months, 1 week ago
DE++ от Валентина
We recommend to visit

Первый верифицированный канал о технологиях и искусственном интеллекте.

Сотрудничество/Реклама: @alexostro1

Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official

Last updated 4 days, 15 hours ago

Единственный легальный канал Wylsacom Media.
Есть новость или что сказать, наш бот для вас: @WylsacomRedNewsBot

По всем вопросам пишите сюда:
[email protected]
[email protected]

Last updated 3 weeks, 5 days ago

Крупнейшее медиа об интернет-культуре и технологиях.

Больше интересного на https://exploit.media

Написать в редакцию: @exploitex_bot

Сотрудничество: @todaycast

Last updated 2 months, 2 weeks ago