Первый верифицированный канал о технологиях и искусственном интеллекте.
Сотрудничество/Реклама: @alexostro1
Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official
Last updated 4 days, 15 hours ago
Единственный легальный канал Wylsacom Media.
Есть новость или что сказать, наш бот для вас: @WylsacomRedNewsBot
По всем вопросам пишите сюда:
[email protected]
[email protected]
Last updated 3 weeks, 5 days ago
Крупнейшее медиа об интернет-культуре и технологиях.
Больше интересного на https://exploit.media
Написать в редакцию: @exploitex_bot
Сотрудничество: @todaycast
Last updated 2 months, 2 weeks ago
Сегодня стартует Data+AI Summit Кто планирует смотреть? Могу позволить себе только бесплатную секцию, которая будет 12-13 июня? Интересно всего пара докладов Точно хочу: Data warehousing performance, scale and security with Databricks SQL - перформанс,…
Пока досматриваю последние интересующие доклады c Data+AI Summit, расскажу про лучший доклад про реализацию кастомного DataSource для Spark.
В докладе нет примеров с кодом, а показана общая идея и какие классы DataSource APi нужно реализовать.
(Код для конкретного источника всё равно слишком специфичный и в доклад это не уместишь)
Так что полезно будет даже если не планируется писать свой DS, но хочется понять как примерно спарк работает с любым источником данных.
Весь код в общей репо SPYT (Spark Over YT)
live coding DS от Яцека с кодом
YouTube
Как подключить к Apache Spark проприетарный источник данных / Александра Белоусова (Яндекс.Go)
Приглашаем на конференцию Saint HighLoad++ 2024, которая пройдет 24 и 25 июня в Санкт-Петербурге! Программа, подробности и билеты по ссылке: https://vk.cc/cuyIqx -------- -------- HighLoad++ Весна 2021 Крупнейшая профессиональная конференция для разработчиков…
Ладно, на самом деле тут не очень много рассказывать
В этом квартале меня добавили на полставки в проект, который призван упростить написание стриминг приложений на PyFlink. А-ля, такая обертка на декораторах поверх Flink’a.
Пока не ясно насколько проект жизнеспособен. Но я смог попробовать Flink и Kafka. И теперь точно не туплю при написании декораторов. Так что я уже доволен.
В целом, ощущения положительные, очень удобно писать map’ы и flatMap’ы над потоком. Всё просто и понятно. Но только до тех пор, пока нужно только что-то стандартное. Если надо сделать, то чего в Python API нет, то придётся делать уже больше, чем если бы писать только на Java.
Например:
Мне из сообщения {“id”, “field1”, “field2”} нужно было “field1” сделать ключом в сообщении в кафке. У Java API можно просто написать лямбду, которая это делает. В реализации PyFlink такое не предусмотрено.
И тут уже придётся делать больше, чем просто написать такое же на Java.
Для лучшего варианта без костылей и лишних трансформаций, пришлось сделать:
1) Вытащить из сорцов флинка, код сериализации
2) Подправить пару строчек
3) Упаковать в Jar и написать обёртку для Python на Py4j.
Это не особо трудно, но это надо будет сделать. А если вы такое можете сделать, то может и сразу на Java писать?)
Лучше только сделать PR в сам Flink, но извини, моё сердце пока занято спарком?
Доп:
Сравнение скорости PyFlink.
В статье выше написано, что если использовать только стандартные вещи из PyFlink Table API, то перформанс будет прямо таким же, как и Flink на Java, но мы это не замеряли.
По стримингу же всё грустно. Внутренние замеры показали, что простейшая перекладка из кафки в кафку с/без простой трасформации на pyFlink в 10 медленнее. На истинность не претендую, но похоже на правду, учитывая, сколько там всего сериализуется туда-сюда.
Сегодня стартует Data+AI Summit
Кто планирует смотреть?
Могу позволить себе только бесплатную секцию, которая будет 12-13 июня?
Интересно всего пара докладов
Точно хочу:
Data warehousing performance, scale and security with Databricks SQL - перформанс, это значит сразу смотрим
меньше:
Introduction to Mosaic AI: How Databricks Simplifies Your GenAI Journey - очень много про этот мозаик говорят, интересно понять есть ли что-то полезное в этом
How to create a holistic customer view to drive performance and revenue - может быть быть тоже что-то будет полезное
Databricks
Home | Databricks
Data and AI Summit — the premier event for the global data, analytics and AI community. Register now to level up your skills.
All You Need to Know About PyFlink
Отличная статья по PyFlink, которая полностью оправдывает своё название.
Тут вместе идёт теория и практика.
По теории рассматриваются: базовые понятия Flink, архитектура, различие Streaming и Table API и тд.
По практике есть куски кода, как правильно запускать Flink и советы, чтобы вариант на питоне был не сильно хуже варианта на Java.
У них же есть курсы по стримингу и Table API. Я посмотрел половину одного курса и могу сказать, что они короткие, но очень плохие.
- Посмотреть видео из середины на нужную тему нельзя, они заблокированы
- Девушка читает скрипт под картинки, потом нудный тест на модуль
- 0 практики
Не советую. Тот самый момент, когда лучше потратить время на доку.
В следующем посте допишу мои субъективные ощущения от работы с PyFlink и как это я мог отвлечься от познания глубин Спарка.
Ссылка на отстойные курсы
А ещё сегодня третий митап сообщества Database Internals, куда я точно пойду!
В планах доклады про СУБД Сокол и протокол репликации между кластерами YTsaurus.
Пока не ясно насколько будет полезно/интересно.
Но я давно никуда не ходил. В планах как минимум на умных людей посмотреть, себя показать и может найти кого-нибудь из Spark Over YT?
UPD:
В целом по докладам - мимо. Были темы, которые мне пока не интересны. Но зато была хорошая организация и я удостоверился, что не зря курс по бд смотрю.
Запись докладов можно посмотреть тут
databaseinternals.timepad.ru
Database Internals Meetup #3 (офлайн + онлайн): архитектура СУБД SoQoL, и протокол репликации YTsaurus / События на TimePad.ru
Третий митап российского сообщества разработчиков СУБД и распределенных систем. Обсудим архитектуру новой российской СУБД SoQoL и новый протокол межкластерной репликации данных YTsaurus.
В феврале Кирилл Мокевнин написал пост, что хочет провести экскурсии для студентов колледжа Хекслет. Ну и что-то меня сподвигло написать, что я могу.
И вот сегодня это свершилось!
Хорошо, что в компании этот процесс налажен и от меня нужно было только соединить нужных людей и выступить.
Я рассказывал про фундаментальные знания в ИТ и переход из одной специальности в другую. На примере себя как я перекатился из бекенда в DE.
По сути, это моё первое добровольное выступление перед аудиторией. В целом прошло очень гладко всё. Я собой доволен.
Хардкор посты давайте уже после майских?
Хороший доклад от Владимира. Примерно на половину повторяет прошлый доклад, но уже про другие SQL-движки. По сути, тоже обзорный, но с большей степенью погружения во внутренности, что конечно же круто и выгодно отличает от других обзорных докладов. Плюс…
databaseinternals.timepad.ru
Database Internals Meetup #2: зачем нам DBOS, и новый тип гистограмм в openGauss / События на TimePad.ru
Второй митап российского сообщества разработчиков СУБД и распределенных систем. Поговорим о задачах и позиционировании DBOS, а также о новом методе оценки кардинальностей в openGauss
Первый верифицированный канал о технологиях и искусственном интеллекте.
Сотрудничество/Реклама: @alexostro1
Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official
Last updated 4 days, 15 hours ago
Единственный легальный канал Wylsacom Media.
Есть новость или что сказать, наш бот для вас: @WylsacomRedNewsBot
По всем вопросам пишите сюда:
[email protected]
[email protected]
Last updated 3 weeks, 5 days ago
Крупнейшее медиа об интернет-культуре и технологиях.
Больше интересного на https://exploit.media
Написать в редакцию: @exploitex_bot
Сотрудничество: @todaycast
Last updated 2 months, 2 weeks ago