DataEng

Description
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Advertising
We recommend to visit

Бизнес блог #1
Выжимаю книги до самой сути.

? Реклама - @jaMasha

? Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot

? Оставьте след в истории с помощью книги
https://expert-book.pro

Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.

Last updated 2 days, 10 hours ago

Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru

По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2

Last updated 2 weeks, 1 day ago

3 months ago
**Бот-помощник для дата инженера** ***?***

Бот-помощник для дата инженера ?

Частенько возникает необходимость расшифровать расписание crontab-выражения на человеческий язык, поэтому запили телеграм-бота: CrontabDescriptionBot

Отправьте ему cron-строку и он вернёт вам расписание. Пользуйтесь!

Под капотом он работает на лямбдах, поэтому оплачивать хостинг мне не надо, и поэтому всегда будет работать.

3 months ago

В сети появился интересный проект — SlateDB. Это встроенное хранилище на базе LSM Tree, но все данные хранятся на Object Storage сервисах (Amazon S3, Google Cloud Storage, minIO и т.д.). Проект написан на Rust, и пока не существует биндингов на другие языки. SlateDB активно разрабатывается и пока не рекомендуется к использованию в продакшене.

Судя по всему, проект появился в результате прохождения мини-курса Mini-LSM.

slatedb.io

SlateDB - An embedded storage engine built on object storage | SlateDB

Description will go into a meta tag in <head />

В сети появился интересный проект — [SlateDB](https://slatedb.io/). Это встроенное хранилище на базе LSM Tree, но все данные хранятся на Object …
3 months ago

Недавно я постил доклад про GIL и его отключение в будущих версиях Python. Вчера же на канал PyCon US загрузили доклад от Юры Селиванова про сабинтерпретаторы: Overcoming GIL with subinterpreters and immutability. Это один из вариантов улучшения производительности Python без отключения GIL. Я сам не сторонник удаления GIL, т.к. параллельное выполнение потоков потребует от программиста следить за их синхронизацией, чем собственно сейчас занимается GIL (он же mutex), поэтому интересно было послушать его доклад.

Для тех, кто в танке, PEP 734 описывает работу сабинтерпретаторов, релиз этой библиотеки планировался в составе Python 3.13, но, к сожалению, Steering Council в апреле этого года решил не включать модуль interpreters в stdlib, мотивировав тем, что модулю надо "настояться" в качестве отдельного PyPI пакета. Решение не осуждаю, поэтому пробуйте его на вкус через pip, правда работает только с 3.13+.

Telegram

DataEng

GIL и Python Python, пожалуй, самый популярный язык программирования в дата инжиниринге несмотря на то, что его постоянно ругают за производительность и обжорство. Свои позиции он не сдал чего не скажешь, например, о Scala ***☠️*** Python своей "тормознутостью"…

3 months ago
Мудрые слова!

Мудрые слова!

А что думаете вы? Я на практике также стараюсь максимально избегать распределенных транзакций, т.к. это сразу значительно усложняет систему.

Наиболее популярные паттерны распределенных транзакций:

Saga Pattern
2-Phase Commit

3 months, 1 week ago

Релиз Apache Airflow 2.10

Сегодня вышел релиз новой версии Apache Airflow — 2.10. Не успел я ещё перейти на 2.9, а нам подогнали 2.10. Что нового?

@skip_if и @run_if декораторы, позволяющие задавать условия при которых следует запускать или пропускатьtask
— появилась возможность задавать разный Executor для tasks в рамках одного DAG
— Датасеты отныне не триггерят DAGs, находящиеся в состоянии paused
Важно! Начиная с версии 2.10 Airflow по-умолчанию собирает телеметрию в рамках Open Source Marketing, все данные передаются в систему аналитики Scarf. Чтобы отключить, необходимо задать в конфиге [usage_data_collection]enabled=False либо через переменную окружения SCARF_ANALYTICS=false

С полным списком изменений можно ознакомиться по ссылке.

GitHub

Release Apache Airflow 2.10.0 · apache/airflow

Significant Changes Datasets no longer trigger inactive DAGs (#38891) Previously, when a DAG is paused or removed, incoming dataset events would still trigger it, and the DAG would run when it is u...

**Релиз Apache Airflow 2.10**
3 months, 1 week ago

GIL и Python

Python, пожалуй, самый популярный язык программирования в дата инжиниринге несмотря на то, что его постоянно ругают за производительность и обжорство. Свои позиции он не сдал чего не скажешь, например, о Scala ☠️

Python своей "тормознутостью" отчасти обязан некогда архитектурному решению под названием GIL. Многие слышали эту аббревиатуру, но не все знают причину по которой появился GIL и как он работает под капотом. Если вам это интересно, то держите отличный доклад на русском языке: Зачем нужен GIL и как от него избавиться? от Евгения Афанасьева.

В Python версии 3.13, релиз которой будет уже в октябре, добавили опциональную возможность отключить GIL ?, нюансы описаны в PEP-703. И про это есть в докладе у Евгения.

В общем, must watch

YouTube

Зачем нужен GIL и как от него избавиться? / Евгений Афанасьев

Это Евгений Афанасьев, Teamlead в Avito, и его доклад на Pytup в Нижнем Новгороде — нашей конференции по питон-разработке. Здесь мы обсудили, как применять Python в бизнесе, ML и науке, и рассмотрели новшества в языке. В своём выступлении Евгений расскажет…

5 months, 3 weeks ago

На прошлой неделе JetBrains анонсировали релиз их новой IDE для разработки на Rust: RustRover
Изначально это был плагин для их IDE, который в итоге перерос в полноценный продукт. Также ребята решили предоставить бесплатную лицензию на продукт для некоммерческой разработки для всех. Я попробовал и получил бесплатную лицензию на 1 год, возможно в будущем её можно будет продлить.

Впервые язык Rust я попробовал ещё в далёком 2015 году, когда вышла первая стабильная версия языка. С тех пор были неоднократные попытки с моей стороны написать что-нибудь существенное, но не было подходящих проектов под рукой. Сейчас же видно, что Rust плотно вошел в экосистему Python и внёс значительный вклад в её развитие. Наверняка вы слышали о таких проектах как Pydantic, Polars, PyO3 и т.д. Некоторые из них стали революционными для Python.

Python + Rust = ❤️

Также буквально на днях вышел вебинар от JetBrains, посвященный языку Rust и методам его изучения: Programming Education: Tailoring Tools and Techniques for Rust. Если вы вдруг задумались об изучении Rust, то рекомендую к просмотру. В описании к видео есть полезные ресурсы, которые помогут лучше усвоить сложные концепции языка такие, например, как Ownership.

Со своей стороны я попробую ещё раз оседлать эту лошадку и найти подходящий проект, чтобы не потерять мотивацию на пути изучения.

А какой у вас был опыт с Rust?

The JetBrains Blog

RustRover Is Released and Includes a Free Non-Commercial Option | The RustRover Blog

We’re excited to announce the general availability of RustRover, the powerhouse IDE for Rust developers!

На прошлой неделе **JetBrains** [анонсировали релиз](https://blog.jetbrains.com/rust/2024/05/21/rustrover-is-released-and-includes-a-free-non-commercial-option/) их новой IDE для разработки на Rust: [RustRover](https://www.jetbrains.com/rust/)
6 months, 1 week ago
**Большая папка с крутыми каналами про …

Большая папка с крутыми каналами про IT ⚡️**** 

Каналов про IT много, хороших каналов про IT — мало. Собрали такие в одном месте! Тут про новости, ивенты, вакансии, работу, учебу и многое другое. Полезно как для начинающих специалистов, так и опытных айтишников из Центральной Азии ?

Переходите по ссылке, добавляйте папку себе и оставайтесь в тренде всего самого интересного из IT-мира:

https://t.me/addlist/4zT-2KYP1JYzNGRi

6 months, 3 weeks ago
8 months, 2 weeks ago

Убийца DuckDB ?

А вы уже видели аналог DuckDB от ребят из ClickHouse? Называется это чудо chDB. Представляет из себя встроенную OLAP базу данных под капотом которой пыхтит движок ClickHouse. Умеет в Parquet, Arrow, ORC и кучу других форматов, есть биндинги для Python, Go, Rust, NodeJS, Bun. Работает на Linux и MacOS, жаль Windows не поддерживает.

Узнал я о существовании этой БД из новости о том, что chDB присоединяется к ClickHouse: https://auxten.com/chdb-is-joining-clickhouse/

a Database guy

chDB is joining ClickHouse

The Start During the Lunar New Year in February last year, in order to solve the efficiency problem of the machine learning model sample data I was facing at the time, I created chDB. Of course, compared to everything that the creators of ClickHouse have…

We recommend to visit

Бизнес блог #1
Выжимаю книги до самой сути.

? Реклама - @jaMasha

? Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot

? Оставьте след в истории с помощью книги
https://expert-book.pro

Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.

Last updated 2 days, 10 hours ago

Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru

По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2

Last updated 2 weeks, 1 day ago