Data Explorers Hub

Description
Navigating the Big Data Landscape

personal blog https://blog-vndv.vercel.app/

по всем вопросам @just_vanich
Advertising
We recommend to visit

??? ????
??? ??? ???????
???/??????
???????/???????/?????

????? ??? ????? ??? ???? ????? ?? ???? ???? ???

Last updated 1 year, 2 months ago

بيور منصة متخصصة في العناية بالبشرة والجسم والصحة العامة

Last updated 6 months ago

Официальный каталог видео для создания дипфейков в боте Fabula AI.

Last updated 2 months, 1 week ago

4 months, 2 weeks ago

Trino Fest 2024На официальном канале Trino, появились записи докладов с Trino Fest 2024

YouTube

Trino Fest 2024

All talks from Trino Fest 2024, recorded live in Boston, Massachusetts!

**Trino Fest 2024**На официальном канале Trino, появились [записи](https://youtube.com/playlist?list=PLFnr63che7waExsD4lWarA3ML4R2HH58A&si=yjb3TTPvAtUqV6iQ) докладов с Trino Fest 2024
4 months, 3 weeks ago

Processing event streams with PathwayНа канале был пост проPathway, а вот и кейс его применения, потоковая обработка данных из Kafka.

Telegram

Data Explorers Hub

Pathway - это open-source framework для обработки данных в реальном времени с высокой пропускной способностью и низкой задержкой. Он используется для написания кода Python, который органично сочетает в себе пакетную обработку, потоковую передачу и API-интерфейсы…

4 months, 4 weeks ago

**Full-fledged MLOps open source platforms:

1.** Kubeflow — это open-source платформа , призванная сделать развертывание моделей машинного обучения в Kubernetes простым, портативным и масштабируемым. Она предоставляет комплексный набор инструментов для обучения, обслуживания и мониторинга моделей, интегрированных в единую целостную структуру.

2. MLflow, разработанная Databricks, представляет собой open-source платформу, которая управляет жизненным циклом машинного обучения, включая экспериментирование, воспроизводимость и развертывание. Она предназначен для работы с любой библиотекой, алгоритмом и инструментом развертывания ML.

3. Metaflow, первоначально разработанный Netflix, представляет собой ориентированную на человека среду для анализа данных. Он упрощает создание реальных проектов по обработке данных и управление ими, уделяя особое внимание автоматизации и масштабируемости конвейеров данных.

4. Flyte — это платформа автоматизации рабочих процессов на основе Kubernetes для сложных, критически важных данных и рабочих процессов машинного обучения. Оно позволяет пользователям создавать, отслеживать и управлять сквозными рабочими процессами с высокой надежностью и масштабируемостью.

5. MLReef — это комплексная платформа для совместной работы по разработке машинного обучения. Основное внимание уделяется обеспечению воспроизводимости, совместной разработке и развертыванию моделей машинного обучения.

6. Seldon Core — это open-source платформа, которая помогает развертывать, масштабировать и управлять тысячами моделей машинного обучения в Kubernetes. Она разработан с учетом языковой независимости и поддерживает модели из любой среды машинного обучения.

7. Sematic — это open-source инструмент, который упрощает создание и поддержку пайплайнов машинного обучения. Он спроектирован с учетом надежности и позволяет разработчикам сосредоточиться на своих моделях машинного обучения, а не на инфраструктуре.

mlflow.org

MLflow | MLflow

Description will go into a meta tag in <head />

7 months ago

How to succeed as a data engineer without the burnout

При создании и обслуживании современной платформы данных давление на инженеров данных со стороны бизнеса может быть огромным. Ключ к успеху в этой сложной обстановке не в том, чтобы работать еще усерднее, важно разумно подходить к тому, над чем вы работаете, и к тому, как это реализуется.

Принимая основополагающие принципы DataOps, в том числе хорошо спланированную модульную инфраструктуру, упреждающий мониторинг, надежное управление данными, отказоустойчивость и культуру совместного обучения, инженеры могут обеспечить эффективную и бесперебойную работу платформ данных любого размера с минимальными усилиями по обслуживанию и четкой ценность бизнеса.

В этом руководстве изложен ряд лучших практик, призванных сделать жизнь инженеров данных менее напряженной за счет создания среды, в которой системы работают без сбоев, обслуживание предсказуемо и предоставление ценности является последовательным. Обсуждаемые методы не только делают платформы данных более производительными и ценными с точки зрения бизнеса, но и значительно снижают риск выгорания.

stackoverflow.blog

How to succeed as a data engineer without the burnout - Stack Overflow

**How to succeed as a data engineer without the burnout**
7 months ago

Redka - это Redis, переработанный с помощью SQLite. Цель проекта - переопределить лучшие части Redis с помощью SQLite, сохраняя при этом совместимость с Redis API. Он включает транзакции ACID, представления SQL для лучшего анализа и репортинг, Redis-совместимые команды и протокол связи и многое другое. Redka не поддерживает сценарии Lua, аутентификацию и списки управления доступом.

По бенчмаркам
Redka в 2–6 раз медленнее Redis (неудивительно, поскольку сравниваем реляционную базу данных с хранилищем данных «ключ-значение»), но она все равно может выполнять 22К операций записи в секунду и 57К операций чтения в секунду, что довольно хорошо.

Автором проекта является Антон Жиянов, у которого есть замечательный курс по оконным функциям в SQL.

GitHub

GitHub - nalgeon/redka: Redis re-implemented with SQLite

Redis re-implemented with SQLite. Contribute to nalgeon/redka development by creating an account on GitHub.

[Redka](https://github.com/nalgeon/redka?utm_source=tldrnewsletter) - это Redis, переработанный с помощью SQLite. Цель проекта - переопределить лучшие части Redis с помощью SQLite, сохраняя при …
7 months ago

PostgreSQL Index AdvisorЭто расширение PostgreSQL, позволяющее рекомендовать индексы для повышения производительности запросов. Он поддерживает общие параметры и материализованные представления и может идентифицировать таблицы и столбцы.

GitHub

GitHub - supabase/index_advisor: PostgreSQL Index Advisor

PostgreSQL Index Advisor. Contribute to supabase/index\_advisor development by creating an account on GitHub.

**PostgreSQL Index Advisor**Это [расширение](https://github.com/supabase/index_advisor?utm_source=tldrnewsletter) PostgreSQL, позволяющее рекомендовать индексы для повышения производительности запросов. Он поддерживает общие параметры и материализованные представления и …
9 months, 1 week ago
Всем привет! Разыгрываем книгу для участия …

Всем привет! Разыгрываем книгу для участия нажмите на кнопку и ожидайте розыгрыша. Итоги подведем в следующее воскресенье 18.02

9 months, 1 week ago
**How to onboard**Уже третий раз натыкаюсь …

How to onboardУже третий раз натыкаюсь на эту статью, но все не добавляю ее в канал, хотя тема очень актуальная.

Во многих компаниях либо нет культуры онбординга, либо все это делается экспромтом.
Пришел новый сотрудник и ему тимлид рассказал, какие сервисы есть.
Через боль и страдания, дерганья коллег, сотрудник узнаёт, как функционирует система.

Как правило, через 3 месяца вы должны рассчитывать на то, что сможете внести весомый вклад в новую команду. Для должностей Senior+ это означает, что к тому времени вы также начнете вносить свой вклад в управление командой.

В данном посте предлагается подход к онбордингу.

9 months, 1 week ago

SQL for data scientist in 100 Queries

Заметки и рабочие примеры распространенных SQL-запросов.

11 months, 1 week ago

Сервис для работы с SQL-базами данных Yandex WebSQL вышел в Public Preview. Это значит, что теперь сервис доступен всем пользователям и не тарифицируется.
Yandex WebSQL позволяет работать с управляемыми базами данных PostgreSQL, MySQL и ClickHouse прямо в веб-интерфейсе. Можно просматривать схемы, вносить изменения, писать запросы, пользуясь подсказками и подсветкой ошибок, и многое другое.

cloud.yandex.ru

Yandex WebSQL

Инструмент для работы с SQL-базами данных в Yandex Cloud.

Сервис для работы с SQL-базами данных [Yandex WebSQL](https://click.sender.yandex.ru/l/1252679/1303683/2/L/SWlCY0FDUlFMVlZ3SFJJbEVDWS9ZaXNNU2djRVhRcGxSd3hRV3dCb1ZHZDZWMGtMWW41d2UwRnphUXQ0WG41ZFgxMVlCbklOVm1GNgphRk5BUVZGUkgxQldkVndYWDNVdEtqazNVMHBXT2dFakF6TVdBMU1HRTBzY0xqRVpNa0JkSUYwUVVpSUZVeDRiQmhJMWN3PT06MTE4Mzow/*https://cloud.yandex.ru/services/websql?utm_source=mailing&amp;utm_medium=email&amp;utm_campaign=promo_websql_pp_12_12_2023) вышел в Public Preview. Это значит, что теперь сервис доступен всем пользователям …
We recommend to visit

??? ????
??? ??? ???????
???/??????
???????/???????/?????

????? ??? ????? ??? ???? ????? ?? ???? ???? ???

Last updated 1 year, 2 months ago

بيور منصة متخصصة في العناية بالبشرة والجسم والصحة العامة

Last updated 6 months ago

Официальный каталог видео для создания дипфейков в боте Fabula AI.

Last updated 2 months, 1 week ago