Данные на стероидах

Description
Команда VK Cloud о практиках и подходах для извлечения максимальной пользы из работы с данными.
Advertising
We recommend to visit
HAYZON
HAYZON
6,375,969 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 6 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 3 months ago

Новые и перспективные Web3 игры с добычей токенов.

Чат: https://t.me/Crypto_Wolf_Chat

Правила чата смотрите в описании чата.

Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118

По теме сотрудничества: @Zombini

Last updated 2 months, 2 weeks ago

4 months, 1 week ago

Развитие Lakehouse в российских компаниях

На прошлой неделе коллеги из канала «Инжиниринг данных» задавались вопросами:

Как обстоят дела c Lakehouse в VK и в целом в РФ? Куда сместился акцент? Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

В комментарии пришел Алексей Пятов — заместитель директора департамента бизнес-решений в VK Cloud.

Дублируем сюда его ответ и прикладываем ссылку на видео.

*«А теперь все то же: GP+CH как базовая база. Плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке, где резиновый с3 и компьют по модели pay-as-you-go, что, собственно и дает драматический экономический эффект от реализации «домика у озера».

Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство- и регионообразующих компаний, а также прочих серьезных граждан.

Мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками. Перспективная вещь, поэтому, безусловно, надо поддержать.

Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте поглядим, где будет хорошо, посчитаем эффекты и дальше подумаем» (особенно памятуя начальный энтузиазм вокруг Хадупа и попытки по первости прикрутить его ко всему подряд)».*

Обсуждение, про которое говорит Алексей — дискуссия «Перспективные подходы к хранению и обработке данных. Переход от DWH к Data Lakehouse и Data Mesh».

Смотреть дискуссию

Пишите свои комментарии по теме — будем рады подискутировать и тут тоже.

4 months, 3 weeks ago

Привет! А вот и пятничный #дайджест. Делимся подборкой статей про ML и работу с данными из нашего блога на Хабре.

Кстати, подписывайтесь на наш Хабр.

? Иерархия ИИ-потребностей

Многие компании не готовы к ИИ. Частый сценарий — они просто не создали инфраструктуру для внедрения даже самых простых алгоритмов Data Science и машинного обучения. Перевели статью том, как все-таки использовать ИИ и ML, чтобы лучше справляться с задачами.

? Почему Starburst Icehouse подходит не всем

Перевели статью о концепции Icehouse. Вы поймете, почему в ней нет необходимости и она подходит далеко не всем, кто работает с открытыми архитектурами озера данных.

⚖️ Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Для запуска и эксплуатации высоконагруженных ИТ-решений нужно разделение ресурсов под вычисление и хранение. Без него инфраструктура рискует превратиться в «чемодан без ручки» — с низкой эффективностью использования ресурсов и высокой сложностью управления. Статья от экспертов из команды SberData о том, как реализовать разделение Compute & Storage максимально нативно.

? Миграция пеликанов в облака: как реализовать сложный орнитологический проект на базе облачной платформы

Чтобы использование ML было результативным, важно правильно выстроить весь пайплайн работы с данными и развернуть его в удобной для пользования среде. Последнее особенно важно, если конечный пользователь — человек без глубокой экспертизы в ИТ. В этом на своем опыте убедилась команда проекта «Сохранение кудрявого и розового пеликанов». Рассказываем о проекте, проблемах пользователей, поиске решения и результатах.

? Визуализация данных: четыре простых способа быстро улучшить диаграмму

Эффективная визуализация — важный навык для многих специальностей. Понятное и эстетически привлекательное представление информации может подтолкнуть аудиторию к определенным мыслям или действиям. Хотя на Python создано несколько библиотек визуализации данных, студенты часто начинают с Matplotlib. Перевели руководство по улучшению диаграмм, созданных в Matplotlib.

Хороших выходных!

?? Подписаться на телеграм-канал «Данные на стероидах»

5 months ago

Всем привет! Сегодняшний #дайджест — по мотивам прошедшей VK Cloud Conf. Делимся видео и кейсом про работу с данными.

? Доклад «DWH в облаке как драйвер Data Driven-подхода в Бургер Кинг». Александр Кулиев, CDO Бургер Кинг, рассказывает, как облачное DWH открыло компании возможности для внедрения ИИ и предиктивных моделей.

Смотреть доклад

? Больше информации про «Бургер Кинг» — в истории о том, как компания перешла от множества источников данных к единому хранилищу. И в результате ускорила работу с данными и снизила нагрузку на ИТ-системы.

Читать историю

? Дискуссия «Перспективные подходы к хранению и обработке данных. Переход от DWH к Data Lakehouse и Data Mesh». Рассуждения об инфраструктуре для ИИ и кост-эффективном хранении данных, а также инструментарии, который позволит отлепить Compute от Storage.

Смотреть дискуссию

Хороших выходных!

?? Подписаться на телеграм-канал «Данные на стероидах»

7 months ago
Всем привет!

Всем привет!

Ребята из Mail.ru делают классное: smartmail:ML Meetup — уютный офлайн-митап по NLP, LLM и ML в целом.

17 мая в 18:00 по МСК
?Офис VK

? На митапе будут доклады от тимлидов Mail.ru, в рамках которых ребята обсудят NLP-подходы, также расскажут про свой AutoML пайплайн. А еще обязательно поделятся опытом по заведению LLM-фич in the wild !

?Участие в митапе для всех свободное, но необходимо пройти регистрацию.

Рекомендуем!

7 months ago
Всем привет!

Всем привет!

Сегодня не обычная пятница, а мимикрирующая под четверг. И поэтому вместо дайджеста мы с шикарными новостями.

VK Data Meetup возвращается 23 мая!

15:00-19:00 по МСК
?Традиционно митап пройдет в офисе VK и онлайн
⚡️Бесплатная регистрация
В новой серии митапа поговорим о технологиях Trino и dbt в проде, о стремительном запуске риал-тайм антифрода и Kubernetes для работы с данными (как же без K8s), о трендах и архитектурных паттернах платформ данных.

В программе доклады VK, Тинькофф, OZON Fintech, билайн, и Детского мира, а еще афтепати и активный нетворкинг.

Присоединяйтесь к коммьюнити, будет интересно!

Зарегестрироваться

7 months, 2 weeks ago
Всем привет!

Всем привет!

Традиционный пятничный #дайджест мы собрали из отличных статей про большие языковые модели, противостояние Go с Python, а также про векторное квантование с заполнением пространства. А что вы знаете про это?

? 5 Ways to Serve Open Source LLMs (With Code Examples) | by Youness Mansar | Apr, 2024 | Towards Data Science — в постоянно развивающейся сфере больших языковых моделей (LLM) инструменты и методы их обслуживания развиваются такими же быстрыми темпами. Вот 5 таких инструментов с открытым исходным кодом.

? How to talk to machines: 10 secrets of prompt engineering | InfoWorld — Как разговаривать с машинами? Вот 10 вещей, которые вам нужно знать о написании подсказок LLM.

? Go language shines for AI-powered workloads, survey says | InfoWorld — Go или Python? Какой язык следует использовать при запуске работы с искусственным интеллектом.

? Interpretable Latent Spaces Using Space-Filling Vector Quantization | by Mohammad Hassan Vali | Apr, 2024 | Towards Data Science — так что вы знаете про векторное квантование с заполнением пространства?

Stay tuned!
?? Подписаться на телеграм-канал «Данные на стероидах»

8 months, 3 weeks ago

Всем привет!

Друзья, с вебинара Алексея Белозерского прошла уже неделя. Но спрос на репозиторий, который Леша показывал превысил наши ожидания (чему мы очень рады).

Поэтому поделимся записью вебинара и ссылкой на репозиторий тут:

? Запись выступления
? Ссылка на репозиторий

8 months, 4 weeks ago
Всем привет!

Всем привет!

Сегодня наш традиционный пятничный #дайджест посвящен деньгам! Да-да, две статьи в нашей подборке про окупаемость и финопс.

? Generative AI could deliver a $2.25 trillion economy boost: report | CIO Dive — компании все больше отдают приоритет инвестициям в генеративный искусственный интеллект, но при этом они не ожидают быстрой окупаемости инвестиций. Большинство руководителей планируют, что они вернутся в срок от трех до пяти лет.

? What’s going on with cloud finops? | InfoWorld — State of FinOps — это ежегодное исследование, проводимое FinOps Foundation для сбора информации о важнейших приоритетах, тенденциях отрасли и направлениях практики FinOps. Вот краткий отчёт.

? Stop words and named entity recognition (NER) filtering for Airline Sentiment text PreProcessing | by Mohamad Mahmood | Feb, 2024 | Dev Genius — набор данных Twitter Airline Sentiment содержит коллекцию твитов, которые часто содержат шум, нерелевантную информацию и варианты представления текста. Они могут повлиять на точность и эффективность последующих задач обработки естественного языка (НЛП). Чтобы решить эти проблемы, авиакомпания начала применять фильтрацию стоп-слов.

? How data governance must evolve to meet the generative AI challenge | InfoWorld — генеративный ИИ создает новые риски, проблемы и возможности в отношении того, как организации получают и используют данные. В статье раскрыты четыре способа, с помощью которых команды могут решить эти проблемы.

Stay tuned!

?? Подписаться на телеграм-канал «Данные на стероидах»

9 months ago
**Стань главным героем VK Data Meetup!**

Стань главным героем VK Data Meetup!
? К 23 мая мы вновь готовим VK Data Meetup и ищем экспертов, готовых поделиться своими знаниями и опытом.

Если вы эксперт в области работы с данными и у вас есть технический или архитектурный доклад про инфраструктуру для ML/AI, горизонтально масштабируемые и Serverless-хранилища данных, СХД для работы с большими данными, новые и экзотические базы данных или другие интересные темы, заполните заявку до 24 марта и станьте спикером майского VK Data Meetup! ?
Хочу стать спикером

Самые интересные темы попадут в программу VK Data Meetup. Мы свяжемся с вами, обсудим детали доклада и поможем подготовиться к выступлению.

? Оставляйте заявку и делитесь ссылкой с друзьями, которые хотят публично рассказать о своих проектах!

9 months, 1 week ago
Привет!

Привет!

Когда у компании много источников, и нет адекватной инфраструктуры хранения, обработки и доставки данных — это всегда боль для аналитика. Проблема не только в рутинных операциях а-ля «выгрузи кучу данных в разных форматах из разных источников и попробуй с ними поработать». Самое неприятное, что после всего этого приходится долго и нудно доказывать бизнесу, что твоим отчетам можно верить.

Ситуация распространенная, и встречается не только в небольших компаниях, но и во вполне крупных, если работа с данными для них не основной бизнес. Что с этим делать?

Об этом мы поговорим на вебинаре 28 февраля в 17:00.

Алексей Белозерский, архитектор VK Cloud, расскажет и покажет:

? Почему не стоит называть BI+Excel+Data Sources аналитической инфраструктурой (даже если очень хочется).

?На каких принципах строится DWH, ETL, BI, какие инструменты можно задействовать и в чем их плюсы/минусы. Можно ли собрать полноценную инфраструктуру своими руками или с небольшой командой.

?Live demo: эксплуатация системы.

?Ответы на вопросы, конечно, тоже будут — в конце вебинара QA-сессия.

Присоединяйтесь вот по этой ссылке.

We recommend to visit
HAYZON
HAYZON
6,375,969 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 6 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 3 months ago

Новые и перспективные Web3 игры с добычей токенов.

Чат: https://t.me/Crypto_Wolf_Chat

Правила чата смотрите в описании чата.

Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118

По теме сотрудничества: @Zombini

Last updated 2 months, 2 weeks ago