Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 3 months ago
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 2 months, 2 weeks ago
Развитие Lakehouse в российских компаниях
На прошлой неделе коллеги из канала «Инжиниринг данных» задавались вопросами:
— Как обстоят дела c Lakehouse в VK и в целом в РФ? Куда сместился акцент? Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
В комментарии пришел Алексей Пятов — заместитель директора департамента бизнес-решений в VK Cloud.
Дублируем сюда его ответ и прикладываем ссылку на видео.
*«А теперь все то же: GP+CH как базовая база. Плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке, где резиновый с3 и компьют по модели pay-as-you-go, что, собственно и дает драматический экономический эффект от реализации «домика у озера».
Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство- и регионообразующих компаний, а также прочих серьезных граждан.
Мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками. Перспективная вещь, поэтому, безусловно, надо поддержать.
Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте поглядим, где будет хорошо, посчитаем эффекты и дальше подумаем» (особенно памятуя начальный энтузиазм вокруг Хадупа и попытки по первости прикрутить его ко всему подряд)».*
Обсуждение, про которое говорит Алексей — дискуссия «Перспективные подходы к хранению и обработке данных. Переход от DWH к Data Lakehouse и Data Mesh».
Пишите свои комментарии по теме — будем рады подискутировать и тут тоже.
Привет! А вот и пятничный #дайджест. Делимся подборкой статей про ML и работу с данными из нашего блога на Хабре.
Кстати, подписывайтесь на наш Хабр.
Многие компании не готовы к ИИ. Частый сценарий — они просто не создали инфраструктуру для внедрения даже самых простых алгоритмов Data Science и машинного обучения. Перевели статью том, как все-таки использовать ИИ и ML, чтобы лучше справляться с задачами.
? Почему Starburst Icehouse подходит не всем
Перевели статью о концепции Icehouse. Вы поймете, почему в ней нет необходимости и она подходит далеко не всем, кто работает с открытыми архитектурами озера данных.
Для запуска и эксплуатации высоконагруженных ИТ-решений нужно разделение ресурсов под вычисление и хранение. Без него инфраструктура рискует превратиться в «чемодан без ручки» — с низкой эффективностью использования ресурсов и высокой сложностью управления. Статья от экспертов из команды SberData о том, как реализовать разделение Compute & Storage максимально нативно.
Чтобы использование ML было результативным, важно правильно выстроить весь пайплайн работы с данными и развернуть его в удобной для пользования среде. Последнее особенно важно, если конечный пользователь — человек без глубокой экспертизы в ИТ. В этом на своем опыте убедилась команда проекта «Сохранение кудрявого и розового пеликанов». Рассказываем о проекте, проблемах пользователей, поиске решения и результатах.
? Визуализация данных: четыре простых способа быстро улучшить диаграмму
Эффективная визуализация — важный навык для многих специальностей. Понятное и эстетически привлекательное представление информации может подтолкнуть аудиторию к определенным мыслям или действиям. Хотя на Python создано несколько библиотек визуализации данных, студенты часто начинают с Matplotlib. Перевели руководство по улучшению диаграмм, созданных в Matplotlib.
Хороших выходных!
Всем привет! Сегодняшний #дайджест — по мотивам прошедшей VK Cloud Conf. Делимся видео и кейсом про работу с данными.
? Доклад «DWH в облаке как драйвер Data Driven-подхода в Бургер Кинг». Александр Кулиев, CDO Бургер Кинг, рассказывает, как облачное DWH открыло компании возможности для внедрения ИИ и предиктивных моделей.
? Больше информации про «Бургер Кинг» — в истории о том, как компания перешла от множества источников данных к единому хранилищу. И в результате ускорила работу с данными и снизила нагрузку на ИТ-системы.
? Дискуссия «Перспективные подходы к хранению и обработке данных. Переход от DWH к Data Lakehouse и Data Mesh». Рассуждения об инфраструктуре для ИИ и кост-эффективном хранении данных, а также инструментарии, который позволит отлепить Compute от Storage.
Хороших выходных!
Всем привет!
Ребята из Mail.ru делают классное: smartmail:ML Meetup — уютный офлайн-митап по NLP, LLM и ML в целом.
⏰17 мая в 18:00 по МСК
?Офис VK
? На митапе будут доклады от тимлидов Mail.ru, в рамках которых ребята обсудят NLP-подходы, также расскажут про свой AutoML пайплайн. А еще обязательно поделятся опытом по заведению LLM-фич in the wild !
?Участие в митапе для всех свободное, но необходимо пройти регистрацию.
Рекомендуем!
Всем привет!
Сегодня не обычная пятница, а мимикрирующая под четверг. И поэтому вместо дайджеста мы с шикарными новостями.
VK Data Meetup возвращается 23 мая!
⏰15:00-19:00 по МСК
?Традиционно митап пройдет в офисе VK и онлайн
⚡️Бесплатная регистрация
В новой серии митапа поговорим о технологиях Trino и dbt в проде, о стремительном запуске риал-тайм антифрода и Kubernetes для работы с данными (как же без K8s), о трендах и архитектурных паттернах платформ данных.
В программе доклады VK, Тинькофф, OZON Fintech, билайн, и Детского мира, а еще афтепати и активный нетворкинг.
Присоединяйтесь к коммьюнити, будет интересно!
Всем привет!
Традиционный пятничный #дайджест мы собрали из отличных статей про большие языковые модели, противостояние Go с Python, а также про векторное квантование с заполнением пространства. А что вы знаете про это?
? 5 Ways to Serve Open Source LLMs (With Code Examples) | by Youness Mansar | Apr, 2024 | Towards Data Science — в постоянно развивающейся сфере больших языковых моделей (LLM) инструменты и методы их обслуживания развиваются такими же быстрыми темпами. Вот 5 таких инструментов с открытым исходным кодом.
? How to talk to machines: 10 secrets of prompt engineering | InfoWorld — Как разговаривать с машинами? Вот 10 вещей, которые вам нужно знать о написании подсказок LLM.
? Go language shines for AI-powered workloads, survey says | InfoWorld — Go или Python? Какой язык следует использовать при запуске работы с искусственным интеллектом.
? Interpretable Latent Spaces Using Space-Filling Vector Quantization | by Mohammad Hassan Vali | Apr, 2024 | Towards Data Science — так что вы знаете про векторное квантование с заполнением пространства?
Stay tuned!
?? Подписаться на телеграм-канал «Данные на стероидах»
Всем привет!
Друзья, с вебинара Алексея Белозерского прошла уже неделя. Но спрос на репозиторий, который Леша показывал превысил наши ожидания (чему мы очень рады).
Поэтому поделимся записью вебинара и ссылкой на репозиторий тут:
Всем привет!
Сегодня наш традиционный пятничный #дайджест посвящен деньгам! Да-да, две статьи в нашей подборке про окупаемость и финопс.
? Generative AI could deliver a $2.25 trillion economy boost: report | CIO Dive — компании все больше отдают приоритет инвестициям в генеративный искусственный интеллект, но при этом они не ожидают быстрой окупаемости инвестиций. Большинство руководителей планируют, что они вернутся в срок от трех до пяти лет.
? What’s going on with cloud finops? | InfoWorld — State of FinOps — это ежегодное исследование, проводимое FinOps Foundation для сбора информации о важнейших приоритетах, тенденциях отрасли и направлениях практики FinOps. Вот краткий отчёт.
? Stop words and named entity recognition (NER) filtering for Airline Sentiment text PreProcessing | by Mohamad Mahmood | Feb, 2024 | Dev Genius — набор данных Twitter Airline Sentiment содержит коллекцию твитов, которые часто содержат шум, нерелевантную информацию и варианты представления текста. Они могут повлиять на точность и эффективность последующих задач обработки естественного языка (НЛП). Чтобы решить эти проблемы, авиакомпания начала применять фильтрацию стоп-слов.
? How data governance must evolve to meet the generative AI challenge | InfoWorld — генеративный ИИ создает новые риски, проблемы и возможности в отношении того, как организации получают и используют данные. В статье раскрыты четыре способа, с помощью которых команды могут решить эти проблемы.
Stay tuned!
Стань главным героем VK Data Meetup!
? К 23 мая мы вновь готовим VK Data Meetup и ищем экспертов, готовых поделиться своими знаниями и опытом.
Если вы эксперт в области работы с данными и у вас есть технический или архитектурный доклад про инфраструктуру для ML/AI, горизонтально масштабируемые и Serverless-хранилища данных, СХД для работы с большими данными, новые и экзотические базы данных или другие интересные темы, заполните заявку до 24 марта и станьте спикером майского VK Data Meetup! ?
Хочу стать спикером
Самые интересные темы попадут в программу VK Data Meetup. Мы свяжемся с вами, обсудим детали доклада и поможем подготовиться к выступлению.
? Оставляйте заявку и делитесь ссылкой с друзьями, которые хотят публично рассказать о своих проектах!
Привет!
Когда у компании много источников, и нет адекватной инфраструктуры хранения, обработки и доставки данных — это всегда боль для аналитика. Проблема не только в рутинных операциях а-ля «выгрузи кучу данных в разных форматах из разных источников и попробуй с ними поработать». Самое неприятное, что после всего этого приходится долго и нудно доказывать бизнесу, что твоим отчетам можно верить.
Ситуация распространенная, и встречается не только в небольших компаниях, но и во вполне крупных, если работа с данными для них не основной бизнес. Что с этим делать?
Об этом мы поговорим на вебинаре 28 февраля в 17:00.
Алексей Белозерский, архитектор VK Cloud, расскажет и покажет:
? Почему не стоит называть BI+Excel+Data Sources аналитической инфраструктурой (даже если очень хочется).
?На каких принципах строится DWH, ETL, BI, какие инструменты можно задействовать и в чем их плюсы/минусы. Можно ли собрать полноценную инфраструктуру своими руками или с небольшой командой.
?Live demo: эксплуатация системы.
?Ответы на вопросы, конечно, тоже будут — в конце вебинара QA-сессия.
Присоединяйтесь вот по этой ссылке.
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 3 months ago
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 2 months, 2 weeks ago