ML — это ОК

Description
Канал ML-команды ОК. 12 лет делаем крутые вещи и делимся ими здесь

Контакты: @netcitizen
Advertising
We recommend to visit
HAYZON
HAYZON
6,053,581 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 3 weeks, 4 days ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 2 weeks, 5 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago

2 months, 3 weeks ago

📄На ридинг-группе 3 октября гостевой доклад: Дарина Двинских, доцент ФКН ВШЭ, расскажет о том, как использовать сходство данных для сокращения числа коммуникаций в распределённых алгоритмах. Немного подробностей: Использование распределённой системы вместо…

2 months, 4 weeks ago

📄На ридинг-группе 3 октября гостевой доклад: Дарина Двинских, доцент ФКН ВШЭ, расскажет о том, как использовать сходство данных для сокращения числа коммуникаций в распределённых алгоритмах.

Немного подробностей:
Использование распределённой системы вместо одного вычислительного устройства позволяет обучать современные модели машинного обучения на огромных наборах данных. Однако эта мощь распределённых систем сопряжена с различными трудностями: коммуникации сервера (основного устройства) с вычислительными машинами могут существенно замедлить процесс обучения, особенно для систем, обладающих большими вычислительными ресурсами. Существуют различные методы для уменьшения количества таких коммуникаций. Среди них есть методы, учитывающие структуру задачи, например сходство данных, довольно часто встречающееся в приложениях машинного обучения. В докладе будет показано, как использовать сходство данных в задачах обучения с учителем, для того чтобы более эффективно коммуницировать с сервером.💻🔀🖥

Начало встречи в 18.00.

Зум: ссылка

Meeting ID: 895 0393 9531
Passcode: aivk

3 months, 1 week ago

Начинаем через 5 минут

5 months, 2 weeks ago

Начинаем через 3 минуты

5 months, 3 weeks ago

? Много сил положено на то, чтобы унифицировать подходы к решению ML-задач как в алгоритмах, так и в инженерной плоскости. Однако достоверные результаты и хорошие практики в нашей области стоят все ещё очень дорого, и поэтому для нас важно делиться опытом. А ещё мы внимательно читаем не только академиков, но и других ребят из индустрии.

Поэтому сегодня хотим поделиться папочкой с каналами, на которые подписаны мы сами и рекомендуем вам.

5 months, 3 weeks ago

?Рекомендательные алгоритмы в социальных сетях отвечают за retention. Чем лучше мы ранжируем ленту, тем она интереснее для пользователя, и тем охотнее он возвращается в наш сервис. В этом посте поговорим о том, что значит «хорошо ранжировать ленту» с точки зрения retention.

При формировании таргета ранжирующей модели используются данные о реакциях пользователей на посты: просмотрах, лайках, комментариях, и т.д. Такие сигналы, называемые общим словом engagement, положительно скоррелированы с retention. Это подтверждают эксперименты, в которых хронологические ленты сравниваются с ML-лентами. Но у engagement есть обратная сторона: часто посты, собирающие много реакций, могут быть низкого качества, например, кликбейтные или содержащие недостоверные данные. Такой контент уже негативно влияет на retention в долгосрочной перспективе [1]. Кроме того, рекомендуя некачественные посты, мы создаем сервису репутационные риски. В итоге модель, настроенная на engagement, только частично решает задачу увеличения retention.

Проблема решается учётом качества поста в таргете модели. Например, наряду с реакциями пользователей в таргет можно включить скоры качества, полученные с помощью классификаторов контента. Это, во-первых, научит модель поднимать хорошие посты наверх в выдаче, во-вторых, мотивирует авторов делать контент высокого качества. Можно даже попробовать вычислить оптимальный баланс между качеством и engagement в таргете, используя дополнительные предположения об их распределениях [2]. Эксперименты крупных западных платформ показывают, что модели, обученные с учётом качества контента, значимо выигрывают в retention [1].

Минус такого подхода в его субъективности. В конце концов, за решением о том, какой пост считать качественным, стоят не алгоритмы, а те, кто определяет критерии качества или размечает данные для моделей-классификаторов. От работы этих людей зависит, какие посты будут поощряться сервисом, а какие, наоборот, не получат охватов. Правильнее было бы спросить об этом самих пользователей, задав им вопросы, которые коррелируют с retention: «хотите ли вы видеть больше подобных статей? Оскорбляет ли этот пост какую-то категорию людей?» И тоже включить эти данные в таргеты ранжирующих моделей.

Ещё одна проблема учёта качества контента при ранжировании — как измерить результат. Раньше мы опирались на метрики engagement, которые легко двигаются в экспериментах. Теперь же нужно мерить retention, и это требует длинных экспериментов с риском потери метрик реакций на посты. Возможное решение — опросы пользователей. В одном из наших предыдущих постов успех измерялся именно так. Такие опросы тоже вызывают сложности: смещение аудитории, недостаток данных, результат сильно зависит от формулировки (Готовы ли вы рекомендовать наш сервис вашим друзьям и знакомым??).

С одной стороны, итог банальный: универсального рецепта нет и платформы решают проблемы компромисса между engagement и качеством в ранжировании как могут. С другой стороны, система держится в том числе на иногда субъективных решениях айтишников. Так работал ранний интернет, и, говорят, он был прекрасен?‍♂️.

Если вам понравился пост, обратите внимание на статьи, которые мы использовали при его подготовке. Там не только расширенное обсуждение идей из поста, но и много ссылок на источники по теме.
[1] What We Know About Using Non-Engagement Signals in Content Ranking
[2] Ranking by Engagement

8 months ago

??На ридинг-группе 25 апреля обсудим алгоритм удаления шума из речи в аудиопотоке с помощью лёгких генеративных состязательных сетей (GAN). Ведущим будет Макс Каледин из ВШЭ. Ждём вас в 18:00. Зум: https://us05web.zoom.us/j/81356812687?pwd=zWXaFnJptvDu5E…

8 months ago

??На ридинг-группе 25 апреля обсудим алгоритм удаления шума из речи в аудиопотоке с помощью лёгких генеративных состязательных сетей (GAN). Ведущим будет Макс Каледин из ВШЭ. Ждём вас в 18:00.

Зум: https://us05web.zoom.us/j/81356812687?pwd=zWXaFnJptvDu5EMKS4gLFrHknDjSAr.1
Meeting ID: 813 5681 2687
Passcode: 123

8 months, 2 weeks ago

⚡️Начинаем через 5 минут

10 months, 2 weeks ago

?Сергей Шнуров поёт: «Мамба, мамба – $#ямба». На ридинг-группе 15 февраля попробуем подтвердить или опровергнуть это утверждение. Представлять статью Mamba: Linear-Time Sequence Modeling with Selective State Spaces будет Андрей Кузнецов, директор по ML ОК. Ждём всех желающих в 18:00.

Зум: ссылка на звонок

We recommend to visit
HAYZON
HAYZON
6,053,581 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 3 weeks, 4 days ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 2 weeks, 5 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago