ML — это ОК

Description
Канал ML-команды ОК. 12 лет делаем крутые вещи и делимся ими здесь

Контакты: @netcitizen
Advertising
We recommend to visit
Roxman
Roxman
13,295,527 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 6 days, 5 hours ago

HAYZON
HAYZON
6,745,623 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Last updated 21 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 3 weeks ago

2 weeks, 3 days ago

📄На ридинг-группе 3 октября гостевой доклад: Дарина Двинских, доцент ФКН ВШЭ, расскажет о том, как использовать сходство данных для сокращения числа коммуникаций в распределённых алгоритмах. Немного подробностей: Использование распределённой системы вместо…

3 weeks, 2 days ago

📄На ридинг-группе 3 октября гостевой доклад: Дарина Двинских, доцент ФКН ВШЭ, расскажет о том, как использовать сходство данных для сокращения числа коммуникаций в распределённых алгоритмах.

Немного подробностей:
Использование распределённой системы вместо одного вычислительного устройства позволяет обучать современные модели машинного обучения на огромных наборах данных. Однако эта мощь распределённых систем сопряжена с различными трудностями: коммуникации сервера (основного устройства) с вычислительными машинами могут существенно замедлить процесс обучения, особенно для систем, обладающих большими вычислительными ресурсами. Существуют различные методы для уменьшения количества таких коммуникаций. Среди них есть методы, учитывающие структуру задачи, например сходство данных, довольно часто встречающееся в приложениях машинного обучения. В докладе будет показано, как использовать сходство данных в задачах обучения с учителем, для того чтобы более эффективно коммуницировать с сервером.💻🔀🖥

Начало встречи в 18.00.

Зум: ссылка

Meeting ID: 895 0393 9531
Passcode: aivk

1 month ago

Начинаем через 5 минут

3 months, 1 week ago

Начинаем через 3 минуты

3 months, 2 weeks ago

? Много сил положено на то, чтобы унифицировать подходы к решению ML-задач как в алгоритмах, так и в инженерной плоскости. Однако достоверные результаты и хорошие практики в нашей области стоят все ещё очень дорого, и поэтому для нас важно делиться опытом. А ещё мы внимательно читаем не только академиков, но и других ребят из индустрии.

Поэтому сегодня хотим поделиться папочкой с каналами, на которые подписаны мы сами и рекомендуем вам.

3 months, 2 weeks ago

?Рекомендательные алгоритмы в социальных сетях отвечают за retention. Чем лучше мы ранжируем ленту, тем она интереснее для пользователя, и тем охотнее он возвращается в наш сервис. В этом посте поговорим о том, что значит «хорошо ранжировать ленту» с точки зрения retention.

При формировании таргета ранжирующей модели используются данные о реакциях пользователей на посты: просмотрах, лайках, комментариях, и т.д. Такие сигналы, называемые общим словом engagement, положительно скоррелированы с retention. Это подтверждают эксперименты, в которых хронологические ленты сравниваются с ML-лентами. Но у engagement есть обратная сторона: часто посты, собирающие много реакций, могут быть низкого качества, например, кликбейтные или содержащие недостоверные данные. Такой контент уже негативно влияет на retention в долгосрочной перспективе [1]. Кроме того, рекомендуя некачественные посты, мы создаем сервису репутационные риски. В итоге модель, настроенная на engagement, только частично решает задачу увеличения retention.

Проблема решается учётом качества поста в таргете модели. Например, наряду с реакциями пользователей в таргет можно включить скоры качества, полученные с помощью классификаторов контента. Это, во-первых, научит модель поднимать хорошие посты наверх в выдаче, во-вторых, мотивирует авторов делать контент высокого качества. Можно даже попробовать вычислить оптимальный баланс между качеством и engagement в таргете, используя дополнительные предположения об их распределениях [2]. Эксперименты крупных западных платформ показывают, что модели, обученные с учётом качества контента, значимо выигрывают в retention [1].

Минус такого подхода в его субъективности. В конце концов, за решением о том, какой пост считать качественным, стоят не алгоритмы, а те, кто определяет критерии качества или размечает данные для моделей-классификаторов. От работы этих людей зависит, какие посты будут поощряться сервисом, а какие, наоборот, не получат охватов. Правильнее было бы спросить об этом самих пользователей, задав им вопросы, которые коррелируют с retention: «хотите ли вы видеть больше подобных статей? Оскорбляет ли этот пост какую-то категорию людей?» И тоже включить эти данные в таргеты ранжирующих моделей.

Ещё одна проблема учёта качества контента при ранжировании — как измерить результат. Раньше мы опирались на метрики engagement, которые легко двигаются в экспериментах. Теперь же нужно мерить retention, и это требует длинных экспериментов с риском потери метрик реакций на посты. Возможное решение — опросы пользователей. В одном из наших предыдущих постов успех измерялся именно так. Такие опросы тоже вызывают сложности: смещение аудитории, недостаток данных, результат сильно зависит от формулировки (Готовы ли вы рекомендовать наш сервис вашим друзьям и знакомым??).

С одной стороны, итог банальный: универсального рецепта нет и платформы решают проблемы компромисса между engagement и качеством в ранжировании как могут. С другой стороны, система держится в том числе на иногда субъективных решениях айтишников. Так работал ранний интернет, и, говорят, он был прекрасен?‍♂️.

Если вам понравился пост, обратите внимание на статьи, которые мы использовали при его подготовке. Там не только расширенное обсуждение идей из поста, но и много ссылок на источники по теме.
[1] What We Know About Using Non-Engagement Signals in Content Ranking
[2] Ranking by Engagement

5 months, 4 weeks ago

??На ридинг-группе 25 апреля обсудим алгоритм удаления шума из речи в аудиопотоке с помощью лёгких генеративных состязательных сетей (GAN). Ведущим будет Макс Каледин из ВШЭ. Ждём вас в 18:00. Зум: https://us05web.zoom.us/j/81356812687?pwd=zWXaFnJptvDu5E…

6 months ago

??На ридинг-группе 25 апреля обсудим алгоритм удаления шума из речи в аудиопотоке с помощью лёгких генеративных состязательных сетей (GAN). Ведущим будет Макс Каледин из ВШЭ. Ждём вас в 18:00.

Зум: https://us05web.zoom.us/j/81356812687?pwd=zWXaFnJptvDu5EMKS4gLFrHknDjSAr.1
Meeting ID: 813 5681 2687
Passcode: 123

6 months, 1 week ago

⚡️Начинаем через 5 минут

8 months, 1 week ago

?Сергей Шнуров поёт: «Мамба, мамба – $#ямба». На ридинг-группе 15 февраля попробуем подтвердить или опровергнуть это утверждение. Представлять статью Mamba: Linear-Time Sequence Modeling with Selective State Spaces будет Андрей Кузнецов, директор по ML ОК. Ждём всех желающих в 18:00.

Зум: ссылка на звонок

We recommend to visit
Roxman
Roxman
13,295,527 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 6 days, 5 hours ago

HAYZON
HAYZON
6,745,623 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Last updated 21 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 3 weeks ago