ML Underhood / Beauty / Telegram Index

Open in telegram

☆☆☆☆☆

0 ratings and 0 comments

⚑ Report channel

1,621 @mlunderhood

Description

Рассказываем, чем живёт ML в Яндексе, и обсуждаем важные новости индустрии.

Вопросы и предложения > @yandex_ml_brand

Advertising

We recommend to visit

HAYZON

6,053,581 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 3 weeks, 4 days ago

Architec.ton #inTonWeTrust

4,439,684 @architecton_tech

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 2 weeks, 5 days ago

WeWantYou

4,373,433 @wewantyoutodothejob

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago

1 month, 2 weeks ago

Что везём на NeurIPS — часть 2

В продолжение предыдущего поста — ещё четыре статьи, которые Yandex Research представит на конференции.

Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

Авторы стремятся к тому, чтобы научить дистиллированные модели text-to-image-диффузии способности эффективно редактировать реальные изображения. Исследователи представляют инвертируемую дистилляцию (invertible Consistency Distillation, iCD). Она позволяет добиться качественного редактирования всего за 7–8 шагов инференса.

Rethinking Optimal Transport in Offline Reinforcement Learning

Обычно в офлайн-обучении с подкреплением данные предоставляются разными экспертами, и некоторые из них могут быть неоптимальными. Чтобы получить эффективную политику, необходимо «сшить» наилучшие действия из набора данных. Для решения этой задачи авторы переосмыслили офлайн-обучение с подкреплением как задачу оптимального транспорта. На основе этого представили алгоритм, направленный на нахождение политики, которая сопоставляет состояния с частичным распределением наилучших действий экспертов для каждого заданного состояния.

The Iterative Optimal Brain Surgeon: Faster Sparse Recovery by Leveraging Second-Order Information

В статье авторы объединяют два известных подхода получения точных разреженных сетей — Iterative Hard Thresholding (IHT) и Optimal Brain Surgeon (OBS) — в единую сущность Iterative Optimal Surgeon, наследующую сильные стороны обоих подходов с теоретическими гарантиями. Эффективность предложенного алгоритма валидируется на моделях для задач компьютерного зрения и больших языковых моделях.

Lower Bounds and Optimal Algorithms for Non-Smooth Convex Decentralized Optimization over Time-Varying Networks

В статье рассматривается задача минимизации суммы выпуклых функций, хранящихся децентрализованно на вычислительных узлах, соединённых коммуникационной сетью. Авторы сосредотачиваются на самой сложной и недостаточно изученной ситуации, когда целевые функции негладкие, а связи в сети могут меняться со временем. Для решения данной задачи предлагается численный алгоритм с наилучшей известной на данный момент теоретической скоростью сходимости, а также доказывается, что достигнутая скорость сходимости не может быть улучшена и является оптимальной.

ML Underhood

601 #

1 month, 2 weeks ago

Что везём на NeurIPS — часть 1

В декабре пройдёт конференция NeurIPS, где учёные из исследовательского подразделения Яндекса — Yandex Research — представят целых восемь статей. В двух постах расскажем, какие именно.

SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices

SpecExec — простой метод параллельного декодирования, оптимизированный для работы с более крупными драфтовыми моделями, что позволяет генерировать до 20 токенов за итерацию целевой модели. Он берёт наиболее вероятные продолжения токенов из черновой модели и создаёт кэш в форме дерева для целевой модели, которое затем проверяется за один проход. Метод особенно полезен для значительного ускорения генерации при использовании больших языковых моделей в режиме офлодинга, где показывает ускорение до 15–20x. Подробнее о SpecExec вы можете почитать в этом посте.

PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression

Статья о сжатии больших языковых моделей, таких как LLaMA 3 и Mistral. Авторы предлагают новый метод — PV-Tuning, который позволяет дообучать уже сжатые (квантованные) веса нейросети, чтобы лучше исправлять ошибки квантизации. Это особенно важно при экстремальном сжатии в 1–2 бита на параметр, когда обычные методы квантования полностью ломают модель. За счёт более эффективного (и теоретически обоснованного) дообучения дискретных квантованных весов PV-Tuning позволяет достичь оптимума по Парето, например, для моделей семейства LLaMA-2 при 2 битах на параметр — то есть, это первое 2-битное сжатие таких моделей, которое имеет смысл на практике. Подробнее о методе читайте в этом посте.

Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding

Sequoia — алгоритм спекулятивного декодирования, использующий оптимизированные статические асимметричные деревья для спекуляции. Значительно превосходит методы с симметричными деревьями, показывая ускорение в диапазоне 2–4х для Llama-подобных моделей и до 10x с использованием офлодинга.

Challenges of Generating Structurally Diverse Graphs

Статья о генерации структурно разнообразных графов. Авторы рассматривают и сравнивают несколько алгоритмов оптимизации разнообразия: подходы, основанные на стандартных моделях случайных графов, оптимизацию локальных графов, генетические алгоритмы и нейрогенеративные модели.

ML Underhood

584 #

4 months ago

Локальный ASR в Яндекс Станции

Одной из задач, с которой столкнулась служба голосового ввода Яндекса, стало создание локальной системы автоматического распознавания речи (ASR) для колонки Яндекс Миди. Решение предполагало работу системы непосредственно на устройстве, что позволило бы снизить зависимость от облачных серверов и повысить скорость обработки команд. Расскажем, с какими ограничениями и трудностями столкнулись разработчики.

Ограничения

Одним из ключевых ограничений при разработке локального ASR была необходимость эффективного использования аппаратных ресурсов колонки, таких как оперативная память (RAM) и вычислительные мощности процессора. Максимально допустимое использование памяти было ограничено до 100 Мб, что наложило серьёзные ограничения на объем данных и сложность моделей, которые могли быть использованы.

Кроме того, важным параметром производительности стал RTF (Real Time Factor) — метрика, определяющая, как быстро система обрабатывает поступающие звуковые данные. Для обеспечения плавной работы в реальном времени необходим был RTF меньше единицы: обработка одной секунды звука должна занимать менее одной секунды, чтобы избежать накопления задержек и ошибок.

Важным аспектом стала и задержка (latency) — время, нужное системе для начала отображения распознанного текста после того, как пользователь начал говорить. Чем ниже задержка, тем быстрее система реагирует на команды, что критично для работы в реальном времени.

Разработка локального ASR включала в себя внедрение End of Utterance (EOU) для определения момента завершения команды пользователя. Это позволило бы минимизировать задержки и своевременного реагировать на команды, такие как «включи свет». Без точного определения конца команды выполнение действий могло бы задерживаться или запускаться преждевременно.

Архитектура

Для создания ASR была выбрана архитектура RNN-T (Recurrent Neural Network Transducer), которая обеспечивала необходимую стриминговость — возможность обработки входящего звука без пересчета предыдущих данных. Эта архитектура позволила системе обрабатывать новые фрагменты звука, не тратя ресурсы на перерасчет уже обработанных данных, что критично для поддержания низкого RTF и минимальной задержки.

Дополнительно была внедрена адаптированная версия трансформеров с ограниченным контекстом. Эти трансформеры позволили сохранить высокое качество распознавания речи, обеспечивая при этом стриминговость, что стало важным шагом в достижении нужного баланса между качеством и производительностью.

Сложности

Одним из сложных моментов в разработке стала необходимость ограничения правого контекста (задержки между произнесением слова и его обработкой), что могло негативно сказаться на качестве распознавания. Разработчики остановились на значении в 200 миллисекунд, чтобы достичь удовлетворительного качества распознавания без значительных задержек.

ML Underhood

2,500 #

4 months, 2 weeks ago

3,200 #

5 months ago

Видеоигры из фото и другие крутые доклады с ICML 2024

Прямо сейчас проходит международная конференция по машинному обучению ICML 2024. Александр Шишеня и Сергей Овчаренко из службы компьютерного зрения Яндекса выбрали интересные доклады, которые уже представили на мероприятии.

Туториал Physics of Language Models

Прорывной доклад первых двух дней о построении AGI на LLM. Авторы обнаружили два уровня рассуждения (reasoning) для моделей. На первом LLM могут выучивать графы причинно-следственных связей для сложных задач и делать топологическую сортировку для понимания порядка вычисления в этом графе. А на втором модель заранее просчитывает все промежуточные данные для построения ответа.

Ошибки случаются, но, благодаря linear probe, LLM с вероятностью 99% сама предсказывает, где промахнется. Исправить, правда, не сможет, поэтому рекомендуется добавлять в обучающую выборку CoT-примеры с ошибками и их исправлением.

Genie: Generative Interactive Environments

Доклад от DeepMind, сотрудники которого обучили две модели на датасете из видеоигр — в основном, 2D-платформерах. Одна модель кодирует возможные действия игрока в латентное дискретное пространство, а другая — предсказывает следующие фреймы по предыдущим. В итоге Genie способна генерировать видеоигровые уровни из текстовых промтов, рисунков и фотографий. Статья получила награду Best Paper Award.

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Доклад об авторегрессионной модели, способной предсказывать текстовые токены и видео. Она обучена на next-token prediction с диффузионной моделью для генерации кадров в пиксельном пространстве и motion-векторы. С помощью DDIM-инверсии получают «шумную» версию последнего кадра и сопоставляют ее с предыдущими. Получившаяся модель умеет генерировать весьма долгие видео по промту или первому кадру.

ML Underhood

8,200 #

6 months ago

Как мы работали над YaFSDP

Недавно запустилась библиотека YaFDP, которая ускоряет обучение больших языковых моделей. Подробнее о ней можно почитать в статье на Хабре. А сегодня руководитель группы претрейна YandexGPT Михаил Хрущев ответил на несколько наших вопросов о том, как создавалась библиотека.

Когда и как началась работа над YaFSDP?

За 2 недели до Нового года в 2023-м. К концу года стало ясно, что некоторые наши оптимизации не дают ускорения, которого мы ожидали. Я пошёл искать причины такого и нашел праздничную «ёлочку».

Ориентировались ли на существующие решения? Были ли какие-то референсы, может?

Сам алгоритм предложили в статье ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. Его реализация была также представлена в фреймворке DeepSpeed. К сожалению, она не очень масштабировалась и содержала много багов. Другая реализация, FSDP, сильно лучше, но и там есть проблемы с аллокацией памяти и коммуникациями. Поэтому я начал разрабатывать свою реализацию, к которой впоследствии подключились и другие ребята из моей команды.

Какие трудности возникали во время работы?

Было несколько технических трудностей. Вообще, от начала реализации до выкатки в обучение прошло чуть более месяца — разработка была более или менее гладкой. Самым сложным было продумать идею реализации, на это потребовалось больше месяца.

Здесь труднее всего было реализовать кода, который должен исполняться сразу после backward (обратного распространения ошибки) по слою. Я неожиданно столкнулся с тем, что torch (фреймворк глубокого обучения) совсем не приспособлен для такой хитрой логики. Но решение тем не менее нашлось.

На этом на сегодня все. Рассказывайте о своём опыте работы с LLM в комментариях!

ML Underhood

2,100 #

6 months, 3 weeks ago

Лучшие статьи с конференции ICLR 2024Завершилась ICLR 2024, на которой представили немало интересных статей. Мы выбрали самые любопытные и полезные из них и составили вот такой список (не ранжированный).

Making LLaMA SEE and Draw with SEED Tokenizer и Emu: Generative Pretraining in MultimodalityВместо привычного vlm-пайплайна «изображение+текст —> текст», авторы обеих статей предлагают пайплайн «изображение+текст —> изображение+текст». Это интуитивное решение, которое даёт хороший результат. В идеале модель умеет всё то же, что и LLM, но способна также принимать и генерировать картинки.

Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled videoОбычно мы обучаем «картиночные» модели на большом количестве изображений, но иногда об объекте нельзя (или сложно) многое сказать по фото. Зато можно по видео! В статье рассматривают self-supervised претрейн на видео и показывают, что претрейн на одном полуторачасовом видео даёт картиночные эмбеддинги, сравнимые по качеству с обучением на всем ImageNet. Это очень интересно — особенно с учётом того, как много видео-контента уже существует и создается каждый день. Люди воспринимают все вокруг как видеопоток, а не отдельные кадры — и идея пробовать такое обучение кажется очень логичной.

A Newborn Embodied Turing Test for Comparing Object Segmentation Across Animals and MachinesВ статье создают новый бенчмарк для нейросетевых моделей, позволяющий сравнить результаты этих моделей с результатами новорожденных цыплят. Такие материалы позволяют лучше понять как устроены и развиваются когнитивные способности животных и людей, что, в свою очередь, тоже может служить вдохновением для развития нейросетей.

Making Pre-trained Language Models Great on Tabular PredictionАвторы используют LLM для учёта сигнала от текстовых названий признаков. Для небольших датасетов (когда сами данные недостаточно велики, чтобы избежать переобучения) это порой приводит к хорошим результатам.

Leveraging Uncertainty Estimates To Improve Classifier PerformanceСтатья об использовании оценки неопределённости для более точного предсказания в задачах несбалансированной бинарной классификации. Оценку неопеределённости получают с помощью model-agnostic фреймворка Posterior Networks, но и MC Dropout работает лишь немногим хуже.

Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-EncodersТекст о проблеме нахождения топа объекта по релевантности для сценариев, когда функция релевантности задана сложно устроенной функцией (например, глубокой нейросетью). Подход авторов позволяет существенно ускорить нахождение топа без радикальной просадки в качестве по сравнению с brute force-решениями.

А какие статьи понравились вам? Рассказывайте в комментариях!

ML Underhood

1,200 #

We recommend to visit

HAYZON

6,053,581 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 3 weeks, 4 days ago

Architec.ton #inTonWeTrust

4,439,684 @architecton_tech

Last updated 2 weeks, 5 days ago

WeWantYou

4,373,433 @wewantyoutodothejob

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago