Kitty Bytes AI

Description
ML лонгриды для души🥰
Advertising
We recommend to visit
HAYZON
HAYZON
5,909,696 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 1 month ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 3 weeks, 4 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 1 week ago

1 month, 4 weeks ago
**DenseAttention: No-Compromise Exact All NxN Interactions …

DenseAttention: No-Compromise Exact All NxN Interactions Algorithm with O(N) Space and Time Complexity

Возможны ли нейросети без нелинейностей? Казалось бы нет, ведь линейная комбинация линейных отображений есть линейное отображение. А возможно ли сделать трансформер только из матричных умножений - наиболее эффективных по вычислениям и с возможностью параллелизма, которые способны решить неэффективность работы архитектуры? И самое главное - не потерять при этом точность работы трансформера📊

В этой статье предлагается новая архитектура DenseAttention Network (DANet), которая решает основные проблемы стандартной архитектуры Transformer: низкую эффективность по вычислениям и памяти, а также избавляется от квадратичной сложности по длине последовательности.

DenseAttention устраняет компоненты, ограничивающие память, такие как Softmax и LayerNorm, сохраняя при этом точные взаимодействия между токенами. Это позволяет достичь вычислительной сложности O(N) или O(N^2), что вычислительно превосходит стандартную архитектуру, особенно на длинных последовательностях. Для предотвращения числовой нестабильности вводится MaxNormActivation, а для замены RoPE предлагается новая функция Cosine Relative Positional Embeddings (Cosine RelPE), которая повышает эффективность работы модели.

DenseAttention показывает высокую скорость на малых последовательностях и значительно превосходит FlashAttention на больших контекстах. Обучение моделей на последовательностях длиной до 16K демонстрирует производительность, сопоставимую или превосходящую BERT-large, с улучшенной скоростью и эффективностью. Модель достигает высоких результатов на LRA-бенчмарке среди архитектур на базе Transformer.

Подробный разбор статьи читайте в Teletype (время чтения 15 минут)

Автор статьи 👉 @andrewargatkiny

Читать больше в Teletype 🔄

GitHub DenseAttention 🖥

2 months ago
**Quantization Marathon: Part I

Quantization Marathon: Part I
Linear Quantization

#quantization

Разобравшись с основными пайплайнами параллелизма LLM, перейдем к не менее актуальной теме - квантизации. Очевидно, данное направление набирает популярность по мере роста размеров моделей📈

Я думаю многие уже слышали про новый курс про квантизацию от HuggingFace совместно с DeepLearning.AI. Я решил начать с него и, оказалось, что он совсем несложный, но тем не менее дает необходимую базу в понимании ключевых аспектов квантизации моделей

В курсе все внимание уделено разбору простейшего преобразования - Linear Quantization. Она применяется для перехода из одного типа данных в другой с помощью элементарных операций. Например, если мы хотим перевести числа из float32 в int8, то нам достаточно сопоставить границы областей значений данных и их центры. А далее, с помощью элементарных преобразований и операции округления, мы получаем биективное отображение, которое может работать в обе стороны.

Также в курсе вводится понятие гранулярности - когда референсные точки преобразования рассчитываются не для каждого отдельного значения, а для группы элементов в тензоре или сразу для всего тензора. Это упрощает вычисления и экономит память, однако снижает точность квантизации.

Помимо этих тем, показан лайфхак, как можно сжать значение с 8 бит до 2. Это подойдет для оптимизации хранения LLM. После квантизации, в 8 битных интовых ячейках памяти нередко содержится много нулей в начале каждой двоичной записи. Хранить их бессмысленно - они не несут никакой информации. Тогда давайте срежем у каждых четырех чисел первые 6 нулей, сократив каждое до 2 бит, а из них составим новое 8 битное значение. К сожалению, использовать на инференсе такую модель не получится - для этого необходимо провести обратную операцию распаковки всех значений.

Подробный разбор всего курса читайте в Teletype (время чтения 10 минут). А я буду готовить разбор новой статьи, про которую мало кто слышал, но она может иметь огромное влияние на всю индустрию LLM😇

Читать больше в Teletype 🔄

2 months, 1 week ago
2 months, 1 week ago

Мое выступление на ODS 2024 выложили отдельно на ютуб и многие не могут найти те обзоры RAG систем, о которых я рассказываю. Для людей, которые зашли почитать об этом дублирую ссылки на мои посты
Пользуйтесь на здоровье🙃

Advanced RAG Pipelines

RAPTOR

P.S.
Я знаю, что давно не публиковал ничего в канал, но это не значит, что я ничего не подготовил)
К сожалению, очередной научный проект и запись видео на NeurIPS потребовали времени☔️
Через пару дней будет новый лонгрид🐕

3 months, 1 week ago

Пока все сходят с ума из-за новой мультимодальной Llama 3.2 🌿, я радуюсь своим маленьким достижениям в рисерче (мем с фермером и честной работой👴):

We are delighted to inform you that your submission, EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas, has been accepted at NeurIPS 2024 as a poster. Congratulations!

4 months, 1 week ago

ML System Design

#mlsys

Все знают, что для высоких грейдов в ML айтишке вы обязательно будете проходить собес по системному дизайну. Более того, именно на этом собесе проверяется ваш уровень "сеньёрности", а значит и ваша зп. Сложность интервью заключается в том, что к нему трудно подготовиться - здесь важное значение играет как опыт инженера, так и его кругозор

Сам собес выглядит просто - вам дается задача, про которую надо рассказать, как вы будете ее решать. Пример - "Разработайте систему рекомендаций в видеохостинге". После этого начинается ваш монолог-рассуждение о том, какие метрики будете мерить (online/offline), как будет выглядеть логика MVP, какие данные у вас есть, как они хранятся, как вы их будете обрабатывать, есть ли у компании ассесоры, какие фичи вы будете выделять в данных и как их будете представлять итд...

Задача может быть любой - от рекомендаций в любой сфере (финансы, маркетплейс, видеохостинг, онлайн-объявления...) до создания распределенной системы семантического поиска (по тексту/фото/видео/звуку)

Сегодня хочу вам порекомендовать литературу и источники, которые помогут вам подготовиться к такому собеседованию и расширят ваш кругозор по проектированию ML систем (что поможет вам даже на текущей работе)

🖥 Репа alirezadir - короткий markdown файл с описанием основных вопросов, на которые вы должны ответить при построении ML системы + порядка 20-30 решений популярных задач с ml sysdes интервью

🥰 EvidentlyAI - база данных 450 кейсов по проектированию ML систем в 100+ компаниях мира. Изучить все сразу сложно, но теперь вы знаете что можно читать в метро/на выходных/на парах

🌿 Stanford MLSys Seminars - почти 100 семинаров по системному дизайну трехлетней давности от стэнфорда. Классика актуальна всегда и вы точно преисполнитесь полезной информацией. Каждый семинар ведут разные люди из разных компаний, на которых подробно рассказывают, как устроены системы в FAANG и что нужно знать для прохождения собесов в эти компании

🦜 ODS ML System Design - если вам не заходят англоязычные лекторы, то есть отечественный 💪 аналог таких лекций от российского коммьюнити

🧖 Babushkin - то, с чего начинал я. В ходе лекции и последующих трех тренировочных интервью со студентами Валера разбирает основы системного дизайна + дает неплохую вводную и понимание чего от вас ожидают на этом интервью и чего говорить точно не нужно. Видосы не находятся в каком-то отдельном месте, поэтому прикреплю сразу 4 ссылки:
Лекция; Собес1; Собес2; Собес3

Если есть, что добавить, то предлагайте в комментариях 🍿

@kitty_bytes

4 months, 2 weeks ago
**Large Parallelism Post: Part V**

Large Parallelism Post: Part V
FSDP: Fully Sharded Data Parallel

#parallelism

Заключительный пост марафона по параллелизму посвящается методу FSDP - параллелизму с полным шардингом данных 🥰

Реализован за счет разбиения операции AllReduce на две - ReduceScatter и AllGather, а также за счет перегруппировки этих операций. Имея шард модели, данные весов собираются с других GPU за счет AllGather, далее происходит Forward pass, после чего снова собираются веса через AllGather, и только потом проиходит Backward pass. В конце градиенты обновляются с помощью ReduceScatter. Имеет 3 типа шардинга - DDP, Hybrid Sharding и Full Sharding 👀

Осветив подробно мир параллелизма больших моделей, мне захотелось погрузиться в квантизацию 🥺 поэтому ожидайте следующих постов👴

Читать больше в Teletype 🔄

Arxive 📖

4 months, 2 weeks ago
**Large Parallelism Post: Part IV**

Large Parallelism Post: Part IV
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

#parallelism

Админ вернулся из отпуска 🍷 втянулся в работу😮‍💨 и готов продолжить марафон по параллелизму.

Сегодня разберем один из самых эффективных (и непростых) методов параллелизма очень больших 💪 моделей - ZeRO. Он позволяет эффективно обучать LLM (размером до 1трлн) за счет параллельного хранения и вычисления параметров модели, градиентов и параметров оптимизатора, сохраняя при этом низкий объем коммуникаций и высокую гранулярность вычислений. Мало кто знает, но он состоит из двух частей - ZeRO-DP и ZeRO-R. ZeRO-DP как раз параллелит параметры модели/градиентов/оптимизатора, а ZeRO-R оптимизирует память, сохраняя промежуточные активации/определяя размер буфера/дефрагментируя память.

Думаю о результатах говорить подробно излишне - ZeRO позволил начать тренировать огромные модели в индустрии, а также вдохновил на создание метода FSDP. Подробный разбор, как всегда, читайте в teletype.

Читать больше в Teletype 🔄

Arxive 📖

5 months, 1 week ago
**Large Parallelism Post: Part III

Large Parallelism Post: Part III
Mixed Precision Training

#parallelism #optimization

В третьей части разберем не столько способ параллелизма, сколько оптимизации тренировки моделей, без которого уже невозможно работать с большими моделями 🗯

В Mixed Precision (MP) почти все значения переводятся из FP32 формата в FP16, чем достигается уменьшение потребления памяти в 2 раза. Однако не все так просто - авторам пришлось ввести Loss Scaling для предотвращения зануления многих параметров, которые выходили за пределы диапазона FP16. Более того, некоторые вычисления (такие как векторное произведение) требуют накопления результатов в формате FP32, а только потом перевод в формат FP16 для хранения в памяти 🤏

Не смотря на такие доработки, результаты впечатляющие - во всех задачах (CNNs Detection, Speech Recognition, Machine Translation, Language Modeling, GANs) MP показал сравнительную, а нередко даже превосходящую точность над Baseline расчетами в FP32 формате 😎

Читать больше в Teletype 🔄

Arxive 🤓

6 months ago
**Large Parallelism Post: Part II

Large Parallelism Post: Part II
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

#parallelism

Во второй части нашего ралли по методам параллелизма я подробно разобрал Tensor Parallelism на основе статьи Megatron-LM 🌿

Сама суть методики заключается в параллелизме не просто слоев модели, а ее блоков. В статье разработан пайплайн разделения блоков трансформера (MLP и Attention) с помощью column и row parallelism - так достигается корректность матричных вычислений и нелинейных функций. Особое внимание уделено минимизации коммуникации между GPU - на Forward и Backward приходится всего 4 AllReduce. Также исследован совмещенный пайплайн: Tensor Parallelism + Data Parallel 🪑

Читать больше в Teletype 🔄

Arxive 🤓

We recommend to visit
HAYZON
HAYZON
5,909,696 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 1 month ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 3 weeks, 4 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 1 week ago