я обучала одну модель

Description
Shitposting on various subjects

PS рекламы в канале нет
We recommend to visit
Roxman
Roxman
10,496,004 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 4 days, 20 hours ago

HAYZON
HAYZON
5,764,933 @hayzonn

? How to create capital and increase it using cryptocurrency

? ???????: @Tg_Syprion
? ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ ??? ????: @major
? ?? ????????: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 2 weeks, 2 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago

2 months, 1 week ago

Коллеги а у меня для вас есть ????? про авторский ИИ

Это первый раз, когда мой скромный канал добавлют в папку, и мне разумеется очень приятно! Тем более приятно быть в компании таких крутых авторов, которых я сама уже очень давно читаю и вам советую

Например, мои любимые NLP-каналы Татьяны Шавриной и Влада Лялина, владельцы которых двигают вперед ресерч, помимо того, что делают еще и мега-полезный контент. Или же в папке есть канал Нади Зуевой Пресидский Залив, где она рассказывает о том, как сейчас развивает свой fashion tech стартап Aesty, а до это она лидила рашифровку голосовых в ВК! (низкий поклон за эту фичу)

Помимо этого, из папки я сама узнала пару каналов, которые бы наверное без нее не нашла. Мне очень приглянулся fmin.xyz – во-первых, его ведет преподаватель Физтеха, во-вторых, это канал про классический ML и математику, а не про сто сортов промпт-инжиниринга, что редкость в наше время. Здрово, что кто-то доступно объясняет, how things really work, от PCA до градиентов, и очень часто с отличными визуализациями! А мне лично больше всего зашел вот этот пост про матрицы и Зельду

Не забываем совершить тык сюда ?

Telegram

fmin.xyz

***🧠*** Самая наглядная демонстрация того, что AB ≠ BA С того самого момента, как в конце школы я узнал, что матричное умножение не коммутативно, меня одолевало возмущение. - Да как так-то? ***😡*** ***😭*** Десятки игрушеных матриц 2х2, перемноженных вручную не оставляли…

2 months, 2 weeks ago
наконец-то полезная теоретико-игровая модель!

наконец-то полезная теоретико-игровая модель!

https://arxiv.org/abs/2404.00732

2 months, 3 weeks ago
babe wake up leetcode for ML …

babe wake up leetcode for ML just dropped

https://www.deep-ml.com/

(жду когда добавят побольше задачек ?)

4 months, 3 weeks ago
4 months, 3 weeks ago

Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment команде, и он один из соавторов очень крутой статьи Weak-to-strong generalization. Если TLDR, это статья про то, как не очень умные хуманы могут в перспективе обучать superhuman AI. В статье они используют GPT-2, чтобы генерировать фидбек для обучения гораздо большей GPT-4. В итоге такой фидбек от weak supervisor все равно получается лучше, чем обычный файнтюн, но разумеется не дотягивает до оригинальной GPT-4

Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует

Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:

  1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
  2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
  3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
  4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
  5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме

В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…

Openai

Weak-to-strong generalization

We present a new research direction for superalignment, together with promising initial results: can we leverage the generalization properties of deep learning to control strong models with weak supervisors?

Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment …
5 months ago

Невыдуманная история: сижу на семинаре, где нас попросили кратко представиться и рассказать, какого известного человека ты хотел бы позвать на ужин. Разумеется я сказала, что хотела бы позвать на ужин Юргена Шмидхубера. Оказалось, что препод с этого курса живет в бывшей квартире Юргена и до сих пор у него остался его велосипед…..

5 months ago
А также для любителей cryptoposting from …

А также для любителей cryptoposting from openai basement ?

5 months ago
я обучала одну модель
5 months, 3 weeks ago

Как мне кажется, Mixture-of-Depths – одна из самых интересных недавно вышедших статей, так как посвящена она довольно очевидной проблеме, что все токены в механизме оттеншена потребляют одинаковое количество компьюта, хотя польза от них не одинаковая. Конкретно эта статья фокусируется на том, как тратить меньше вычислений на токены, которые особенно и не нужны в предсказании

Идея очень простая и поэтому уважаемая: перед каждым трансформер-блоком (в котором находится аттеншн и MLP) работает роутер, который выдает для каждого токена входной последовательности какой-нибудь вес. Дальше в блок поступают и обрабатываются только top-k токенов c наибольшими весами, а все остальные через residual connection обходят блок без каких-либо изменений. Соответственно, механизм оттеншена в итоге требует k^2 вычислений, где k << числа токенов во входной последовательности

Поскольку k задается самим пользователем, размеры матриц внутри аттеншена нам изначально известны, и мы точно можем посчитать, сколько компьюта урежет заданное значение k

Как корректно заметил один человек в реплаях Твиттера, в таком подходе если какой-то токен был проигнорирован в конкретном трансформер-блоке, то дальше все последующие токены не смогут аттендиться к нему, так как этот токен не попадет в KV-кеш. То есть он навсегда остается таким “слепым пятном” в этом блоке, но в следующих блоках он все равно может попасть в top-k и сыграть роль там. В теории возможно, что какой-то совсем бесполезный токен занулится во всех блоках и не окажет вообще никакого влияния на генерацию

В экспериментах лучшая вариация MoD оказалась та, где k был равен 256 (12.5% от всех входных токенов попадали в блок) и где роутер стоял перед каждым вторым трансформер-блоком. Помимо того, что у этой модели лосс был даже ниже, чем у стандартной модели с таким же количеством параметров, она еще и на 66% быстрее совершала шаг инференса. Это по сути и подтверждает, что куча операций в ванильном трансформере излишняя и не дает прироста качества

Довольно приколькую идею скрестить Mixture-of-Depths и Mixture-of-Experts предложили также сами авторы – просто можно заменить одного эксперта на identity function и готово ? По-моему очень элегантно

Еще хорошую идею развития этого ресерча закидывают в конце в discussion – можно предположить, что некоторые токены очень полезны как keys, но не очень полезны как queries или наоборот. В общем кажется, что эта команда ресерчеров опубликует позднее что-то еще про более сложный роутинг

7 months ago
Вероятностные процессы в эйай ресерч

Вероятностные процессы в эйай ресерч

We recommend to visit
Roxman
Roxman
10,496,004 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 4 days, 20 hours ago

HAYZON
HAYZON
5,764,933 @hayzonn

? How to create capital and increase it using cryptocurrency

? ???????: @Tg_Syprion
? ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ ??? ????: @major
? ?? ????????: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 2 weeks, 2 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago