Бизнес блог #1
Выжимаю книги до самой сути.
👉 Реклама - @jaMasha
📇 Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot
🏆 Оставьте след в истории с помощью книги
https://expert-book.pro
Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.
Last updated 2 days, 8 hours ago
Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru
По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2
Last updated 1 month, 2 weeks ago
Соавтор и коллега по Yandex Research @galqiwi выкатил демку AQLM на ржавчине.
Можно просто взять и запустить Llama 3.1-8b, квантованную в 2 бита AQLM+PV в браузере на CPU, со скоростью 1.4 токена в секунду на M1.
LM head квантизуется в int8.
Отличная работа, Вова!
[Демка][Пост на galqiwi boredom][Репост на Love. Death. Transformers][Репозиторий]
Self-calibration for Language Model Quantization and Pruning
[Статья] [Кода нет]
Многие современные методы сжатия моделей используют некоторую выборку калибровочных данных для приближения эмпирического распределения данных. Чем ближе эта выборка к целевому набору задач - тем интуитивно лучше качество, но хороших предписаний по отбору последовательностей до сих пор не существует.
Ранее эти же авторы перебрали несколько вариантов (пост на КПД), и обнаружили, что некоторое, хоть и не столько значительное, различие в качестве есть в зависимости от источника данных.
В этой же статье авторы предлагают сжимаемой модели самой сгенерировать 🪄 данные для калибровки.
Метод
Калибровочные последовательности генерируют начиная с <bos>
токена.
Дабы повысить качество данных предлагается динамически менять температуру - сначала больше, чтобы было разнообразие, а затем снижать по мере увеличения количества сгенерированных токенов.
Эксперименты
Рассматривают несколько небольших LLM:
⭐️ Gemma 2B
⭐️ Phi-2
⭐️ OPT 6.7B 👨🦳
⭐️ Mistral 7B
⭐️ Llama-3.1-8B
Которые сжимают при помощи AWQ, GPTQ (4-битная квантизация) и SparseGPT, Wanda (2:4 прунинг).
В качестве бейзлайнов берут Wikitext-2, C4, рандомные токены, Сosmopedia.
Качество замеряют на стандартных бенчах из lm-eval-harness.
⚡️ Синтетические данные, сгенерированные моделью, почти всегда лучше выборок из датасетов. Различие заметнее на прунинге, где просадки больше.
⚡️ Сгенерированный текст обыкновенно довольно связный, грамматически корректный, по статистикам довольно близок к реальному, но менее разнообразный.
⚡️ Снижение температуры 🌡️ генерации от 2 до 1 по ходу генерации дает самые лучшие результаты, хоть и без значительного отрыва от фиксированной температуры - 1.
Вывод
Идея прикольная, и для используемого количества данных (128 последовательной длины 2048) достаточно дешева в проверке. Эффективность метода во многом зависит от качества базовой модели, что, впрочем, для современных LLM, интересных сообществу верно. Интересно 🤔, справедливы ли полученные выводы для более сложных задач?
После долгой борьбы с инфраструктурой, богами Хаоса и Разрушения, удалось-таки квантизовать AQLM-ом и дообучить PV-алгоритмом меньшие версии ?-3.1.
1️⃣ ISTA-DASLab/Llama-3.1-8B-AQLM-PV-1Bit-1x16-hf
2️⃣ ISTA-DASLab/Llama-3.1-8B-AQLM-PV-2Bit-1x16-hf
3️⃣ ISTA-DASLab/Llama-3.1-8B-Instruct-AQLM-PV-1Bit-1x16-hf
4️⃣ ISTA-DASLab/Llama-3.1-8B-Instruct-AQLM-PV-2Bit-1x16-hf
70B в процессе. Самая интересная из ?, безусловно , 405B, но пока развлекаемся с тем, как поместить сие жирное чудище на машину)
На свет появился еще один стартап про генеративное ИИ - Black Forest Labs (помните Черный Лес из Облы ??).
Чуваки привлекли 31M$ инвестиций, и в дело включились такие серьезные люди как Timo Aila и Vladlen Koltun.
Команда выпустила семейство моделей FLUX.1 из трех моделей:
1️⃣ Проприетарной [pro], доступной через их API и на replicate.ai2️⃣ Открытой [dev] с 12B параметрами
3️⃣ Открытой [schell] тоже с 12B параметрами, но нацеленную на генерацию в малое число шагов (1-4), по всей видимости дистиллированную из [dev] c помощью adversarial diffusion distillation.
Утверждают, что по ELO score бьют open-source и closed-source модели типа MJv6, SD3-Ultra, Ideogram.
Сами модели по себе представляют DiTы, обученные на flow matching.
Модель умеет генерировать изображения разного разрешения с разными aspect ratio.
Техрепорт обещают выложить в будущем.
Веса моделей на ?:
1️⃣ FLUX.1-dev
2️⃣ FLUX.1-schnell
Кванты Llama-3.1 уже появились на хабе.
На текущий момент выложены:
1️⃣ AWQ-INT4, GPTQ-INT4 квантизации Llama-3.1-405B-Instruct
2️⃣ BNB-NF4 квантизация Llama-3.1-405B
2️⃣ AWQ-INT4 квантизация Llama-3.1-70B
4️⃣ AWQ-INT4, BNB-NF4 квантизации Llama-3.1-8B-Instruct
Судя по скорости выкладывания, для калибровки моделей использовалось довольно мало данных, поэтому я бы ожидал значительной просадки в качестве по сравнению с исходной моделью.
INT4 требует 203 Gb VRAM для 405B модели, а BNB-NF4 220 Gb.
?-3.1 стала доступна широкой публике!
[Пост на meta]
[Model card на GitHub]
[Коллекция на ?]
[Пост на gonzo-ml]
[Пост на эйай ньюз]
[Пост на Love.Death.Transformers]
К версиям 8 и 70B добавилась жырная 405B.
Из основных фичей:
1️⃣ Мультиязычность (English, German, French, Italian, Portuguese, Hindi, Spanish, and Thai)
2️⃣ 128k окно контекста
3️⃣ Обрезка знаний по декабрь 2023.
4️⃣ Умеет с тулами работать
Обучалось на 15T+ (неизвестно насколько+) токенов из публичных как-то собранных данных.
Базовые меньшие модели иногда, кста , просаживаются по сравнению с v3 по метрикам, но instruct стабильно лучше.
Большая модель вполне себе бодается с GPT-4-Omni и Claude-3.5-Sonnet.
Посмотрим, что выдаст lmsys арена)
На хабе есть и FP8 версии)
Бизнес блог #1
Выжимаю книги до самой сути.
👉 Реклама - @jaMasha
📇 Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot
🏆 Оставьте след в истории с помощью книги
https://expert-book.pro
Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.
Last updated 2 days, 8 hours ago
Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru
По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2
Last updated 1 month, 2 weeks ago