КПД / Books / Telegram Index

Open in telegram

☆☆☆☆☆

0 ratings and 0 comments

⚑ Report channel

1,411 @quant_prune_distill

Description

Квантование & Прунинг & Дистилляция

Блог про сжатие сетей и не только.
От древнейших времен по настоящее время.

Advertising

We recommend to visit

Книги на миллион | бизнес блог

1,265,858 @ikniga

Бизнес блог #1
Выжимаю книги до самой сути.

👉 Реклама - @jaMasha

📇 Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot

🏆 Оставьте след в истории с помощью книги
https://expert-book.pro

Кинопоиск: фильмы и сериалы

861,734 @kinopoisk

Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.

Last updated 2 days, 8 hours ago

ФИЛЬМЫ СМОТРЕТЬ СКАЧАТЬ

530,487 @k1noxa103

Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru

По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2

Last updated 1 month, 2 weeks ago

1 month, 3 weeks ago

Соавтор и коллега по Yandex Research @galqiwi выкатил демку AQLM на ржавчине.

Можно просто взять и запустить Llama 3.1-8b, квантованную в 2 бита AQLM+PV в браузере на CPU, со скоростью 1.4 токена в секунду на M1.
LM head квантизуется в int8.

Отличная работа, Вова!

[Демка][Пост на galqiwi boredom][Репост на Love. Death. Transformers][Репозиторий]

1,300 #

1 month, 3 weeks ago

Self-calibration for Language Model Quantization and Pruning
[Статья] [Кода нет]

Многие современные методы сжатия моделей используют некоторую выборку калибровочных данных для приближения эмпирического распределения данных. Чем ближе эта выборка к целевому набору задач - тем интуитивно лучше качество, но хороших предписаний по отбору последовательностей до сих пор не существует.

Ранее эти же авторы перебрали несколько вариантов (пост на КПД), и обнаружили, что некоторое, хоть и не столько значительное, различие в качестве есть в зависимости от источника данных.

В этой же статье авторы предлагают сжимаемой модели самой сгенерировать 🪄 данные для калибровки.

Метод

Калибровочные последовательности генерируют начиная с <bos> токена.
Дабы повысить качество данных предлагается динамически менять температуру - сначала больше, чтобы было разнообразие, а затем снижать по мере увеличения количества сгенерированных токенов.

Эксперименты

Рассматривают несколько небольших LLM:
⭐️ Gemma 2B
⭐️ Phi-2
⭐️ OPT 6.7B 👨‍🦳
⭐️ Mistral 7B
⭐️ Llama-3.1-8B
Которые сжимают при помощи AWQ, GPTQ (4-битная квантизация) и SparseGPT, Wanda (2:4 прунинг).

В качестве бейзлайнов берут Wikitext-2, C4, рандомные токены, Сosmopedia.
Качество замеряют на стандартных бенчах из lm-eval-harness.

⚡️ Синтетические данные, сгенерированные моделью, почти всегда лучше выборок из датасетов. Различие заметнее на прунинге, где просадки больше.

⚡️ Сгенерированный текст обыкновенно довольно связный, грамматически корректный, по статистикам довольно близок к реальному, но менее разнообразный.

⚡️ Снижение температуры 🌡️ генерации от 2 до 1 по ходу генерации дает самые лучшие результаты, хоть и без значительного отрыва от фиксированной температуры - 1.

Вывод

Идея прикольная, и для используемого количества данных (128 последовательной длины 2048) достаточно дешева в проверке. Эффективность метода во многом зависит от качества базовой модели, что, впрочем, для современных LLM, интересных сообществу верно. Интересно 🤔, справедливы ли полученные выводы для более сложных задач?

1,200 #

1 month, 4 weeks ago

1,100 #

4 months, 3 weeks ago

После долгой борьбы с инфраструктурой, богами Хаоса и Разрушения, удалось-таки квантизовать AQLM-ом и дообучить PV-алгоритмом меньшие версии ?-3.1.

1️⃣ ISTA-DASLab/Llama-3.1-8B-AQLM-PV-1Bit-1x16-hf
2️⃣ ISTA-DASLab/Llama-3.1-8B-AQLM-PV-2Bit-1x16-hf
3️⃣ ISTA-DASLab/Llama-3.1-8B-Instruct-AQLM-PV-1Bit-1x16-hf
4️⃣ ISTA-DASLab/Llama-3.1-8B-Instruct-AQLM-PV-2Bit-1x16-hf

70B в процессе. Самая интересная из ?, безусловно , 405B, но пока развлекаемся с тем, как поместить сие жирное чудище на машину)

740 #

4 months, 3 weeks ago

На свет появился еще один стартап про генеративное ИИ - Black Forest Labs (помните Черный Лес из Облы ??).

Чуваки привлекли 31M$ инвестиций, и в дело включились такие серьезные люди как Timo Aila и Vladlen Koltun.

Команда выпустила семейство моделей FLUX.1 из трех моделей:
1️⃣ Проприетарной [pro], доступной через их API и на replicate.ai2️⃣ Открытой [dev] с 12B параметрами
3️⃣ Открытой [schell] тоже с 12B параметрами, но нацеленную на генерацию в малое число шагов (1-4), по всей видимости дистиллированную из [dev] c помощью adversarial diffusion distillation.

Утверждают, что по ELO score бьют open-source и closed-source модели типа MJv6, SD3-Ultra, Ideogram.

Сами модели по себе представляют DiTы, обученные на flow matching.

Модель умеет генерировать изображения разного разрешения с разными aspect ratio.

Техрепорт обещают выложить в будущем.

Веса моделей на ?:
1️⃣ FLUX.1-dev
2️⃣ FLUX.1-schnell

Гитхаб проекта

6,600 #

5 months ago

Кванты Llama-3.1 уже появились на хабе.

На текущий момент выложены:

1️⃣ AWQ-INT4, GPTQ-INT4 квантизации Llama-3.1-405B-Instruct
2️⃣ BNB-NF4 квантизация Llama-3.1-405B
2️⃣ AWQ-INT4 квантизация Llama-3.1-70B
4️⃣ AWQ-INT4, BNB-NF4 квантизации Llama-3.1-8B-Instruct

Судя по скорости выкладывания, для калибровки моделей использовалось довольно мало данных, поэтому я бы ожидал значительной просадки в качестве по сравнению с исходной моделью.

INT4 требует 203 Gb VRAM для 405B модели, а BNB-NF4 220 Gb.

1,300 #

5 months ago

?-3.1 стала доступна широкой публике!
[Пост на meta]
[Model card на GitHub]
[Коллекция на ?]
[Пост на gonzo-ml]
[Пост на эйай ньюз]
[Пост на Love.Death.Transformers]

К версиям 8 и 70B добавилась жырная 405B.

Из основных фичей:
1️⃣ Мультиязычность (English, German, French, Italian, Portuguese, Hindi, Spanish, and Thai)
2️⃣ 128k окно контекста
3️⃣ Обрезка знаний по декабрь 2023.
4️⃣ Умеет с тулами работать

Обучалось на 15T+ (неизвестно насколько+) токенов из публичных как-то собранных данных.

Базовые меньшие модели иногда, кста , просаживаются по сравнению с v3 по метрикам, но instruct стабильно лучше.

Большая модель вполне себе бодается с GPT-4-Omni и Claude-3.5-Sonnet.

Посмотрим, что выдаст lmsys арена)

На хабе есть и FP8 версии)