black_samorez

Description
@black_samorez
Advertising
We recommend to visit
Mash
Mash
3,075,771 @mash

Прислать новость, фото, видео, аудио, бересту: @in_mash_bot

Покупка рекламы: @marina_mousse

Помахаться и обсудить новости: @mash_chat

По всем остальным вопросам: @MashAdmin_bot

Last updated 6 hours ago

Из России с любовью и улыбкой :)

From Russia with love and a smile :)

Chat - @ShutkaUm

Last updated 5 hours ago

Мы создаём удобные решения выполняющие ваши запросы.

Обсуждения в формате форума - @EYEOFGOD_FORUM
Разработчик: @antipov

Информация, опубликованная на данном канале, носит справочно-ознакомительный характер и служит для ознакомительных целей.

2 months ago

Написал пост на substack про то как я портировал AQLM на мобильные телефоны и как мы с @galbdm умудрились запихнуть Llama\-3.1\-8b в 2.5 Гб RAM.
В посте детали про то, что нужно было дописать в Executorch чтобы скомпилировать и линкануть кастомные кернелы и как все это дело экспортировать на мобилки.
P.S. подписывайтесь на мой twitter.

2 months, 2 weeks ago

Записали на студии Яндекса видео с объяснением метода статьи и результатов.
Если кто-то будет завтра гулять по постер сессии на ICML - заходите, поболтаем.

YouTube

[ICML24] AQLM: Extreme Compression of Large Language Models via Additive Quantization

Short video describing our ICML 2024 paper on Extreme Compression of Large Language Models via Additive Quantization. Arxiv:2401.06118

2 months, 2 weeks ago

Выпустил свою вторую статью на хабре. На этот раз в блоге яндекса

https://habr.com/ru/companies/yandex/articles/830410/

Хабр

Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning

Мы живём в эпоху LLM — компании применяют на практике всё более крупные модели с миллиардами параметров. Это здорово, потому что большие модели открывают пользователям сервисов новые возможности, но...

Выпустил свою вторую статью на хабре. На этот раз в блоге яндекса
2 months, 3 weeks ago
Приехал тусить в Вену

Приехал тусить в Вену

5 months, 1 week ago

У меня есть несколько значительных апдейтов касательно AQLM: Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых…

huggingface.co

AQLM - a ISTA-DASLab Collection

AQLM quantized LLMs

У меня есть несколько значительных апдейтов касательно AQLM: Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества …
7 months ago

У меня есть несколько значительных апдейтов касательно AQLM:

Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.

Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)

I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)

8 months ago
Мы с коллегами из Yandex Research …

Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.

Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.

Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.

Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True), и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.

Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.

11 months, 2 weeks ago
black_samorez
1 year, 3 months ago
black_samorez
We recommend to visit
Mash
Mash
3,075,771 @mash

Прислать новость, фото, видео, аудио, бересту: @in_mash_bot

Покупка рекламы: @marina_mousse

Помахаться и обсудить новости: @mash_chat

По всем остальным вопросам: @MashAdmin_bot

Last updated 6 hours ago

Из России с любовью и улыбкой :)

From Russia with love and a smile :)

Chat - @ShutkaUm

Last updated 5 hours ago

Мы создаём удобные решения выполняющие ваши запросы.

Обсуждения в формате форума - @EYEOFGOD_FORUM
Разработчик: @antipov

Информация, опубликованная на данном канале, носит справочно-ознакомительный характер и служит для ознакомительных целей.