Из России с любовью и улыбкой :)
From Russia with love and a smile :)
Chat - @ShutkaUm
@Shutka_U
Last updated 2 weeks, 3 days ago
Почистили канал, тут будут только реакты на ТВ шоу
Ожидаем ответа от ТВ
Написал пост на substack про то как я портировал AQLM на мобильные телефоны и как мы с @galbdm умудрились запихнуть Llama\-3.1\-8b
в 2.5 Гб RAM.
В посте детали про то, что нужно было дописать в Executorch
чтобы скомпилировать и линкануть кастомные кернелы и как все это дело экспортировать на мобилки.
P.S. подписывайтесь на мой twitter.
Записали на студии Яндекса видео с объяснением метода статьи и результатов.
Если кто-то будет завтра гулять по постер сессии на ICML - заходите, поболтаем.
YouTube
[ICML24] AQLM: Extreme Compression of Large Language Models via Additive Quantization
Short video describing our ICML 2024 paper on Extreme Compression of Large Language Models via Additive Quantization. Arxiv:2401.06118
Выпустил свою вторую статью на хабре. На этот раз в блоге яндекса
https://habr.com/ru/companies/yandex/articles/830410/
Хабр
Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning
Мы живём в эпоху LLM — компании применяют на практике всё более крупные модели с миллиардами параметров. Это здорово, потому что большие модели открывают пользователям сервисов новые возможности, но...
Приехал тусить в Вену
У меня есть несколько значительных апдейтов касательно AQLM: Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых…
huggingface.co
AQLM - a ISTA-DASLab Collection
AQLM quantized LLMs
У меня есть несколько значительных апдейтов касательно AQLM:
Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.
Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)
I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)
Мы с коллегами из Yandex Research сделали новый метод квантизации LLM’ок - AQLM. Он позволяет сжимать модели вплоть до 2 бит на параметр, что открывает тонну возможностей от запуска Llama 2 70b на RTX 3090 до, потенциально, меньших моделей на мобилках. Статья доступна на arXiv, код лежит на GitHub.
Про качество: AQLM бьет по качеству все существующие методы в диапазоне 2-3 бит на параметр: AQLM 2 бита лучше чем QuIP# 2 бита и даже мощнее GPTQ 3 бита.
Про готовые модели: мы выложили готовые квантизованные модели на хаб. Лламы от 7b до 70b и Mixtral в разных конфигурациях. Для быстрого инференса мы написали несколько кернелов на CUDA, Triton и Numba. Они оптимизированы под различные сетапы квантизации, и либо немного уступают, либо заметно превосходят fp16 по скорости генерации.
Про использование: весь продвинутый код инференса завернут в одну либу, и устанавливается просто через pip install aqlm
. После этого можно смело подгружать любые модели с хаба через .from_pretrained(..., trust_remote_code=True)
, и оптимальные кернелы будут выбираться и компилироваться на ходу за кулисами.
Про метод: мы применяем квантизацию групп соседних весов для эффективного использования их взаимной информации. Более конкретно, мы представляем все блоки весов (размером около 1x8) в матрице суммой некоторого количества векторов из небольшого обучаемого списка (Additive Quantization). Детали и бэкграунд подробно описаны в статье.
Из России с любовью и улыбкой :)
From Russia with love and a smile :)
Chat - @ShutkaUm
@Shutka_U
Last updated 2 weeks, 3 days ago
Почистили канал, тут будут только реакты на ТВ шоу
Ожидаем ответа от ТВ