Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month, 2 weeks ago
SGLang — еще один фреймворк для сервинга LLM
Помните vLLM? Его выпустили люди, причастные к LMSYS Arena, 20 июня 2023 (чуть больше года назад!)
Тогда vLLM пришел на замену TGI от huggingface и принес PagedAttention, механизм, который эффективно работал с памятью для KV cache, что позволило увеличить throughput в несколько раз
С тех пор произошло несколько интересных моментов:
1. TGI поменял лицензию с Apache 2.0 на платную
2. vLLM стал более-менее стандартом индустрии
3. Появился новый игрок от NVIDIA — TensorRT-LLM с поддержкой FP8 и бэкендом для тритона
4. В TRT-LLM завезли KV cache reuse, который нам ускорил инференс на несколько десятков процентов
5. TGI вернули Apache 2.0 (pathetic ?)
В целом, во все фреймворки быстро завозили новые модели (мистраль, mixtral, phi, qwen, etc), новые фишки (cache reuse, fp8, speculative sampling, In-flight Sequence Batching, etc).
Эвристика для выбора движка была примерно такая:
? Хочешь быстро и просто — используй vLLM
? Хочешь очень быстро и сложно — используй TRT
Теперь у нас новый сервинг от LMSYS:
1️⃣ user-friendly
2️⃣ easily modifiable
3️⃣ top-tier performance
ТО ЕСТЬ ???
1. Запускать можно также просто, как и vLLM
2. Все легко можно настроить и захакать, потому что все на python и в опен-сорсе
3. По скорости также, как и TRT-LLM
едем куда-то далеко за город?
Волож снова возглавил ~~Яндекс~~ Nebius. Решил запрыгнуть в поезд ИИ:
У меня лично ощущение, что AI — это не хайп, а всерьез и надолго. Примерно так же, как было с интернетом и поиском в 90-е: большое изменение, которое происходит раз в поколение
Хехе, зарабатывать собираются на компьюте:
Основными клиентами Nebius должны стать AI-стартапы, которые вслед за крупнейшими игроками делают или собственные нейросети, или приложения на их основе. Им тоже нужно большое количество вычислительных мощностей, но получить их у крупнейших игроков на рынке — вроде Microsoft Azure или AWS — тяжело.
Итак, долгожданный релиз состоялся. Грег Брокман в кожанке (видимо, отжал её у Дженсена Хуанга) продемонстрировал голосовые возможности новой модельки. Что ж, очень впечатляет, работникам колл-центров точно стоит напрячься. Все необходимые элементы для создания терминаторов теперь в наличии, осталось напечатать баблишко и начать строить заводы.
Кстати, о деньгах. Люди задаются вопросом, как же теперь OpenAI будет зарабатывать, если лучшая модель доступна бесплатно. Будут зарабатывать на апишке, тем более после такого вкусного релиза количество желающих автоматизировать всё и вся в своём бизнесе только вырастет. Инсайдеры из долины также сообщают, что в ходе борьбы башен было решено выделить Саме 7 триллионов (правда не 7, а 5), поэтому собирать копейки с подписок вроде как не комильфо, надо работать по-крупному.
Ну а пока топовые перцентили замерли в ожидании предстоящей трансляции OpenAI, вернемся к нашим баранам. Я уже упоминал чатик LLM под капотом и парадигму Knowledge Map (knowledge map — это про построение эффективных RAG систем), которая там активно пропагандируется. Недавно удалось побывать (к сожалению, большую часть удалось послушать только в записи) на семинаре по этой теме. Семинар платный, поэтому я не буду забирать хлеб у авторов и расписывать все фишки, остановлюсь только на общих моментах.
Как мне кажется, ядро концепции в том, где находится точка сборки (привет Кастанеде). Обычно инженеры исходят из технологии и думают, как бизнес-задачу впихнуть в уже существующий стек. Если задача решается не очень хорошо, пробуем усложнить нашу технологию. Например, если наивный RAG дал течь, закидываем в него дополнительные плюшки в виде разных стратегий чанкинга, реранка, тюна векторайзера и так далее. Это даже может сработать и повысить метрики (особенно если вы их сами и подобрали). Но можно пойти и другим путем: во главу угла поставить бизнес и трансформировать саму технологию.
Кажется, что это то же самое, только в профиль, но нет. В первом подходе мы копаемся в технологии, во втором — в бизнес-процессе. Для инженера это бывает тяжко, так как надо из тонкого мира лосов и тензоров упасть в грешный мир человеческих страстей.
Если ~~долго смотреть в бездну~~ общаться с бизнесом, то базовая интуиция knowledge map формируется сама собой. Для одного нашего внутреннего клиента я как-то наклепал модельку по лекалам knowledge map и даже придумал название — enhanced retrieval. Правда, не дошел до понимания, что такой подход можно масштабировать практически для любой задачи. В общем, спасибо Ринату за семинар, было полезно, для себя нашел много интересных идей.
С Днём Победы!
Оказывается ~~размер~~ порядок имеет значение, по крайней мере при получении ответов от ллммок на логические вопросы. Исследование показывает, что важно, в каком порядке мы представляем информацию языковым моделям когда решаем задачки на логику или математику. Если поменять порядок предпосылок, то модели могут хуже справляться с задачами, даже если сама задача от этого не меняется.
В исследовании фигурирует несколько промптов, которые демонстрируют, как ответы моделей меняются при изменении порядка предложений. Я решил проверить, так ли это на самом деле. Для теста использовал gpt\-4\-1106\-preview
.
Первая задача формулируется так:
A bumper car rink has 12 red cars. They have 2 fewer green cars than they have red cars. They have 3 times the number of blue cars as they have green cars. The rink also has yellow cars. If the rink has 75 cars in total how many yellow cars do they have?
Ответ модели верный - 23 (полный приводить не буду для экономии места).
Теперь переместим всего одно предложение:
A bumper car rink has 12 red cars. They have 2 fewer green cars than they have red cars. The rink also has yellow cars. They have 3 times the number of blue cars as they have green cars. If the rink has 75 cars in total how many yellow cars do they have?
И получаем:
```
Let's break down the information given:
First, let's find out how many green cars there are. Since there are 2 fewer green cars than red cars, and there are 12 red cars:
Number of green cars = Number of red cars - 2
Number of green cars = 12 - 2
Number of green cars = 10
Now, let's find out how many yellow cars there are. The number of yellow cars is three times the number of green cars:
Number of yellow cars = 3 × Number of green cars
Number of yellow cars = 3 × 10
Number of yellow cars = 30
Now we have the number of red, green, and yellow cars. We still need to find out how many blue cars there are. Let's add up the cars we know about and subtract from the total to find the blue cars:
Total cars = Red cars + Green cars + Yellow cars + Blue cars
75 = 12 + 10 + 30 + Blue cars
75 = 52 + Blue cars
Now, let's solve for the number of blue cars:
Blue cars = 75 - 52
Blue cars = 23
So, there are 23 blue cars. We were asked for the number of yellow cars, which we already calculated as 30.
Therefore, the rink has 30 yellow cars.
```
Что ж, проблемка действительно присутствует.
Причем в исследовании фигурируют бенчмарки деградации качества ответов разных моделей в зависимости от количества утверждений в промте и их порядка. Gemini Pro прям отлично (нет) выступила.
Игорь Сиолошный выпустил шикарную статью про ~~гибрид скайнета и матрицы~~ создание большими моделями (язык уже не поворачивается сказать языковыми) собственной картины мира. Разложил все по полочкам, прям как чатгпт, когда в промте указываешь "объясни на пальцах". Я так не умею (по крайней мере пока хе-хе), снимаю шляпу.
https://habr.com/ru/articles/794566/
Хабр
Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT
Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле...
RAGAS не забыт
https://habr.com/ru/articles/794022/
Хабр
GPT или GigaChat — ответит RAGAS
В предыдущей статье мы разбирались с тем, как RAGAS помогает оценить работу ретриверов в RAG-системах. Продолжая наше исследование, теперь мы переключаемся на другой важный аспект - качество языковых...
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month, 2 weeks ago