Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago
FastHTML — кодим фронт на python
Jeremy Howard, любитель Jupyter Notebooks, представил новую либу для написания веб-приложений на python.
python main.py
? Звучит круто, НО кажется ребята все-таки опоздали на 5 лет. Как и Pynecone, про который я писал ранее
Главная причина в том, что простое веб приложение намного быстрее написать через claude.ai, чем разбираться в непонятном синтаксисе fastht.ml. Я попробовал накидать веб аппку с помощью этого промпта. Я не знаю js, но получилось прям хорошо. Через fastht.ml я бы сидел неделю ковырял его
И на код на скрине прям тяжко смотреть. Особенно на from fasthtml.common import *
(не делайте плиз так, это плохая практика)
Выводы:
1. Если хотим сделать простую демку, то юзаем gradio / streamlit
2. Если хотим написать норм приложение, то идем в claude с этим промптом (ну и учим js, товарищи!)
SGLang — еще один фреймворк для сервинга LLM
Помните vLLM? Его выпустили люди, причастные к LMSYS Arena, 20 июня 2023 (чуть больше года назад!)
Тогда vLLM пришел на замену TGI от huggingface и принес PagedAttention, механизм, который эффективно работал с памятью для KV cache, что позволило увеличить throughput в несколько раз
С тех пор произошло несколько интересных моментов:
1. TGI поменял лицензию с Apache 2.0 на платную
2. vLLM стал более-менее стандартом индустрии
3. Появился новый игрок от NVIDIA — TensorRT-LLM с поддержкой FP8 и бэкендом для тритона
4. В TRT-LLM завезли KV cache reuse, который нам ускорил инференс на несколько десятков процентов
5. TGI вернули Apache 2.0 (pathetic ?)
В целом, во все фреймворки быстро завозили новые модели (мистраль, mixtral, phi, qwen, etc), новые фишки (cache reuse, fp8, speculative sampling, In-flight Sequence Batching, etc).
Эвристика для выбора движка была примерно такая:
? Хочешь быстро и просто — используй vLLM
? Хочешь очень быстро и сложно — используй TRT
Теперь у нас новый сервинг от LMSYS:
1️⃣ user-friendly
2️⃣ easily modifiable
3️⃣ top-tier performance
ТО ЕСТЬ ???
1. Запускать можно также просто, как и vLLM
2. Все легко можно настроить и захакать, потому что все на python и в опен-сорсе
3. По скорости также, как и TRT-LLM
Про новости LLM писать уже поднадоело, но вот краткое саммари анонсов последних дней:
?#1 OpenAI выкатил замену старой доброй GPT-3.5 Turbo — GPT-4o mini. То же, но дешевле и качественнее. Контекст 128k, поддержка языков как в большой GPT-4o, цена $0.15/$0.60 за 1M входных/выходных токенов (у 3.5 было $0.50/$1.50).
https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
Теперь у каждого большого игрока есть большая, качественная и медленная модель + маленькая и быстрая (GPT-4o mini, Gemini Flash, Claude Haiku/Sonnet)
? #2 Mistral натренировал с NVIDIA 12B Mistral NeMo. Apache 2.0 лицензия, контекст 128k, вроде как бьют Gemma 2 9B и Llama 3 8B. Ну в целом неудивительно, она и побольше на треть.
Из важного, модель мультиязычная и с function calling! Совпадает с моими ожиданиями в https://t.me/gonzo_ML/2821.
https://mistral.ai/news/mistral-nemo/
? #3 Apple разродился своей опенсорсной 7B LLM под названием DCLM-7B. Из плюсов, более открытая чем некоторые благодаря открытому датасету. Но в целом непонятно что с ней делать, когда есть Llama3, Gemma2 и Qwen2.
https://x.com/_philschmid/status/1814274909775995087
?#4 А, да, HuggingFace выложил открытую SmolLM размерами 135M, 360M, и 1.7B для on-device инференса. Вроде как бьют Phi-1.5 и Qwen2 1.5B.
https://huggingface.co/blog/smollm
Openai
GPT-4o mini: advancing cost-efficient intelligence
Introducing the most cost-efficient small model in the market
Топ опенсорсных моделей для рол-плея ?
? gryphe/mythomax-l2-13b — модель на основе llama 2, проверенная временем. Ей уже почти год (!), а ей до сих пользуются на openrouter, и использование только растет (500M -> 2.5B токенов). И стоит всего $0.1 на вход и $0.1 на выход.
Когда в апреле вышла Llama 3, авторы модели выпустили ПЕСНЮ "Прощай МитоМакс", но моделька до сих пор жива
? openlynn/Llama-3-Soliloquy-8B-v1 — llama 3, обученная энтузиастами с реддита на 250М токенах ролплейных данных
? neversleep/llama-3-lumimaid-8b — llama 3, можно сказать, что наследник MythoMax, потому что в команде "обучателей" есть автор митомакса. Трейн сет состоит из 12 разных источников разговорных и не только данных
? Sao10K/L3-8B-Stheno-v3.2 — относительно новая trending моделька с хорошими отзывами на реддите
Где находить модели? На реддите SillyTavernAI, LocalLLaMA и Рейтинг openrouter
Рекомендую к ознакомлению канал Тенхножрицы! Лаида пишет и публикует научные статьи по картинкам, текстам, звуку и пр.
Аргументы вступить:
- канал от действующей ученой
- на канале много мемов (см. скрин, чтобы оценить процент мемных постов). Мой любимый хэштег — #ML_в_мемах
- на канале есть пост-гайд, как и где научиться машинному обучению, с разбором, какими знаниями нужно обладать, на чем писать, как искать вакансии и тд.
Полезно, чтобы не попасться в ловушку НЕЙРОСЕТОЛОГОВ и прочих ушлых ребят.
Также советую подписаться на папку людей с реальным опытом в индустрии и академии (там нет булщитеров)
Mistral выпустили модель для кода
Я пытаюсь понять, кто и как такие модели использует. Вижу два кейса
Есть еще кейсы?
mistral.ai
Codestral Mamba
As a tribute to Cleopatra, whose glorious destiny ended in tragic snake circumstances, we are proud to release Codestral Mamba, a Mamba2 language model specialised in code generation, available under an Apache 2.0 license.
Pretend you are ...
? Gemma 2 разводит на £££
Гугол зарелизили Gemma 2 и проверили, может ли модель убедить людей задонатить на благотворительность.
Gemini 1.0 Pro может выбить дополнительно 57% донатов из людей ?
Перед тем, как показывать пейвол в приложениях, нужно сначала давать пообщаться с Gemini? ?
Только сейчас заметил, что у dequantised версии слитой модельки mistral лицензия NOMERGE
Это какой-то прикол? ?
Удалять слои научились, а как стакать more layers?
Один из методов мерджа моделей — это настакать слои разных моделей друг с другом (шок!)
В либе mergekit такой подход назвыается Passthrough.
Я знаю как минимум пару моделей, которые получились действительно хорошими
1️⃣ alpindale/goliath-120b — какое-то время была одной из лучшей для ролплея. Была в топе рейтинга openrouter, и использовалась многими приложениями с AI bots
2️⃣ wolfram/miquliz-120b-v2.0 — моделька на уровне gpt-4 по замерам от WolframRavenwolf на LocalLLaMA (смерджена со знаменитой слитой моделью mistral)
Но более забавно осознавать, что мердж первой модели происходил по схеме
Как это вообще работает? ?
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago