Нейронный Кот

Description
by @fursov (Head of AI at exh.ai)

https://www.linkedin.com/in/fursovia
Advertising
We recommend to visit
Roxman
Roxman
13,679,941 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 21 hours ago

HAYZON
HAYZON
6,735,913 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Last updated 6 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 2 months, 1 week ago

3 months ago
FastHTML — кодим фронт на python

FastHTML — кодим фронт на python

Jeremy Howard, любитель Jupyter Notebooks, представил новую либу для написания веб-приложений на python.

  1. Определяем страницы через эндпоинты, примерно как в FastAPI
  2. Через Form(), Titled(), Ul() и тд пишем, как будет выглядеть страница
  3. Деплоим через команду python main.py

? Звучит круто, НО кажется ребята все-таки опоздали на 5 лет. Как и Pynecone, про который я писал ранее

Главная причина в том, что простое веб приложение намного быстрее написать через claude.ai, чем разбираться в непонятном синтаксисе fastht.ml. Я попробовал накидать веб аппку с помощью этого промпта. Я не знаю js, но получилось прям хорошо. Через fastht.ml я бы сидел неделю ковырял его

И на код на скрине прям тяжко смотреть. Особенно на from fasthtml.common import * (не делайте плиз так, это плохая практика)

Выводы:
1. Если хотим сделать простую демку, то юзаем gradio / streamlit
2. Если хотим написать норм приложение, то идем в claude с этим промптом (ну и учим js, товарищи!)

Сайт
Github

@neural_cat

3 months, 1 week ago

SGLang — еще один фреймворк для сервинга LLM

Помните vLLM? Его выпустили люди, причастные к LMSYS Arena, 20 июня 2023 (чуть больше года назад!)

Тогда vLLM пришел на замену TGI от huggingface и принес PagedAttention, механизм, который эффективно работал с памятью для KV cache, что позволило увеличить throughput в несколько раз

С тех пор произошло несколько интересных моментов:
1. TGI поменял лицензию с Apache 2.0 на платную
2. vLLM стал более-менее стандартом индустрии
3. Появился новый игрок от NVIDIA — TensorRT-LLM с поддержкой FP8 и бэкендом для тритона
4. В TRT-LLM завезли KV cache reuse, который нам ускорил инференс на несколько десятков процентов
5. TGI вернули Apache 2.0 (pathetic ?)

В целом, во все фреймворки быстро завозили новые модели (мистраль, mixtral, phi, qwen, etc), новые фишки (cache reuse, fp8, speculative sampling, In-flight Sequence Batching, etc).

Эвристика для выбора движка была примерно такая:
? Хочешь быстро и просто — используй vLLM
? Хочешь очень быстро и сложно — используй TRT

Теперь у нас новый сервинг от LMSYS:
1️⃣ user-friendly
2️⃣ easily modifiable
3️⃣ top-tier performance

ТО ЕСТЬ ???
1. Запускать можно также просто, как и vLLM
2. Все легко можно настроить и захакать, потому что все на python и в опен-сорсе
3. По скорости также, как и TRT-LLM

GitHub
Blog Post

@neural_cat

3 months, 1 week ago

Про новости LLM писать уже поднадоело, но вот краткое саммари анонсов последних дней:

?#1 OpenAI выкатил замену старой доброй GPT-3.5 Turbo — GPT-4o mini. То же, но дешевле и качественнее. Контекст 128k, поддержка языков как в большой GPT-4o, цена $0.15/$0.60 за 1M входных/выходных токенов (у 3.5 было $0.50/$1.50).

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

Теперь у каждого большого игрока есть большая, качественная и медленная модель + маленькая и быстрая (GPT-4o mini, Gemini Flash, Claude Haiku/Sonnet)

? #2 Mistral натренировал с NVIDIA 12B Mistral NeMo. Apache 2.0 лицензия, контекст 128k, вроде как бьют Gemma 2 9B и Llama 3 8B. Ну в целом неудивительно, она и побольше на треть.

Из важного, модель мультиязычная и с function calling! Совпадает с моими ожиданиями в https://t.me/gonzo_ML/2821.

https://mistral.ai/news/mistral-nemo/

? #3 Apple разродился своей опенсорсной 7B LLM под названием DCLM-7B. Из плюсов, более открытая чем некоторые благодаря открытому датасету. Но в целом непонятно что с ней делать, когда есть Llama3, Gemma2 и Qwen2.

https://x.com/_philschmid/status/1814274909775995087

?#4 А, да, HuggingFace выложил открытую SmolLM размерами 135M, 360M, и 1.7B для on-device инференса. Вроде как бьют Phi-1.5 и Qwen2 1.5B.

https://huggingface.co/blog/smollm

Openai

GPT-4o mini: advancing cost-efficient intelligence

Introducing the most cost-efficient small model in the market

Про новости LLM писать уже поднадоело, но вот краткое саммари анонсов последних дней:
3 months, 2 weeks ago

Топ опенсорсных моделей для рол-плея ?

? gryphe/mythomax-l2-13b — модель на основе llama 2, проверенная временем. Ей уже почти год (!), а ей до сих пользуются на openrouter, и использование только растет (500M -> 2.5B токенов). И стоит всего $0.1 на вход и $0.1 на выход.

Когда в апреле вышла Llama 3, авторы модели выпустили ПЕСНЮ "Прощай МитоМакс", но моделька до сих пор жива

? openlynn/Llama-3-Soliloquy-8B-v1 — llama 3, обученная энтузиастами с реддита на 250М токенах ролплейных данных

? neversleep/llama-3-lumimaid-8b — llama 3, можно сказать, что наследник MythoMax, потому что в команде "обучателей" есть автор митомакса. Трейн сет состоит из 12 разных источников разговорных и не только данных

? Sao10K/L3-8B-Stheno-v3.2 — относительно новая trending моделька с хорошими отзывами на реддите

Где находить модели? На реддите SillyTavernAI, LocalLLaMA и Рейтинг openrouter

3 months, 2 weeks ago
Рекомендую к ознакомлению канал [Тенхножрицы](https://t.me/tech_priestess)! Лаида …

Рекомендую к ознакомлению канал Тенхножрицы! Лаида пишет и публикует научные статьи по картинкам, текстам, звуку и пр.
Аргументы вступить:
- канал от действующей ученой
- на канале много мемов (см. скрин, чтобы оценить процент мемных постов). Мой любимый хэштег — #ML_в_мемах
- на канале есть пост-гайд, как и где научиться машинному обучению, с разбором, какими знаниями нужно обладать, на чем писать, как искать вакансии и тд.

Полезно, чтобы не попасться в ловушку НЕЙРОСЕТОЛОГОВ и прочих ушлых ребят.

Также советую подписаться на папку людей с реальным опытом в индустрии и академии (там нет булщитеров)

3 months, 2 weeks ago

Mistral выпустили модель для кода

Я пытаюсь понять, кто и как такие модели использует. Вижу два кейса

  1. Не хочешь чувствовать себя древним ацтеком в самолете без доступа в интернет
  2. Ты или твоя компания беспокоитесь, что злые github copilot или cursor.com украдут ваш код

Есть еще кейсы?

mistral.ai

Codestral Mamba

As a tribute to Cleopatra, whose glorious destiny ended in tragic snake circumstances, we are proud to release Codestral Mamba, a Mamba2 language model specialised in code generation, available under an Apache 2.0 license.

Mistral [выпустили модель для кода](https://mistral.ai/news/codestral-mamba/)
3 months, 3 weeks ago
Pretend you are ...

Pretend you are ...

4 months ago
***?*** Gemma 2 разводит на £££

? Gemma 2 разводит на £££

Гугол зарелизили Gemma 2 и проверили, может ли модель убедить людей задонатить на благотворительность.

  1. Участникам эксперимента раздали по £20
  2. И спросили, сколько из этой двадцатки они готовы отдать на благотворительность
  3. Часть людей сначала общалась с моделями Gemini/Gemma, которые убеждали задонатить

Gemini 1.0 Pro может выбить дополнительно 57% донатов из людей ?

Перед тем, как показывать пейвол в приложениях, нужно сначала давать пообщаться с Gemini? ?

6 months, 1 week ago
Только сейчас заметил, что у [dequantised …

Только сейчас заметил, что у dequantised версии слитой модельки mistral лицензия NOMERGE

Это какой-то прикол? ?

6 months, 1 week ago
Удалять слои научились, а как **стакать …

Удалять слои научились, а как стакать more layers?

Один из методов мерджа моделей — это настакать слои разных моделей друг с другом (шок!)

В либе mergekit такой подход назвыается Passthrough.

Я знаю как минимум пару моделей, которые получились действительно хорошими

1️⃣ alpindale/goliath-120b — какое-то время была одной из лучшей для ролплея. Была в топе рейтинга openrouter, и использовалась многими приложениями с AI bots
2️⃣ wolfram/miquliz-120b-v2.0 — моделька на уровне gpt-4 по замерам от WolframRavenwolf на LocalLLaMA (смерджена со знаменитой слитой моделью mistral)

Но более забавно осознавать, что мердж первой модели происходил по схеме

  1. Взять первые 16 слоев из Xwin
  2. Следующие 16 из Euryale
  3. Следующие 15 из Xwin
  4. ... (см скрин)

Как это вообще работает? ?

We recommend to visit
Roxman
Roxman
13,679,941 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 21 hours ago

HAYZON
HAYZON
6,735,913 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Last updated 6 hours ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 2 months, 1 week ago