Generative Ai

Description
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Admin @salavatov
Группа в ВК https://vk.com/deeplearning_ru

https://t.me/boost/deeplearn
Advertising
We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

? Комьюнити: t.me/okx_russian

?‍? Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 weeks, 2 days ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 1 month ago

#1 канал о блокчейне, криптовалютах и децентрализованных финансах.

🔥 Реклама — @DCTeam

Last updated 1 day, 6 hours ago

2 months ago
Generative Ai
2 months ago
***?*****Black Forest Labs: новая лаба, которая …

?Black Forest Labs: новая лаба, которая будет двигать опенсорс image и видео генерацию! И новая SOTA 12B t2i модель!

Ядро команды состоит из авторов Stable Diffusion, которые покинули Stability-ai в марте. Как я и думал, они ушли и создали свою компанию!

Парни за эти несколько месяцев обучили text2image модель FLUX.1 на 12 B параметров! Которая на сегодня является SOTA моделью в открытом доступе! По предоставленным бенчам бьет даже MJ6!

Кажется, делали FLUX.1по рецепту SD3, т.к. она имеет очень похожую архитектуру (DiT с двумя стримами - текст и картинка) и также основана на Flow Matching.

FLUX.1 вышла в 3 вариантах:
1️⃣ FLUX.1 [pro]: СОТА модель на 12B параметром. Все как надо - хорошая детализация изображений и фледование промпту, разные стили.
Доступна только через API:
- https://replicate.com/black-forest-labs
- https://fal.ai/models/fal-ai/flux-pro (дают даже бесплатно потыкать)

2️⃣FLUX.1 [dev]: Это дистиллированная чезе Guidance Distillation модель FLUX.1 [pro], которая в ~2 раза быстрее оригинала, и выдает почти такое же качество.
Демо:
- https://fal.ai/models/fal-ai/flux/dev
Веса (Non-Commercial License):
- https://huggingface.co/black-forest-labs/FLUX.1-dev

3️⃣ FLUX.1 [schnell]: Это быстра версия. По все видимости, это дистиллированная с помощью LADD (пост) модель FLUX.1 [pro], которая работает за малое число шагов (от 1 до 12), но с качеством похуже.
Веса (Apache 2.0 License):
- https://huggingface.co/black-forest-labs/FLUX.1-schnell

Репа с кодом
Блогпост

Следуюшим шагом парни хотят выпустить SOTA text2video в опенсорс.

@ai_newz

2 months, 1 week ago
***?*****Mastering LLMs: Открытый курс по LLM …

?Mastering LLMs: Открытый курс по LLM от практиков

Я заметил, что очень хорошо разлетелся пост сноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.

Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.

Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.

Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.

Ссылка на курс: https://parlance-labs.com/education/

Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.

#ликбез
@ai_newz

4 months, 3 weeks ago

– Показали GPT4-4o, самую мощную новую модель: она будет доступна для платных и ДЛЯ БЕСПЛАТНЫХ пользователей ChatGPT (даже без регистрации). Модель сейчас на первом месте по тестам сравнивая с другими лучшими моделями — и в коде и в других задачах.

– GPT4-4o это «Омнимодель» натренированная сразу на тексте, фото и видео — то есть та самая мультимодальность которую мы ждали.

– GPT4-4o уже доступна через API и стоит в два раза дешевле, и работает в 2 раза быстрее.

– Показали улучшенную версию аудио-чата через ассистента — она теперь шутит, понимает ваши эмоции; теперь ассистента можно перебивать своим голосом и сам ассистент говорит с эмоциями, и вы можете просить ее менять эти эмоции (даже петь). Переводчик с помощью GPT4-4o просто работает как в Sci-Fi кино (не путаясь и не требуя дополнительных нажатий кнопок).

– Запустят десктопные приложение наконец-то, чтобы не в вебе сидеть; в десктопном приложении ей можно показывать экран целиком и просить ее подправить код, что-то рассказать и тп. То есть это ассистент, который всегда видит ваш экран.

Дополнительные мелочи:
— Заявленные фичи выкатят через пару недель.
— Теперь через приложение можно просто ей показывать видео фид и она будет давать советы как решить какую-то задачу (не нужно фоткать ничего, работает как стрим);

— Во время демки ассистент тормозил хехе.

А вот что я предсказывал в посте выше и что сбылось или не сбылось:
Демку ассистента как из фильма Her
Полную мультимодальность: модель будет обучена сразу на видео, аудио, картинках и тексте
Размер контекстного окна в 1М (мы не знаем пока)
Новую архитектуру к новой модели, у которой сразу будут все фишки выше
GPT4 обновление с лучшим написанием кода, или 4.5 или 4.1 (с названиями, они, конечно, не консистентны)
Новую версию Dalle 3, с улучшенным фотореализмом

4 months, 3 weeks ago
**Gazelle - первая open source VoiceToLLM …

Gazelle - первая open source VoiceToLLM модель

TincansAI объявил о выпуске Gazelle v0.2, инновационной речевой модели, которая может может обрабатывать устные запросы и длинные аудиофайлы напрямую, без их транскрипции или распознавания речи.

Благодаря прямой обработке аудио данных, модель быстрее, точнее, а также способна интерпретировать эмоции и даже сарказм в речи.

Код "из коробки", с абсолютно нулевой оптимизацией и работающий с полной точностью, достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход. По оценкам авторов, задержка более сложной системы с синтезом составит менее 300 миллисекунд, что меньше воспринимаемой человеком задержки в реальном времени

Насколько известно авторам, данная модель является первой и единственной open source моделью, способной вести диалог в реальном времени. Кроме того, разработчики публично проводят оценку безопасности и сообщают об успешных атаках на речевую модель. Наконец, это первая речевая модель, в которой применяется мультимодальная оптимизация предпочтений.

Производительность Gazelle оптимизирована для реальных приложений, таких как поддержка клиентов, телефонные звонки и общение в чате.

? Сайт
? HuggingFace
?‍?Демо1
✖️ Демо2

5 months, 1 week ago
***⚡️*** **llamafile — утилита для быстрого …

⚡️ llamafile — утилита для быстрого запуска ИИ-моделей

Инструмент llamafile от Mozilla даёт возможность упаковать веса LLM в исполняемый файл, который без установки можно запустить практически на любой современной платформе. Поддерживаются архитектуры x86-64 и ARM64, а также системы macOS, Windows, Linux, FreeBSD, OpenBSD и NetBSD.

llamafile работает практически со всеми LLM, недавно была добавлена поддержка модели Phi-3 Mini 4k, а также LLaMA3, Grok, Mixtral 8x22b и Command-R.

? GitHub

@ai_machinelearning_big_data

6 months, 2 weeks ago
Google открыли для всех доступ к …

Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat

Можно загрузить видео или целую папку с файлами для анализа

Го тестировать

6 months, 3 weeks ago

Сейчас очень много сервисов, позиционирующих себя, как сервисы генерации видео из текста с помощью ИИ. Обычно у многих написано Text2Video. И когда начинаешь с кем-то говорить на эту тему, обычно всегда говорят, что полно аналогов.

На самом деле, многие сервисы позиционируют себя одинаково, но под капотом спрятано совершенно другое.

Подборка сервисов создания видео из текста

https://vc.ru/964837

vc.ru

Создание видео из текста с помощью ИИ, легко и без усилий. Сравнение сервисов — Видео на vc.ru

Сейчас очень много сервисов, позиционирующих себя, как сервисы генерации видео из текста с помощью ИИ. Обычно у многих написано Text2Video. И когда начинаешь с кем-то говорить на эту тему, обычно всегда говорят, что полно аналогов.

Сейчас очень много сервисов, позиционирующих себя, как сервисы генерации видео из текста с помощью ИИ. Обычно у многих написано Text2Video. …
7 months ago
*****?*** SOTA: Stable Diffusion 3:вышла**! ***?***

*? SOTA: Stable Diffusion 3:вышла! ?*

Stable Diffusion 3 - это новая технология преобразования текста в изображение SOTA.

Новая архитектура Multimodal Diffusion Transformer (MM Bit) использует отдельные наборы весов для изображений и языка, улучшая возможности понимания текста / правописания.

Новая масштабируемая архитектура для синтеза текста в изображение
Двунаправленное смешивание потоков токенов текста и изображений
Самые крупные модели превосходят открытые модели SOTA, такие как SDXL

Blog: https://stability.ai/news/stable-diffusion-3-research-paper
Paper: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

ai_machinelearning_big_data

8 months, 3 weeks ago
Generative Ai
We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

? Комьюнити: t.me/okx_russian

?‍? Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 weeks, 2 days ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 1 month ago

#1 канал о блокчейне, криптовалютах и децентрализованных финансах.

🔥 Реклама — @DCTeam

Last updated 1 day, 6 hours ago