Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
? Комьюнити: t.me/okx_russian
?? Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 2 weeks, 2 days ago
Здесь простым языком про TON, DFC и крипту.
Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot
Last updated 1 month ago
#1 канал о блокчейне, криптовалютах и децентрализованных финансах.
🔥 Реклама — @DCTeam
Last updated 1 day, 6 hours ago
?Black Forest Labs: новая лаба, которая будет двигать опенсорс image и видео генерацию! И новая SOTA 12B t2i модель!
Ядро команды состоит из авторов Stable Diffusion, которые покинули Stability-ai в марте. Как я и думал, они ушли и создали свою компанию!
Парни за эти несколько месяцев обучили text2image модель FLUX.1 на 12 B параметров! Которая на сегодня является SOTA моделью в открытом доступе! По предоставленным бенчам бьет даже MJ6!
Кажется, делали FLUX.1по рецепту SD3, т.к. она имеет очень похожую архитектуру (DiT с двумя стримами - текст и картинка) и также основана на Flow Matching.
FLUX.1 вышла в 3 вариантах:
1️⃣ FLUX.1 [pro]: СОТА модель на 12B параметром. Все как надо - хорошая детализация изображений и фледование промпту, разные стили.
Доступна только через API:
- https://replicate.com/black-forest-labs
- https://fal.ai/models/fal-ai/flux-pro (дают даже бесплатно потыкать)
2️⃣FLUX.1 [dev]: Это дистиллированная чезе Guidance Distillation модель FLUX.1 [pro], которая в ~2 раза быстрее оригинала, и выдает почти такое же качество.
Демо:
- https://fal.ai/models/fal-ai/flux/dev
Веса (Non-Commercial License):
- https://huggingface.co/black-forest-labs/FLUX.1-dev
3️⃣ FLUX.1 [schnell]: Это быстра версия. По все видимости, это дистиллированная с помощью LADD (пост) модель FLUX.1 [pro], которая работает за малое число шагов (от 1 до 12), но с качеством похуже.
Веса (Apache 2.0 License):
- https://huggingface.co/black-forest-labs/FLUX.1-schnell
Следуюшим шагом парни хотят выпустить SOTA text2video в опенсорс.
?Mastering LLMs: Открытый курс по LLM от практиков
Я заметил, что очень хорошо разлетелся пост сноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.
Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.
Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.
Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.
Ссылка на курс: https://parlance-labs.com/education/
Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.
– Показали GPT4-4o, самую мощную новую модель: она будет доступна для платных и ДЛЯ БЕСПЛАТНЫХ пользователей ChatGPT (даже без регистрации). Модель сейчас на первом месте по тестам сравнивая с другими лучшими моделями — и в коде и в других задачах.
– GPT4-4o это «Омнимодель» натренированная сразу на тексте, фото и видео — то есть та самая мультимодальность которую мы ждали.
– GPT4-4o уже доступна через API и стоит в два раза дешевле, и работает в 2 раза быстрее.
– Показали улучшенную версию аудио-чата через ассистента — она теперь шутит, понимает ваши эмоции; теперь ассистента можно перебивать своим голосом и сам ассистент говорит с эмоциями, и вы можете просить ее менять эти эмоции (даже петь). Переводчик с помощью GPT4-4o просто работает как в Sci-Fi кино (не путаясь и не требуя дополнительных нажатий кнопок).
– Запустят десктопные приложение наконец-то, чтобы не в вебе сидеть; в десктопном приложении ей можно показывать экран целиком и просить ее подправить код, что-то рассказать и тп. То есть это ассистент, который всегда видит ваш экран.
Дополнительные мелочи:
— Заявленные фичи выкатят через пару недель.
— Теперь через приложение можно просто ей показывать видео фид и она будет давать советы как решить какую-то задачу (не нужно фоткать ничего, работает как стрим);
— Во время демки ассистент тормозил хехе.
А вот что я предсказывал в посте выше и что сбылось или не сбылось:
✅ Демку ассистента как из фильма Her
✅ Полную мультимодальность: модель будет обучена сразу на видео, аудио, картинках и тексте
❓ Размер контекстного окна в 1М (мы не знаем пока)
✅ Новую архитектуру к новой модели, у которой сразу будут все фишки выше
✅ GPT4 обновление с лучшим написанием кода, или 4.5 или 4.1 (с названиями, они, конечно, не консистентны)
❌ Новую версию Dalle 3, с улучшенным фотореализмом
Gazelle - первая open source VoiceToLLM модель
TincansAI объявил о выпуске Gazelle v0.2, инновационной речевой модели, которая может может обрабатывать устные запросы и длинные аудиофайлы напрямую, без их транскрипции или распознавания речи.
Благодаря прямой обработке аудио данных, модель быстрее, точнее, а также способна интерпретировать эмоции и даже сарказм в речи.
Код "из коробки", с абсолютно нулевой оптимизацией и работающий с полной точностью, достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход. По оценкам авторов, задержка более сложной системы с синтезом составит менее 300 миллисекунд, что меньше воспринимаемой человеком задержки в реальном времени
Насколько известно авторам, данная модель является первой и единственной open source моделью, способной вести диалог в реальном времени. Кроме того, разработчики публично проводят оценку безопасности и сообщают об успешных атаках на речевую модель. Наконец, это первая речевая модель, в которой применяется мультимодальная оптимизация предпочтений.
Производительность Gazelle оптимизирована для реальных приложений, таких как поддержка клиентов, телефонные звонки и общение в чате.
? Сайт
? HuggingFace
??Демо1
✖️ Демо2
⚡️ llamafile — утилита для быстрого запуска ИИ-моделей
⏩Инструмент llamafile от Mozilla даёт возможность упаковать веса LLM в исполняемый файл, который без установки можно запустить практически на любой современной платформе. Поддерживаются архитектуры x86-64 и ARM64, а также системы macOS, Windows, Linux, FreeBSD, OpenBSD и NetBSD.
⏩llamafile работает практически со всеми LLM, недавно была добавлена поддержка модели Phi-3 Mini 4k, а также LLaMA3, Grok, Mixtral 8x22b и Command-R.
? GitHub
Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat
Можно загрузить видео или целую папку с файлами для анализа
Го тестировать
Сейчас очень много сервисов, позиционирующих себя, как сервисы генерации видео из текста с помощью ИИ. Обычно у многих написано Text2Video. И когда начинаешь с кем-то говорить на эту тему, обычно всегда говорят, что полно аналогов.
На самом деле, многие сервисы позиционируют себя одинаково, но под капотом спрятано совершенно другое.
Подборка сервисов создания видео из текста
vc.ru
Создание видео из текста с помощью ИИ, легко и без усилий. Сравнение сервисов — Видео на vc.ru
Сейчас очень много сервисов, позиционирующих себя, как сервисы генерации видео из текста с помощью ИИ. Обычно у многих написано Text2Video. И когда начинаешь с кем-то говорить на эту тему, обычно всегда говорят, что полно аналогов.
*? SOTA: Stable Diffusion 3:вышла! ?*
Stable Diffusion 3 - это новая технология преобразования текста в изображение SOTA.
Новая архитектура Multimodal Diffusion Transformer (MM Bit) использует отдельные наборы весов для изображений и языка, улучшая возможности понимания текста / правописания.
✅ Новая масштабируемая архитектура для синтеза текста в изображение
✅ Двунаправленное смешивание потоков токенов текста и изображений
✅ Самые крупные модели превосходят открытые модели SOTA, такие как SDXL
▪Blog: https://stability.ai/news/stable-diffusion-3-research-paper
▪ Paper: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
? Комьюнити: t.me/okx_russian
?? Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 2 weeks, 2 days ago
Здесь простым языком про TON, DFC и крипту.
Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot
Last updated 1 month ago
#1 канал о блокчейне, криптовалютах и децентрализованных финансах.
🔥 Реклама — @DCTeam
Last updated 1 day, 6 hours ago