Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago
?Всем привет!
Сегодня наконец-то закончил статью про аугментации (об этом расскажу позже, но название точно топ ?, легко продаётся :) ). В ближайшее время вернусь к написанию постов. А чтобы заполнить паузу хочу поделиться с вами крутым видео про детекцию мелких объектов.
? Мну уже надоели сложности детекции во время написания статьи, и чтобы разобраться, важен прикладной опыт и реальные кейсы.
А из видео я впервые узнал о методе SAHI (Slicing Aided Hyper Inference). Этот метод помогает лучше находить мелкие объекты на изображениях, засчёт sliced inference, когда моделька проходится по картинке небольшим окошком и детектирует все объекты в нём. В видео ещё много полезного про обучение, аугментации и выбор моделей — всё это точно пригодится, если вы занимаетесь компьютерным зрением и поможет забустить метрики, что мне бы сейчас точно не помешало, потому что метрики выбивать целое искусство!
?Очень советую посмотреть! А я пошел восстановливаться ?
Всем привет! Выкладываю вчерашную презентацию по теме "Генеративные аугментации в задачах компьютерного зрения"
⚡️Сегодня мы выложили наш фреймворк для обработки и фильтрации изображений и видео
DPF - это наш внутренний фреймворк, с помощью которого мы обрабатывали и чистили датасет для обучения моделей Kandinsky и Kandinsky Video. Репозиторий содержит фильтры для видео, изображений, различных комбинаций этих модальностей, а также удобный интерфейс к ним. Надеемся, что открытие кода ускорит развитие библиотеки и даст возможность ресерчам сосредоточиться на ресерче, а не на чистке данных ❤️?
А ещё мы написали статью на habr, в которой подробно рассказали про то, как собирали датасет для обучения Kandinsky 3.0 & 3.1 и Kandinsky Video. В ней также рассказали про DPF и процесс обработки датасетов у нас в Sber AI.
Сап чат!
Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций ?
В этом году мы чутка нарастили и программу и географию и число локаций ?
12 оффлайн площадок уже открыты — можно регистрироваться ?
24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!
На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы ?
Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности ?️️️️ А что-то можно уже сейчас найти на странице Феста
Ждём на Фесте, где бы в пространстве-времени он не оказался! ?️️️️️️
Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models
Несмотря на отличное среднее качество генераций Stable Diffusion (SD), у этой модели были замечены сложности с генерацией изображений с яркостью, сильно отличающейся от средней. Не понятно насколько это распространенная проблема, но утверждается, что моделям бывает сложно сделать очень контрастную картинку, имеющую чисто белый/чёрный фон и яркие цветовые переходы.
Ранее это объясняли проблемами в реализациях расписания шума, оставляющих немного сигнала в точке Т
. Утверждалось, что усреднение яркости происходит из-за того что модель всегда оставляет, а потом стартует с некого “среднего сигнала” и потому всегда приходит в “усредненные картинки”.
В этой работе авторы заходят с точки зрения проблем с предсказаниями шума в точках 0
и Т
. Утверждается, что в обеих точках возникает сингулярность, не позволяющая сделать осмысленное предсказание. Действительно, например в точке Т наш сигнал представляет собой x ~ N(0, 1)
и не понятно как предсказать какой шум нужно вычесть из шума чтобы получить не шум ?
Авторы предлагают рассматривать первый шаг начала семплирования (точку Т
) как особый случай. Они показывают, что в случае условной генерации можно (и нужно) отдельно выучить предсказание оценки на х_0
при условии кондишена (например, промта), которую дальше вставлять в любой процесс семплирования.
Итого получаем алгоритм:
1. Учим диффузию как обычно (на предсказание шума) либо берём предобученную;
2. Отдельно учим модель-добавку для предсказания оценки на х_0 на первом шаге семплирования;
3. Во время семплирования делаем первый шаг моделькой из п.2, а дальше как обычно.
В экспериментах на SD 1.5 и 2.0 качественно и количественно (FID) показывают рост качества и увеличение контраста. Код выложен.
Diffusion Models GuideBook
У меня появилось желание собрать всё знания, которые помогут разобраться с диффузионными моделями и найти себя в них. Поэтому, вот и пост ?
*❗️*База, чтобы понять что к чему
- https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ — скинуть, кому-то чтобы понять, что такое диффузии. Не слишком много подробностей, но уловить суть позволяет.
- https://archive.is/gpfgl — более глубокое погружение на 60 минут, с очень подробным выводом диффузии и куча пояснений, откуда берётся каждая компонента, если вы прям хотите разобраться в нюансах.
- https://www.youtube.com/watch?v=1d4r19GEVos — подробный обзор диффузии и её разнообразных применений в различных с CVPR — поможет понять, где можно применять диффузии.
- https://www.youtube.com/watch?v=DsEDMjdxOv4 — текущее состояние диффузионных моделей с разным анализом.
*? Для любителей прям в глубины и готовых изучить теорию генеративных моделей*
- https://www.youtube.com/watch?v=yUnIzzNiyho&list=PL2UML_KCiC0UPzjW9BjO-
IW6dqliu9O4B&index=13
- https://deepgenerativemodels.github.io/syllabus.html — два курса по генеративным моделям, которые стоит посмотреть, чтобы понять, а откуда берутся генеративные модели и что с ними можно делать. В часте курса есть лекции про диффузии, их тоже рекомендую посмотреть.
- https://github.com/r-isachenko/2023-DGM-MIPT-course — на русском языке лучший курс по генеративным моделям от преподавателя AI Masters/MIPT Романа Исаченко. Сам проходил ?
*? Зачем вы полезли в диффузии или я хочу разобраться в них серьёзно*
- https://github.com/diff-usion/Awesome-Diffusion-Models — чтобы во всем самому разобраться, потому что вы "Big boy". Отличный набор постов и туториалов, из которых вы можете выбрать подходящий
- https://github.com/wangkai930418/awesome-diffusion-categorized — актуальная штука по диффузиям, увидев столько секций и статей я словил FOMO, потому что реально много статей, которые очень хорошо покрывают все темы
- https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy — если вы гик, которому важно понимать каждую деталь и структуру в диффузиям, то это вам прочитать. *? Если вам это мало и хотите самый новых и потенциально более крутых вещей*
Различные обобщения диффузионных, которые постепенно начинают приходить в нашу ML жизнь:
- Flow matching — обобщение диффузионных моделей, которое позволяет отображать из любого распределения в любое. (Диффузии отображают только из нормального в реальное)
- Stochastic Interpolants — объединение flow-based и diffusion-based моделей
- Bridge matching — стохастическое обобщение задачи Optimal Transport
❗️Сохраняйте к себе и пересылайте друзьям, чтобы быть в этой теме. Пишите в комментариях ваши замечания и идеи, чем можно дополнить обзор
P.S. Особая благодарность @Magistrkoljan за помощь с самыми современными методами диффузий
lilianweng.github.io
What are Diffusion Models?
[Updated on 2021-09-19: Highly recommend this blog post on score-based generative modeling by Yang Song (author of several key papers in the references)]. [Updated on 2022-08-27: Added classifier-free guidance, GLIDE, unCLIP and Imagen. [Updated on 2022-08…
? Kandinsky 3.1 ?
Вчера прошёл ровно год с момента релиза модели Kandinsky 2.1 — именно эта модель принесла известность нашей исследовательской группе Sber AI Research и дала толчок развитию всей линейки моделей Kandinsky.
В честь этой даты мы представили модель Kandinsky 3.1 — идейное продолжение модели Kandinsky 3.0, которую мы улучшили и обогатили набором различных полезных функций и режимов. Все они предоставляют пользователям больше возможностей полноценно использовать всю силу нашей новой модели. Это:
?значительное ускорение модели, которое было достигнуто за счёт дистилляции по числу шагов диффузии (версия Kandinsky 3.0 Flash);
?улучшение промпта с помощью языковой модели (Mistral-7B);? IP-Adapter, который позволяет дополнительно (помимо текста) обуславливаться на изображение; за счёт этого удалось вернуть режимы смешивания изображений, изображения и текста, которые были в версиях Kandinsky 2.X, но работали там за счёт наличия в этих моделях специального блока image prior;
?ControlNet — механика, реализующая способы дополнительного контроля за генерацией на основе canny edges, depth maps и т. д.;
?Inpainting — модификация основной модели, решающая задачу дорисования по тексту недостающих частей изображения (так, в новой версии значительно улучшилась работа с отдельными объектами разных размеров);
?SuperRes — специальная диффузионная модель, повышающая разрешение изображения (так, в Kandinsky 3.1 теперь можно генерировать 4K изображения).
Полезные ссылки:
? Хабр
? Project Page
? GitHub
Пока что Kandinsky 3.1 доступен для ограниченного круга пользователей. Но в самое ближайшее время все смогут оценить новую версию в официальном боте Kandinsky, на сайте fusionbrain.ai и rudalle.ru (обязательно напишу об этом моменте отдельно).
https://www.ai21.com/blog/announcing-jamba
Вышла первая большая языковая модель — гибрид Mamba и Трансформер
Детали:
- MoE with 52B parameters.
- Active parameters: 12B.
- 256K Context length.
Подкаст про искусство
В конце января мне посчастливилось принять участие в подкасте от «Синхронизации», посвященном искусству в век генеративного ИИ. И я до сих пор искренне рад этой возможности, ведь наконец-то результат наших трудов вышел в свет. Вот основные моменты видео (~~осваиваю инструменты для суммирования видео~~):
1️⃣ На самом деле, если ИИ появился в 19 веке, он бы завоевал признание художников того времени. Ведь раньше главным критерием было воспроизведение и комбинирование идей – в этом отношении искусственный интеллект уже опередил нас. Но сейчас основной критерий искусства – новизна, и в этом аспекте искусственный интеллект явно уступает человеку.
2️⃣ ИИ может помогать художникам в процессе работы, но он не способен полностью заменить их творчество. Ведь искусственный интеллект способен выполнять лишь те задачи, на которые он запрограммирован, и не может создавать что-либо новое.
3️⃣ Важно налаживать диалог между художниками и разработчиками: разработчики рассказывают о том, как пользоваться инструменты, а художники учат пониманию прекрасного.
Приятного просмотра! ?
YouTube
Может ли искусство развиваться без технологий?
Искусство в опасности? В качестве потенциальных убийц изобразительного искусства называли фотографию, кино и смартфоны с ручными фотокамерами. Но до сегодняшнего дня технологии и искусство находили общий язык и даже помогали друг другу. В подкасте обсудим…
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 1 week ago