Український канал з музикою #2 в Україні 🇺🇦
💿 Українські ремікси 💿
А також новинки музики з тіктоку 😍
та весільні пісні які завжди радують 🔥
З приводу реклами: @Nik4658 @LeVkiS
Реклама: @adsell
На біржі: adsell.me/r/7MGpI6
Допомога в пошуку зниклих безвісти та полонених
‼️Я ніяк не впливаю на обміни і не допомагаю у визволенні ‼️
Хочеш додатися до чату спілкування ?
Треба щоб видно було що ти з України/за Україну 🇺🇦‼️
‼️ВСЯ ДОПОМОГА БЕЗКОШТОВНА ‼️
Приняли с командой участие в хакатоне ЛЦТ 2024, на сей раз даже не прошли в финал (топ 10), но продукт получился интересным и проработанным, поэтому хочу им поделиться с вами.
Задача была в реализации сервиса индексации и поиска видео по текстовому запросу. Кейсодержатель - компания Yappy. Также нас попросили хостить решение, чтобы судья могли обращаться к нему через openapi.
Индексация видео строилась на текстовых эмбеддингах, описывающих его. Для их обогащения мы использовали мультимодальные данные: распознанную речь (ASR), визуально распознаваний текст (OCR) и описание видео (captioning). Затем текстовые представления суммаризировались в одно ёмкое с помощью LLM.
Нам удалось чётко разграничить роли:
Даня - поднял бэкенд, организовал хостинг и сделал всю логику для индексации видео, сердце нашего проекта.
Игорь - сделал микро-сервис captioning с использованием модели LLaVA.
Артём - сделал микро-сервис OCR.
Егор (я) - сделал микро-сервис ASR.
Тимур - LLM энжоер, поднял Llama 3 для суммаризации текстовых представлений из предыдущих микро-сервисов.
Наше решение обрабатывает и индексирует видео за ~30sec. При это на gpu выполняется только captioning. И возвращает ответ по текстовому поиску менее чем за 500ms. Получилось хорошее и комплексное решение, ознакомиться и использовать его можно по ссылке.
Мне понравился этот хакатон и решение на нём мне нравится больше чем на предыдущих хаках, хоть и не получилось победить. Реализовали сложную логику взаимодействия сервисов и, пожалуй впервые, сделали продовое решение.
Фидбек судей, по которому они не пустили нас в финал, можно посмотреть в комментариях.
так вот, своего рода рефлексии пост. вчера выступил с докладом на датафесте, это мой второй по счёту опыт публичного выступления. рассказывал о том над чем работал последние полтора месяца, а именно про улучшение точности модели распознавания речи на названиях кофе. по крайней мере примерно так звучала главная тема доклада. выступление можно посмотреть тут.
готовил презентацию и спитч я сильно заранее, недели за две до события, формат был 20 минут на доклад и 5 на вопросы. попытался охватить как верхнеуровневые варианты решения проблемы, так и углубиться в технические детали того над чем конкретно я работал. в итоге не вышло ни первого, ни второго. или по крайней мере не вышло в той степени, в которой хотел я. 30% времени заложил на рассказ про продукт, введение в проблему и верхнеуровневые решения, 60% на техническую часть, метрики и датасеты. ну и 10% на всякий случай.
перед выступлением я очень волновался, что немного испугало меня, потому что к такого рода волнению я не привык. при моём анонсе ведущий ошибся в моём имени, прочитал как Григорий. впрочем это сыграло мне на руку, я отшутился и бодро начал доклад. но всё пошло не по плану буквально с первого слайда, я забыл весь текст что готовил и пришлось на ходу импровизировать. к середине доклада у меня пересохло во рту, что сильно добавило волнения. в итоге я многого не рассказал из запланированного, вышел из таймингов, заспидранив доклад за 14 минут из 20 положенных.
мне не очень понравилось моё выступление, но я подчеркнул для себя моменты, на которые впредь обращу больше внимания. не буду подгонять доклад под тайминги, а буду строить доклад относительно таймингов, буду больше времени уделять тренировочным прогонам, а также обязательно буду пить воду перед выступлением.
несмотря на моё недовольство выступлением, зрители отозвались крайне положительно, сказали что волнения заметно не было, что доклад смотрелся живо и интересно. это меня изрядно удивило и порадовало.
засим прощаюсь
Что наша жизнь? Игра!
По приколу взяли 8 место в финале чемпионата России по "Что? Где? Когда?" среди студентов
Несомненно самое "неожиданное и приятное" достижение в моей жизни. Огромная благодарность ребятам с которыми мы пришли повайбить и в итоге довайбились до сцены, вы - лучшие!
ALGA вперёд!
Сбер выкатил CTC модель распознавания речи GigaAM: На удивление бьёт NeMo-ru-RNNT и vosk-0.52 не только на бенчмарках, но и на моих данных. Мои прокси-метрики поверх GigaAM распознаваний тоже выше метрик конкурентов.
Модель обучена на NeMo фреймворке, поэтому легко можно конвертировать и в onnx, и в TRT
Поздравляю сбер с действительно хорошей моделью
Единственный минус - некоммерческая лицензия
Спасибо ODS за столь замечательный Data New Year митап ???
Имхо ? митап of the year, очень ламповый ?
Их было четверо, четыре пацана
Всегда были вмете, как фит и предикт,
Как dilation и overfit, четыре орла
Летящие в небо - кагл решать
Український канал з музикою #2 в Україні 🇺🇦
💿 Українські ремікси 💿
А також новинки музики з тіктоку 😍
та весільні пісні які завжди радують 🔥
З приводу реклами: @Nik4658 @LeVkiS
Реклама: @adsell
На біржі: adsell.me/r/7MGpI6
Допомога в пошуку зниклих безвісти та полонених
‼️Я ніяк не впливаю на обміни і не допомагаю у визволенні ‼️
Хочеш додатися до чату спілкування ?
Треба щоб видно було що ти з України/за Україну 🇺🇦‼️
‼️ВСЯ ДОПОМОГА БЕЗКОШТОВНА ‼️