Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 2 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago
?Лекция 5 - AI Knowledge Club
А уже в этот четверг, послезавтра, 11.04.2024, аудитория Б-934
Тема: Архитектура Transformer, механизм Attention
Лектор: Арсений Иванов
На лекции мы расскажем про одну из самых важных архитектур в современной области глубинного обучения - трансформер, и почему механизм внимания так сильно помогает в решении реальных нетривиальных задач NLP. Мы разберем архитектуру трансформера, включая FeedForward, SelfAttention, CrossAttention, а еще постараемся понять роль позиционного кодирования в модели и разных регуляризаторов и оптимизаций. Мы также подробно рассмотрим декодер и маскированный Attention и процедуру обучения таких моделей.
? Подключение к занятию по ссылке → link
Че пацаны, grok 314b 8 moe
https://github.com/xai-org/grok/issues/10
GitHub
Работа · Issue #10 · xai-org/grok
Илон Маск, возьми на работу пожалуйста ))) Если надо будет,дообучаюсь. Готов контракт подписать лет на 20 хоть, что после обучения останусь) Сфера айти, пишу код на с#. Могу другой язык выучить. Ма...
VideoMamba: State Space Model for Efficient Video UnderstandingУ мамбы, по сравнению с трансформерами, линейная вычислительная сложность и в 5 раз выше пропускная способность. Все построено на модели пространства состояний, сложность которой линейна: одномерный сигнал x(t) отображается в N-мерное латентное состояние, а затем проецируется в выходной сигнал y(t). Далее эти непрерывные параметры дискретизируются по определенному правилу, а на следующем этапе происходит вычисление либо через линейную рекуррентность, либо через глобальную свертку. Добавляют селективность для акцентирования внимания на определенных элементах. Сама архитектура почти не отличается от Трансформеров, по сути добавляются Мамба блоки. И как раз таки кажется это эффективно там, где требуется большой объем контекста, как например в видео...
Сегодня наткнулся на свежую статью от OpenGVLab (те кто сделали CLIP для видосов VideoClip) где презентуют SSM-basеd модель для video understanding. Показывают, что это круче 3D-сверток и video трансформеров. А особенность ввиде линейности SSM полезна для понимания длинного видео с высоким разрешением. Берут ViT и добавляют bidirectional mamba блоки для последовательностей фреймов видео. Представили реализации для задач image classification, short-term/long-term video understanding, video-text retrieval. Для каждой задачи потестились на разных бенчмарках и есть аутперформ. Плюсом есть веса и код.
В мультимодалках вместо базового CLIP-VIT, как энкодер для видосов это классно прям должно быть.
Она любит меня или искусственный интеллект ?
https://openreview.net/forum?id=1NHgmKqOzZ
OpenReview
Data Distillation Can Be Like Vodka: Distilling More Times For...
Dataset distillation aims to minimize the time and memory needed for training deep networks on large datasets, by creating a small set of synthetic images that has a similar generalization...
Недавно посетили с ребятами из ВШЭ небольшую учебную конференцию в Сбер Университете для правительства Якутии. Брейнштормились применения нейронок для развития городской инфраструктуры. Понаблюдать за развитием мыслей и помочь в этом был интересный опыт )
Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 2 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago