Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 3 weeks ago
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 2 months, 1 week ago
Механизм внимания в трансформерах дает большое преимущество — модель точно выбирает из контекста релевантные части. У этого механизма есть и довольно значимый недостаток — вычислительная сложность, которая квадратично возрастает в зависимости от размера входной последовательности. Одна из зацепок, которая может помочь облегчить работу вниманию — структура текста. Речь и про крупномасштабную структуру (вроде разделов, глав, параграфов), и про локальную структуру на уровне предложений.
Интуитивно понятно, что слова внутри одного предложения имеют друг к другу больше отношения, чем слова из далеких частей текста, хотя и далекие части осмысленного текста все же связаны. Это подтверждается и более строго — например, мы в свое время показали, что автокорреляция слов внутри одного текста убывает по степенному закону по мере отдаления друг от друга вне зависимости от языка. Причем неважно, “Дон Кихот” это или “Критика чистого разума”.
Может быть и такое, что мы, например, читаем книгу и вдруг понимаем, что этот момент встречался в какой-то другой главе. Но и тогда мы скорее всего обратимся сначала к содержанию, где найдем нужную главу, а затем уже в ней будем искать нужное предложение, а не просто листать назад всю книгу. То есть, даже обращаясь к далеким токенам, будем учитывать иерархическую структуру текста. Трансформеры же в основном воспринимают текст как единую плоскую массу.
Telegraph
Трансформер для структурированных документов Hierarchical Document Transformer
Механизм внимания в трансформерах дает большое преимущество — модель точно выбирает из контекста релевантные части. У этого механизма есть и довольно значимый недостаток — вычислительная сложность, которая квадратично возрастает в зависимости от размера входной…
Нейросети любой архитектуры построены на перемножении матриц. Например, трансформеры из входного вектора создают (тоже перемножением) три матрицы, Q, K и V, которые затем несколько раз перемножаются на пути к получению выходного вектора. Именно умножение матриц с его кубической сложностью (если не прибегать к разного рода ухищрениям) занимает большую часть вычислительных мощностей.
Поэтому возникает естественное желание облегчить эту самую массивную часть вычислений и ускорить таким образом любую архитектуру. Периодически возникают новые подходы и идеи, тут расскажем о последней громкой статье по этой теме — Scalable MatMul-free Language Modeling.
Telegraph
Scalable MatMul-free Language Modeling
Нейросети любой архитектуры построены на перемножении матриц. Например, трансформеры из входного вектора создают (тоже перемножением) три матрицы, Q, K и V, которые затем несколько раз перемножаются на пути к получению выходного вектора. Именно умножение…
Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще. Тем интереснее понять, как с этим обстоят дела у больших языковых моделей. Их обучают преимущественно на английских текстах, но как-то невзначай они вдруг начинают неплохо говорить и на других языках. Да, похуже, чем на английском, но всё-таки вполне достойно. Так что закономерно, что на общей волне интереса к интерпретируемости AI возникает запрос разобраться с этой мультиязычностью моделей.
Интуитивно (а вообще просто по аналогии с человеком) кажется, что раз модель обучалась на английском, то он должен быть ее “родным” языком. То есть когда мы спрашиваем GPT на русском, он внутри сначала переводит на английский, там же формулирует ответ, а затем переводит обратно на русский. Если это действительно верно, то это означает, что у модели есть некоторый уклон не только к англоязычной грамматике и лексике, но отсюда и к соответствующим метафорам, логике, поведению. То есть, к менталитету англоязычного мира. А если это неверно? Тогда еще хуже — тогда совершенно непонятно, как модель достигает такого хорошего результата на таком скромном объеме обучающих данных.
Telegraph
На каком языке думают языковые модели
Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком…
Трансформеры, несмотря на всю их мощь, всё ещё легко заболтать до беспамятства, то есть дать им на вход такой длинный контекст, что они не смогут удержать его весь. В целом, это наверное главный, если не единственный их недостаток и потому улучшить память трансформеров — главная, если не единственная мечта их авторов. И тут пускают в ход всё, меняют механизм внимания, создают всевозможные гибриды с RNN в поисках успешного подхода.
Telegraph
Память трансформеров
Трансформеры, несмотря на всю их мощь, всё ещё легко заболтать до беспамятства, то есть дать им на вход такой длинный контекст, что они не смогут удержать его весь. В целом, это наверное главный, если не единственный их недостаток и потому улучшить память…
История всегда движется по спирали, и быстрая история развития нейронных сетей, оказывается, не исключение. Архитектура трансформеров в LLM в своё время полностью отодвинула рекуррентные нейронные сети, но через несколько лет (то есть примерно сейчас) спираль сделала виток, и вот РНН уже дышат трансформерам в спину. А кое-где даже и обгоняют. Мы уже как-то писали про нео-РНН — новые подходы к старым РНН, которые дают им шанс конкурировать с трансформерами. В этот раз расскажем о уже не самой новой, но более яркой идее.
Telegraph
RG-LRU
История всегда движется по спирали, и быстрая история развития нейронных сетей, оказывается, не исключение. Архитектура трансформеров в LLM в своё время полностью отодвинула рекуррентные нейронные сети, но через несколько лет (то есть примерно сейчас) спираль…
Black box AI is bad AI — гласит слоган исследовательской группы Pr(AI)2R (Practical AI Alignment and Interpretability Research). Её основал прошлым летом стэнфордский автор Аттикус Гигер (Atticus Geiger). Своей миссией группа считать превратить AI в “хороший AI”, то есть сделать его интерпретируемым.
Пока авторы выпустили три работы: Rigorously Assessing Natural Language Explanations of Neurons (лучшая статья 2023 по версии BlackBoxNLP), в которой попытались провести интерпретацию на уровне нейронов, Linear Representations of Sentiment in Large Language Models, где исследовали репрезентацию настроения в LLM и RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations, где представили бенчмарк для оценки интерпретируемости. Есть и более ранние работы Гигера, в частности, он предложил исследовать внутренности LLM с помощью интервенций (изменения внутренних состояний). Суть проста: если зафиксировать скрытое состояние, и выход модели поменяется так, как будто какой-либо компонент производил это состояние, то это даёт нам право установить причинно-следственную связь. Но тут расскажем о том, к каким конструктивным идеям приводит исследование интерпретируемости. Как говорится, критикуешь — предлагай.
Telegraph
ReFT
Black box AI is bad AI — гласит слоган исследовательской группы Pr(AI)2R (Practical AI Alignment and Interpretability Research). Её основал прошлым летом стэнфордский автор Аттикус Гигер (Atticus Geiger). Своей миссией группа считать превратить AI в “хороший…
Решение геометрических задач, даже обычной школьной сложности, — процесс довольно творческий. Нужно что-то заметить, где-то проявить интуицию, пробовать разные подходы и придумывать свои. Отсюда возникает два вывода. Первый — раз задача творческая и не всегда понятно, какими именно принципами руководствоваться, значит она прекрасно подходит для искусственного интеллекта. Второй — противоположный, о котором наверняка думали хоть раз все, у кого с геометрией в школе было туго: нужно максимально формализовать решение, найти законы и превратить творческий процесс в набор правил. Как это обычно бывает, лучшим решением оказывается объединение противоположностей. Но обо всём по порядку.
Telegraph
Партия переходит в эндшпиль: как искусственный интеллект и методы прошлого века обошли золотых медалистов IMO в геометрии
Решение геометрических задач, даже обычной школьной сложности, — процесс довольно творческий. Нужно что-то заметить, где-то проявить интуицию, пробовать разные подходы и придумывать свои. Отсюда возникает два вывода. Первый — раз задача творческая и не всегда…
5 самых классических статей по вычислительной лингвистикеНа мой взгляд, читать классические статьи по специальности полезнее, чем самые свежие. Часто идеи в них богаче, а примеры - неожиданнее, чем в массовой научной продукции последних лет. Ниже - 5 самых классических, на мой взгляд, статей по вычислительной лингвистике.
Авторегрессионные языковые модели
А.А. Марковъ, Примѣръ статистическаго изслѣдованія надъ текстомъ "Евгенія Онѣгина" иллюстрирующій связь испытаній въ цѣпь. 1913
В статье Марков строит то, что сейчас назвали бы char-level bigram language model. Естественно, такие модели эквивалентны марковским цепям, и явились едва ли не первым примером применения механизма условной вероятности, на котором держится вся вычислительная лингвистика, и марковских цепей.Таким образом, языковая модель, вводимая им - это авторегрессионная модель, и является прадедушкой GPT.
В статье Йелинек с соавторами описывает подход, используемый с тех пор во всех системах распознавания речи, и архитектуру с разделением на акустическую и языковую модели, которые используются до сих пор. Также статья вводит в современную вычислительную лингвистику марковский подход (см. выше) с марковскими цепями и условными вероятностями.
Формальные грамматики
Noam Chomsky. Three Models for the Description of Language, 1953
C практической победой статистического подхода Йелинека (см. выше) в вычислительной лингвистике в 90-х годах прошлого века генеративные грамматики очутились на окраине вычислительнолингвистических интересов. Однако, до этого эта работа 40 лет определяла развитие вычислительной лингвистики. Формальные грамматики по-прежнему лежат в основе всего, что мы программируем, ибо все языки программирования определяются формальными грамматиками.
Дистрибуционные семантики
Zellig S. Harris. Distributional Structure. 1954
Видимо, впервые вводится идея о том, что слово определяется своим контекстом.
Информация
А. Н. Колмогоров, Три подхода к определению понятия “количество информации. 1965
Обсуждая шенноновский подход к определению информации, Колмогоров вводит то, что теперь называется колмогоровской сложностью. Парадоксы, вытекающие из этой работы, до сих пор не разрешены удовлетворительно. Хотя значимость этой работы сильно выходит за рамки вычислительной лингвистики, бОльшая часть приводимых Колмогоровым примеров - именно лингвистические.
А вы бы что к этому списку добавили? У меня есть еще один список чуть менее классических, но все равно любимых старых статей. Написать в следующий раз?
На следующей неделе приглашаем всех на вебинар «Расстояние Выготского: подход к оценке схожести интеллектуальных задач»
?Спикер: Иван Ямщиков, Technische Hochschule Würzburg-Schweinfurt, Center for Artificial Intelligence and Robotics
? Вторник 19 марта, 17:00 MCK
?Иван о вебинаре:
Оценка моделей играет значительную роль в современной обработке естественного языка. Большинство современных тестов NLP состоят из произвольных наборов задач, которые не гарантируют какого-либо потенциала обобщения для модели при применении модели вне набора тестов и не пытаются минимизировать потребление ресурсов, необходимых для оценки модели.
Мы обсудим теоретический инструмент и практический алгоритм для вычисления сходства между заданиями, который мы называем "расстоянием Выготского". Основная идея этого показателя сходства заключается в том, что он основан на относительных результатах "учеников" на выбранном задании, а не на свойствах самой задачи. Если две задачи близки друг к другу с точки зрения расстояния Выготского, модели, как правило, имеют сходную относительную успеваемость по ним. Таким образом, зная расстояние Выготского между задачами, можно значительно сократить количество оценочных заданий при сохранении высокого качества валидации.
Эксперименты с различными бенчмарками, включая GLUE, SuperCLUE, CLUE и RussianSuperGLUE, демонстрируют, что подавляющее большинство бенчмарков NLP могут быть как минимум на 40% меньше по объему включенных задач. Также расстояние Выготского может быть использовано для валидации новых задач и бенчмарков, тем самым расширяя потенциал обобщения будущих моделей.
️⚡На следующей неделе приглашаем на вебинар Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей"
?Спикер: Алексей Зайцев, Сколтех, Москва, Россия
? Вторник 20 февраля 2024, 16:00 MCK
?Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценке на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 2 months, 3 weeks ago
Новые и перспективные Web3 игры с добычей токенов.
Чат: https://t.me/Crypto_Wolf_Chat
Правила чата смотрите в описании чата.
Все свои вопросы направляйте в чат или главному модератору чата: @Exudna_118
По теме сотрудничества: @Zombini
Last updated 2 months, 1 week ago