BERTology

Description
Канал о DL в NLP и не только
Advertising
We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 6 days, 8 hours ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 1 month ago

#1 канал о блокчейне, криптовалютах и децентрализованных финансах.

🔥 Реклама — @DCTeam

Last updated 6 hours ago

hace 2 meses, 1 semana
Привет! Сегодня будет попытка систематизировать то, …

Привет! Сегодня будет попытка систематизировать то, как я читаю и анализирую статьи. Сразу дисклеймер - я делаю это давно и считаю, что умею делать неплохо. При этом я уверен, что есть формальные методики как это делать правильно - но я с ними не знаком, так как не испытывал потребности. Потому чисто мое мнение и опыт и они могут быть не оптимальными. Буду рад почитать в комментариях какие-то формализмы на эту тему.

Итак, я следую обычно такому плану:
- понять основные идеи. Можно прям сразу смотреть contribution, можно смотреть это в abstract. Если статья написана более менее вменяемо - это будет в отдельном месте где-то. Если не удается понять идею посмотрев минуту на статью - ну либо это что-то очень крутое, либо очень плохое) под пониманием идеи я понимаю не «как», а «что» в данном случае.
- понять что делают - здесь стоит почитать related work и собственно сутевые разделы. Related work вообще очень важный на мой взгляд раздел, где можно и расширить библиографию, и посмотреть как ёмко характеризуют другие работы. В данном пункте в зависимости от желаемой глубины понимания можно с разной степенью погружаться в сутевые разделы. Если нет задачи воспроизводить/имплементировать статью можно погружаться не во все детали.
- понять чем отличаются от аналогов. Related work + ваша начитанность в области. Но очень важно для себя с позиционировать работу самостоятельно, авторы могут быть предвзяты:)
- разобрать методологию эксперимента и оценить насколько она адекватная. Этот пункт может оказаться сложным для реализации. Но он очень важен - если эксперименты поставлены ненадежно/невоспроизводимо ценность результатов сомнительна. На что в первую очередь обращать внимание - адекватность бенчмарка; тест/трейн - отсутствие ликов, репрезентативность; наличие гиперпараметров эксперимента, наличие кода, интерпретация авторами результатов, наличие ablation studies, наличие доверительных интервалов для оценок.
- найти несколько моментов к которым можно придраться. Я люблю критиковать работы) кто со мной работают - знают) я считаю, что если я не могу сформулировать хорошие замечания к статье - то я ее плохо прочитал. И это очень полезное упражнение, на мой взгляд (конечно имеются ввиду не typos)
- найти моменты за которые можно похвалить/что хочется позаимствовать. Есть работы, где такого нет, но если вы дошли до этого пункта и не бросили ее читать, то, наверное, что-то упустили)
- предложить что можно добавить и куда развить идею. Тоже крайне важное упражнение, можно проанализировать идеи самих авторов, можно скрестить со своим опытом. Здесь также, как с недостатками, если я не вижу интересных идей развития - я перечитываю внимательнее.
- оценить практическую значимость работы. Не всегда авторы видят все поинты. Стоит попробовать подумать как применить для ваших задач (или для задач в этой области)
- оценить теоретическую значимость работы. Бывает сложно для многих эмпирических исследований, но подумать стоит. Часто может пересекаться и вытекать из идей по развитию
- уметь про все вышесказанное поговорить и рассказать о чем работа в 2х словах. Если вы не можете простым языком кратко объяснить суть работы - скорее всего вы плохо ее поняли. Также полезное упражнение

Надеюсь, кому-то это пригодится)

hace 2 meses, 4 semanas

Всем привет, сегодня необычная статья на разбор) Предыстория - периодически обсуждаю с ребятами в команде внутренние семинары с разборами статей, и не первый раз слышу одну и ту же мысль - «не хочу рассказывать то, что все уже и так знают». Мне кажется этого совсем не нужно бояться - часто «прочитал» значит посмотрел abstract (и выводы если уж совсем внимательно), кроме того, интерпретация статьи конкретным человеком сама по себе очень ценна - часто ведь рассказывают не только про статью, но и про работы рядом, про свои идеи и замечания к авторам, про применение в конце концов.

Что попробую сделать здесь: я расскажу про attention is all you need) конечно я не буду рассказывать смысл, но попробую привести не самые очевидные факты, которые могут ускользать даже в такой классике.

- выбор мультипликатора в dot product self-attention не случаен - авторы обосновывают его тем, что при больших значениях d_k softmax обладает будет принимать значения, для которых будут vanishing gradients (как пример приводят dot product двух независимых одинаково распределенных q и k с 0 mean и 1 var, которое будет иметь 0 mean и d_k var).
- авторы зачем-то дополнительно объясняют линейные FFN блоки через свертки с kernel size 1. Возможно дань моде тех лет, или ответ на замечание особо придирчивому рецензенту.
- авторы приводят свои рассуждения, стоящие за выбором функций для positional encoding - идея была в том, что для фиксированного k PE_(pos+k) может быть выражена линейно через PE_(pos).
- в разделе 4 высказана идея про sparse windowed attention. В 2017м. До лонгформера, big bird, etc еще 3 года.
- в выводах авторы также уже говорят про трансформеры в CV и аудио. И про идею сделать генерацию «less sequential» (я трактую это как не авторегрессионной). И да, это все еще 2017й.

hace 5 meses, 1 semana

~~T5~~ D4: Improving LLM Pretraining via Document De-Duplication and Diversification

Paper: https://proceedings.neurips.cc/paper_files/paper/2023/file/a8f8cbd7f7a5fb2c837e578c75e5b615-Paper-Datasets_and_Benchmarks.pdf

Очередное подтверждение с очень авторитетной конфы о том, что data quality matters. Авторы предложили метод по выбору примеров для обучения, который показал свою эффективность по сравнению со случайным выбором, как в случае одной эпохи, так и в случае нескольких эпох. Алгоритм D4 основан на алгоритмах SemDeDup - реализующий достаточно наивную идею о том, что стоит в пространстве эмбеддингов провести кластеризацию K-Means и затем считать дубликатами вектора, которые лежат в некоторой ε-окрестности и SSL Prototypes - производим кластеризацию и удаляем из датасета те точки, которые имеют наименьшее расстояние до ближайшего центроида кластера. Идея D4 заключается в том, чтобы применить SemDeDup на всем датасете D, а потом применяем SSL Prototypes ан полученном датасете D'. Также важно отметить, что этап повторной кластеризации необходим для работы D4, и проведенные ablation studies показали, что без него снижается эффект от выбора сэмплов.

hace 8 meses

Dynamic Stochastic Decoding Strategy for Open-Domain Dialogue Generation

Paper: https://openreview.net/pdf?id=ffh3zr1xk_O (under review)

В работе приведено интересное решение для выбора температуры генерации - используется дополнительная регрессионная голова, которая предсказывает по контексту необходимое значение температуры (точнее в статье предлагается 3 метода, как использовать значение регрессионной головы для адаптации температуры), делая генерацию более стохастичной, когда предполагается более креативный ответ, или детерминированной, в случае необходимости однозначного ответа. Для обучения регрессионной головы в качестве лейблов используются BERTScore между ответами генеративной модели, которые были бы получены на некоторые промпты. Авторы проверяют свой метод на распространенных стратегиях сэмплирования - top-k, top-p, typical и во всех случаях получают прирост как на автоматических, так и на human evaluation метриках. Количество дополнительных параметров, необходимых для работы DDS минимально, и не должно оказывать существенного влияния на скорость инференса.

hace 9 meses

Do we need Label Regularization to Fine-tune Pre-trained Language Models? Paper: https://aclanthology.org/2023.eacl-main.13 В работе рассматривается задача task-specific knowledge distillation (KD) - рассматриваем дистилляцию не как процесс получения предобученных…

ACL Anthology

Knowledge Distillation ≈ Label Smoothing: Fact or Fallacy?

Md Sultan. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023.

Do we need Label Regularization to Fine-tune Pre-trained Language Models? Paper: https://aclanthology.org/2023.eacl-main.13 В работе рассматривается задача task-specific knowledge distillation (KD) …
hace 9 meses, 1 semana

CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation

Paper: https://aclanthology.org/2023.emnlp-main.92/

Code: https://github.com/SALT-NLP/CoAnnotating

Авторы предлагают немного с другой стороны посмотреть на разметку данных с помощью LLM (gpt3.5-turbo в контексте исследования) - вместо того, чтобы сравнивать качество разметки LLM и разметчиков, предлагается использовать разметку от LLM для "простых" кейсов и отдавать остальное разметчикам (да, что-то это напоминает?). Для анализа насколько хорошо LLM может справиться с тем или иным сэмплов считается uncertainty, которая расчитывается двумя путями - 1) путем промпта просим модель вывести число от 0 до 1, соответствующее уверенности, 2) ~~Monte-Carlo prompting~~ подадим несколько промтов для одного сэмпла чуть измененных и посчитаем энтропию ответов. Сравнивая выбор примеров для LLM н основе uncertainty со случайным выбором примеров авторы показывают эффетиквность подхода на основе неопределенности. В итоге получают снижение стоимости разметки и даже приводят парето-эффективные оценки для количества данных, которые можно отдать LLM (на всех датасетах обучается потом Roberta-base).

В целом, звучит интересно, для меня остался один открытый вопрос (может быть не нашел и мне кто-то укажет - где это ablation study?) - а что будет с качеством целевого классификатора, если мы просто выкинем те сэмплы, которые хотим отдать LLM? Если верить работам про активное обучение, кажется, что ничего и получим по сути такое же качество. И не очень понятно, что мы в итоге выигрываем..

4/7?

hace 9 meses, 1 semana
**Ditto: A Simple and Efficient Approach …

Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings

Paper: https://aclanthology.org/2023.emnlp-main.359

Code: https://github.com/alibaba-damo-academy/SpokenNLP/tree/main/ditto

Нет, это не https://arxiv.org/abs/2206.02369 - это про sentence embeddings. Авторы рассматривают проблему того, что (вероятно) из-за большого количества незначимых токенов простой average токенов BERT является не очень хорошим эмбеддингом для текста. В противовес методам, которые используют дополнительный/другой претрейн (sentence-Bert и тп contrastive like approaches), авторы предлагают learning-free метод, основанный на интересном свойстве - некоторые attention heads выделяют информативные слова (у них наблюдается большой attention weight слова к самому себе - элемент на диагонали attention matrix) (и это коррелирует с TF-IDF весами). Собственно метод заключается в том, чтобы включить в average токенов для расчета sentence embeddings эти самые диагональные значения attention heads для соответствующих токенов (cм визуализацию и §3 в статье). В результате получают, что предложенный метод улучшает метрики как BERT, так и RoBERTa и ELECTRA на 7 STS задачах. Также, улучшить удалось и supervised SBERT.

Кажется, одна из первых работ, которые я буду пробовать в начале года - практически бесплатно от модели можно получить и адекватные text embeddings и token embeddings.

hace 9 meses, 1 semana

Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations

Paper: https://aclanthology.org/2023.emnlp-main.647/

Я люблю на собесах спрашивать про few-shot learning и low resourse setting и очень часто кандидаты все сводят к тому, что "нагенерируем данных LLM и вауля". Интуитивно, этот подход не очень хорош - так как генерация данных с помощью LLM выглядит достаточно недоисследованной, в особенности относительно того, насколько hard- или easy-to-learn сэмплы такая модель будет генерировать (https://arxiv.org/abs/2009.10795).

Авторы этой работы (тоже с emnlp'23) согласны со мной, как и их эксперименты?

Для 10-ти задач текстовой классификации с помощью GPT-3.5 Turbo генерируют сэмплы в zero-shot (LLM не видит real-world data) и few-shot (LLM видит несколько примеров) для обучения модели. В итоге результаты показывают, что:
- в общем случае наблюдается просадка в качестве модели, обученной на сгенерированных LLM данных. Эта просадка значительная в случае zero-shot scenario и subjective tasks (до 41% по macro-F1) и чуть меньше во few-shot scenario (до 26%).
- это происходит вероятно из-за того, что LLM не в состоянии сгенерировать достаточно divercity примеры, особенно в случае сложных датасетов.

Судя по приведенным результатам - я не зря это спрашиваю и не зря считаю ответ про LLM не до конца валидным. Я тут себе поставил новогодний челлендж разбирать по статье в день на праздниках, так как обещал команде обзор EMNLP в первую рабочую неделю - 2/7 so far=)

hace 9 meses, 1 semana
**Label Words are Anchors: An Information …

Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning

Paper: https://aclanthology.org/2023.emnlp-main.609/

Code: https://github.com/lancopku/label-words-are-anchors

Сегодня рассмотрим одну из Best papers from EMNLP'23. В работе рассмотрен In-context learning и что влияет на его качество. Основная мысль статьи заключается в следующем: в shallow layers слова, используемые для названия лейблов используются моделью для формирования семантического представления для примеров из промптов, а в deep layers те же названия лейблов используются для формирования итоговых предсказаний. После экспериментального подтверждения этих гипотез следует очень интересный практический вывод - авторы предлагают использовать что-то в духе адаптера, модифицирующего attention weights на всех слоях, для учета полученных свойств токенов-названий лейблов. В итоге, авторы получают неплохие приросты в качестве ICL на SST-2, AGNews, TREC, EmoC и при этом в 1-shot режиме (что ускоряет инференс).

В целом, я полностью согласен с выбором этой работы как best paper, может быть она не такая интересная в рамках объяснения ICL как https://arxiv.org/abs/2212.10559, но зато предлагает значимую практическую идею.
И да, с новым годом, коллеги)

hace 9 meses, 2 semanas

Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus

Paper: https://aclanthology.org/2023.emnlp-main.58/

Code: https://github.com/zthang/focus

В работе предлагается развитие детекции галлюцинаций LLM моделей за счет uncertainty. Авторы предполагают, что наибольшее количество галлюцинаций происходит при генерации именованных сущностей - исходя из этого предложен ряд эвристик (и даже используют для скейлинга IDF, рассчитанный для RedPajama) по учету token level uncertaity для hallucination score. По сути - кроме формулы подсчета hallucination score через token uncertainty в работе contributions нет. Выглядит в целом, интересно, и легко воспроизводимо, но есть один момент, который по-моему мнению, авторы очень неочевидно обходят - для моделей с недоступными logits, они используют proxy model, упоминают, что такой подход критиковался, в частности в https://arxiv.org/abs/2303.08896, но все-равно их используют. И да, для выделения сущностей используется Spacy, что тоже видится небольшим limitation=)

We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 6 days, 8 hours ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 1 month ago

#1 канал о блокчейне, криптовалютах и децентрализованных финансах.

🔥 Реклама — @DCTeam

Last updated 6 hours ago