Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
💬 Комьюнити: t.me/okx_russian
👨💻 Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 2 weeks, 2 days ago
Here in simple language about TON and crypto
Founder: @metasalience
contact : @deftalk_bot
Last updated 3 months, 2 weeks ago
Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение
Ведро для спама: @ton_telegrambot
Бот с курсами криптовалют: @TonometerBot
Чат: @chaTON_ru
Админ: @filimono
Last updated 2 weeks, 4 days ago
Всем привет, сегодня необычная статья на разбор) Предыстория - периодически обсуждаю с ребятами в команде внутренние семинары с разборами статей, и не первый раз слышу одну и ту же мысль - «не хочу рассказывать то, что все уже и так знают». Мне кажется этого совсем не нужно бояться - часто «прочитал» значит посмотрел abstract (и выводы если уж совсем внимательно), кроме того, интерпретация статьи конкретным человеком сама по себе очень ценна - часто ведь рассказывают не только про статью, но и про работы рядом, про свои идеи и замечания к авторам, про применение в конце концов.
Что попробую сделать здесь: я расскажу про attention is all you need) конечно я не буду рассказывать смысл, но попробую привести не самые очевидные факты, которые могут ускользать даже в такой классике.
- выбор мультипликатора в dot product self-attention не случаен - авторы обосновывают его тем, что при больших значениях d_k softmax обладает будет принимать значения, для которых будут vanishing gradients (как пример приводят dot product двух независимых одинаково распределенных q и k с 0 mean и 1 var, которое будет иметь 0 mean и d_k var).
- авторы зачем-то дополнительно объясняют линейные FFN блоки через свертки с kernel size 1. Возможно дань моде тех лет, или ответ на замечание особо придирчивому рецензенту.
- авторы приводят свои рассуждения, стоящие за выбором функций для positional encoding - идея была в том, что для фиксированного k PE_(pos+k) может быть выражена линейно через PE_(pos).
- в разделе 4 высказана идея про sparse windowed attention. В 2017м. До лонгформера, big bird, etc еще 3 года.
- в выводах авторы также уже говорят про трансформеры в CV и аудио. И про идею сделать генерацию «less sequential» (я трактую это как не авторегрессионной). И да, это все еще 2017й.
~~T5~~ D4: Improving LLM Pretraining via Document De-Duplication and Diversification
Очередное подтверждение с очень авторитетной конфы о том, что data quality matters. Авторы предложили метод по выбору примеров для обучения, который показал свою эффективность по сравнению со случайным выбором, как в случае одной эпохи, так и в случае нескольких эпох. Алгоритм D4 основан на алгоритмах SemDeDup - реализующий достаточно наивную идею о том, что стоит в пространстве эмбеддингов провести кластеризацию K-Means и затем считать дубликатами вектора, которые лежат в некоторой ε-окрестности и SSL Prototypes - производим кластеризацию и удаляем из датасета те точки, которые имеют наименьшее расстояние до ближайшего центроида кластера. Идея D4 заключается в том, чтобы применить SemDeDup на всем датасете D, а потом применяем SSL Prototypes ан полученном датасете D'. Также важно отметить, что этап повторной кластеризации необходим для работы D4, и проведенные ablation studies показали, что без него снижается эффект от выбора сэмплов.
Dynamic Stochastic Decoding Strategy for Open-Domain Dialogue Generation
Paper: https://openreview.net/pdf?id=ffh3zr1xk_O (under review)
В работе приведено интересное решение для выбора температуры генерации - используется дополнительная регрессионная голова, которая предсказывает по контексту необходимое значение температуры (точнее в статье предлагается 3 метода, как использовать значение регрессионной головы для адаптации температуры), делая генерацию более стохастичной, когда предполагается более креативный ответ, или детерминированной, в случае необходимости однозначного ответа. Для обучения регрессионной головы в качестве лейблов используются BERTScore между ответами генеративной модели, которые были бы получены на некоторые промпты. Авторы проверяют свой метод на распространенных стратегиях сэмплирования - top-k, top-p, typical и во всех случаях получают прирост как на автоматических, так и на human evaluation метриках. Количество дополнительных параметров, необходимых для работы DDS минимально, и не должно оказывать существенного влияния на скорость инференса.
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation
Paper: https://aclanthology.org/2023.emnlp-main.92/
Code: https://github.com/SALT-NLP/CoAnnotating
Авторы предлагают немного с другой стороны посмотреть на разметку данных с помощью LLM (gpt3.5-turbo в контексте исследования) - вместо того, чтобы сравнивать качество разметки LLM и разметчиков, предлагается использовать разметку от LLM для "простых" кейсов и отдавать остальное разметчикам (да, что-то это напоминает?). Для анализа насколько хорошо LLM может справиться с тем или иным сэмплов считается uncertainty, которая расчитывается двумя путями - 1) путем промпта просим модель вывести число от 0 до 1, соответствующее уверенности, 2) ~~Monte-Carlo prompting~~ подадим несколько промтов для одного сэмпла чуть измененных и посчитаем энтропию ответов. Сравнивая выбор примеров для LLM н основе uncertainty со случайным выбором примеров авторы показывают эффетиквность подхода на основе неопределенности. В итоге получают снижение стоимости разметки и даже приводят парето-эффективные оценки для количества данных, которые можно отдать LLM (на всех датасетах обучается потом Roberta-base).
В целом, звучит интересно, для меня остался один открытый вопрос (может быть не нашел и мне кто-то укажет - где это ablation study?) - а что будет с качеством целевого классификатора, если мы просто выкинем те сэмплы, которые хотим отдать LLM? Если верить работам про активное обучение, кажется, что ничего и получим по сути такое же качество. И не очень понятно, что мы в итоге выигрываем..
4/7?
Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations
Paper: https://aclanthology.org/2023.emnlp-main.647/
Я люблю на собесах спрашивать про few-shot learning и low resourse setting и очень часто кандидаты все сводят к тому, что "нагенерируем данных LLM и вауля". Интуитивно, этот подход не очень хорош - так как генерация данных с помощью LLM выглядит достаточно недоисследованной, в особенности относительно того, насколько hard- или easy-to-learn сэмплы такая модель будет генерировать (https://arxiv.org/abs/2009.10795).
Авторы этой работы (тоже с emnlp'23) согласны со мной, как и их эксперименты?
Для 10-ти задач текстовой классификации с помощью GPT-3.5 Turbo генерируют сэмплы в zero-shot (LLM не видит real-world data) и few-shot (LLM видит несколько примеров) для обучения модели. В итоге результаты показывают, что:
- в общем случае наблюдается просадка в качестве модели, обученной на сгенерированных LLM данных. Эта просадка значительная в случае zero-shot scenario и subjective tasks (до 41% по macro-F1) и чуть меньше во few-shot scenario (до 26%).
- это происходит вероятно из-за того, что LLM не в состоянии сгенерировать достаточно divercity примеры, особенно в случае сложных датасетов.
Судя по приведенным результатам - я не зря это спрашиваю и не зря считаю ответ про LLM не до конца валидным. Я тут себе поставил новогодний челлендж разбирать по статье в день на праздниках, так как обещал команде обзор EMNLP в первую рабочую неделю - 2/7 so far=)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus
Paper: https://aclanthology.org/2023.emnlp-main.58/
Code: https://github.com/zthang/focus
В работе предлагается развитие детекции галлюцинаций LLM моделей за счет uncertainty. Авторы предполагают, что наибольшее количество галлюцинаций происходит при генерации именованных сущностей - исходя из этого предложен ряд эвристик (и даже используют для скейлинга IDF, рассчитанный для RedPajama) по учету token level uncertaity для hallucination score. По сути - кроме формулы подсчета hallucination score через token uncertainty в работе contributions нет. Выглядит в целом, интересно, и легко воспроизводимо, но есть один момент, который по-моему мнению, авторы очень неочевидно обходят - для моделей с недоступными logits, они используют proxy model, упоминают, что такой подход критиковался, в частности в https://arxiv.org/abs/2303.08896, но все-равно их используют. И да, для выделения сущностей используется Spacy, что тоже видится небольшим limitation=)
Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.
💬 Комьюнити: t.me/okx_russian
👨💻 Поддержка: [email protected]
АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends
Last updated 2 weeks, 2 days ago
Here in simple language about TON and crypto
Founder: @metasalience
contact : @deftalk_bot
Last updated 3 months, 2 weeks ago
Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение
Ведро для спама: @ton_telegrambot
Бот с курсами криптовалют: @TonometerBot
Чат: @chaTON_ru
Админ: @filimono
Last updated 2 weeks, 4 days ago