Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 2 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago
Еще небольшая ремарка по PhD
Познакомилась сегодня в универе с новым постдоком, с которым у нас нашелся общий интерес в рисерче. Мб выйдет даже коллаборация. Так вот, он сказал фразу типа "я ожидал, тут будет много людей, с которыми можно будет поработать. На самом деле, я особо не вижу тут заинтересованных в подобной теме людей"
Я ответила "Yeah, I agree". Когда я только начала PhD, я была довольно сильно удивлена, что в моей группе все PhD студенты занимаются довольно разными вещами, и нет никого, кто делал бы что-то похожее на мою тему. Постдоков в нашем недавно созданном институте DERI (это типа AI рисерч центр внутри универа) тогда не было вообще, их стали нанимать недавно, и то большинство занимаются medical domain. Только у двоих людей из моей группы есть пересечение тем, и они даже статью совместную написали, но, опять же, это medical imaging.
Когда я шла на PhD, я как-то даже не думала, что так может быть. Мне казалось, что обычно в универах PhD группы довольно плотны по темам, и, наверное, если я обсудила тему со своим научником, то эта тема соотносится с тем, что делает группа. Мне искренне хотелось найти в лабе людей, с которыми я могла бы обсуждать темы, статьи, и делать совместные проекты. У нас в лабе даже не было митинга, где бы студенты собирались и рассказывали друг другу про свою работу или разбирали статьи. Теперь такой митинг есть (c моей подачи), но и на нем чаще всего обсуждаются оргмоменты (как писать/ревьюить статьи, куда подавать) или чья-то работа, но уже после публикации или прямо перед презентацией на конфе.
Это мое упущение, что я не задумалась об этих аспектах до того, как пойти на PhD сюда. Но вы, если думаете о PhD, не будьте как я и имейте это в виду: что полезно собрать информацию про то, как живет лаба у научника, прежде чем туда идти.
Я в своей ситуации при этом нахожу плюсы: по крайне мере, мне дают делать то, что нравится, не загоняя в рамки определенных тем. Я учусь сама находить тему, ставить вопросы, планировать эксперименты, писать статьи. И мой научник реально очень классный как человек и ментор в научном сообществе. Это тоже очень важно, потому что я слышала много историй о том, как какой-нибудь известный и "крутой" в научных кругах профессор оказывался ужасным ментором, у которого делать PhD было очень неприятно. Это тоже стоит попытаться выяснить до того, как коммититься куда-то на PhD.
Завела раздел "blog" на своем сайте, добавила туда пост о PhD в Лондоне на английском, а еще запостила об этом в Твиттер.
Буду очень рада лайкам и новым людям в Твиттере 🥰
Помните, рассказывала, что помогаю готовить школьников к межнару по AI? Так вот, финальный тур прошел 11 числа, и наши дети взяли первое место! Причем с огромным отрывом от второго =) Через пару часов будет награждение, прямая трансляция будет тут. А вот…
По итогу IOAI хочу собрать статейку о том, как была устроена олимпиада и какие там были задачи и их решения. Но пока что я этого не сделала, а вот один из авторов задач (да, правда автор задачи на межнар!) про свою задачу уже статью написал.
Статья вот. В ней:
- краткий обзор формата олимпиады и всех трех задач;
- как появилась ML-задача: откуда взялась идея, как готовились данные, какие идеи решений были у участников;
- дополнение от коллеги — кратко о том, как готовилась задача по CV.
Закрытие и награждение теперь по этой сслыке, начинается сейчас: https://youtu.be/ni_rah3dfIw
Помните, рассказывала, что помогаю готовить школьников к межнару по AI? Так вот, финальный тур прошел 11 числа, и наши дети взяли первое место! Причем с огромным отрывом от второго =)
Через пару часов будет награждение, прямая трансляция будет тут.
А вот видео с представлением команды еще до олимпиады.
Какие они классные, очень за них рада ☺️
P.S. Про задачи напишу как только их выложат в открытый доступ. Пока что кратко про олимпиаду и задачи можно прочитать в канале у Саши Гущина (тоже один из тренеров сборной).
Ребята из DevCrowd попросили рассказать об их исследовании специалистов DS/ML/AI. Это масштабное исследование на следующие темы:
- что входит в обязанности той или иной профессии;
- какие навыки в профессии наиболее важны и каких знаний не хватает;
- сколько зарабатывают специалисты в зависимости от опыта и грейда;
- полезные для развития каналы, курсы и книги;
Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование более масштабным! А результаты появятся в открытом доступе в конце сентября. Это поможет вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией.
➡️Пройти опрос
А тут можно посмотреть другие исследования проекта
Общие выводы работы из поста выше получаются такие:
Для language structures:
- LLMs выучивают структуры довольно сложных иерархических грамматик, и некоторые виды attention (relative/rotary) очень важны для этого умения;
- принцип, которым LLM обрабатывает последовательность грамматики, подобен динамическому программированию;
- выбросы и шумы в обучающих данных очень важны для повышения робастности модели.
Для reasoning авторы собрали синтетический датасет задач по математике, обучили на этом модель и получилось вот что:
- есть некоторые свидетельства того, что LLM таки не просто запоминает тренировочные примеры, но действительно учится рассуждениям и логическим выводам;
- обнаружили, что часто модель научается находить в данных такие зависимости, которые даже не нужны для решения этих задач. То есть, происходит генерализация: модель выучивает навыки, которые в принципе для хорошего результата на датасете не нужны. Как пишут авторы, "это небольшой сигнал о том, откуда может взяться буква 'G' в слове AGI";
- простой linear probing внутренних представлений модели может показать, когда модель ошибается. И ошибки можно детектировать в процессе работы модели, то есть даже до того, как модель начнет генерировать текст ответа;
- глубина (но не общий размер) модели влияет на способность LLM к reasoning. Модель с 16 слоями размерности 567 научается решать гораздо более сложные задачи, чем 4-слойная модель со слоями размерности 1970. Несмотря на то, что у 4-слойной модели в целом параметров больше;
- опять же, шумы и ошибки в обучающих данных помогают модели учиться лучше.
Knowledge: здесь авторы изучают то, как LLM запоминают факты во время обучения и потом извлекают их во время инференса для ответов на вопросы. Выводы такие:
- интересно, но если обучать LLM на смеси "тексты с фактами" + "вопрос-ответ", то LLM хорошо генерализуется. То есть, хорошо научается отвечать на вопросы про объекты, которых не было среди обучающих текстов. А вот если сначала обучить LLM на текстах с фактами, а потом дообучить на парах вопрос-ответ, такой генерализации не происходит. Похоже, говорят авторы, разнообразие данных при предобучении сильно влияет на итоговую генерализацию модели;
- при двух типах обучения, описанных выше, знания внутри модели получаются закодированы по-разному. Это влияет на способность LLM выделять нужные знания из своих внутренних представлений при ответе на вопрос;
- такая генерализация наблюдается у decoder моделей типа GPT-2, но не у encoder-моделей типа BERT;
- можно выделить некоторые типичные фейлы LLM. Например, LLM хорошо отвечают на вопросы типа "когда родился Вася", но не умеют отвечать на "обратные вопросы" вида "кто родился 05.11.1996?". Или не могут вывести строчку "четный год", не напечатав "1996". На основе таких примеров авторы предлагают собрать "универсальный тест Тьюринга", который пока не проходит ни одна LLM, даже GPT-4.
Ох сколько интересного чтения предстоит =)
Очень классный туториал с недавнего ICML: Physics of Language Models.
Я бы даже сказала, что это не туториал, а довольно большая работа по LLM explainability. Конкретнее, авторы хотят приблизиться к ответу на вопросы "где находится и как устроен intelligence у LLM" и "что делать, чтобы intelligence усилить, т.е. подойти ближе к AGI".
Подход у них довольно интересный. Авторы делят intelligence на три категории:
- Language structures. Это о том, как LLM выучивает сложную структуру языка. Т.е. какие механизмы в этом задействованы и как идейно происходит обработка текста;
- Reasoning. Это про способность LLM к рассуждениям, выводам и аргументации;
- Knowledge. Как устроено хранение информации в LLM, как ей манипулировать и как объем информации, которую вмещает LLM, зависит от количества ее параметров.
Изучать это все предлагают следующим образом: давайте для каждой категории сгенерируем синтетические данные с заранее известными свойствами, на которых будем обучать LLM и смотреть, как LLM эти свойства выучивает. К примеру, для language structures авторы предложили сгенерировать датасет семейства контекстно-свободных грамматик со сложной структурой (более сложной, чем у обычных английских текстов). Обучая модель на таких данных авторы смотрят на то, что происходит внутри модели (например, какие паттерны attention активируются) и делают выводы о том, каким образом, каким алгоритмом LLM обрабатывает язык.
В посте ниже опишу общие выводы, которые авторы делают из своей работы. А вот ссылки на видео/статьи туториала:
Сайт
Part 1: Hierarchical Language Structures:
- Видео;
- Статья на arxiv;
Part 2: Grade-School Math:
- Видео будет тут после 20 августа;
- Статьи на arxiv: часть 1, часть 2 обещают вот-вот;
Part 3: Knowledge:
- Видео;
- Статьи на arxiv: часть 1, часть 2, часть 3
Тут такое дело — мы в DLS выпустили мерч, худи и футболочки!
Изначально они выдавались в качестве призов призерам олимпиады (и мне за хорошую работу, хехе), но теперь их можно купить!
А я жду, пока мне мои экземпляры кто-то из России привезет ?
Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 2 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago