алиса олеговна

Description
Пишу про изучение обработки естественного языка (NLP, Audio, Multimodal). Учу компуктер вести диалоги в духе всем известной Алисы.

ML Engineer @ zvuk.com (Research Team)

Автор → @textoleg
Advertising
We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 weeks, 3 days ago

Here in simple language about TON and crypto

Founder: @metasalience
contact : @deftalk_bot

Last updated 3 months, 2 weeks ago

Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение

Ведро для спама: @ton_telegrambot

Бот с курсами криптовалют: @TonometerBot

Чат: @chaTON_ru

Админ: @filimono

Last updated 2 weeks, 5 days ago

2 months, 2 weeks ago
2 months, 2 weeks ago

Я последнее время много занимался RAG, тоже обратил внимание, что LLM над всем контекстом с промптингом и constrained decoding получается выжать очень много.

3 months, 4 weeks ago

Презентация по трансформерам 🤔

В середине июня я упоминал, что готовлю презентацию по трансформерам внутри команды. Так вот в начале августа я её успешно провёл!

Изначально планировал, что уложусь в 1.5 часа... По итогу пришлось рассказывать в течение рабочего дня в два этапа примерно по 2 часа — 4 часа в общей сложности! Зато и команда осталась довольна, да и я сам кайфанул от результата.

Хотелось бы упомянуть инструменты и источники, которые помогли перелопатить большие объёмы статей!

Инструменты 🤥

arxivdiff — чтобы сравнивать версии статей и подсвечивать внесённые правки. Актуально, потому что Google к примеру совсем недавно обновили Attention Is All You Need
connected papers — чтобы выстраивать граф упоминаний между статьями и быстро находить первоисточники каких-то идей или смотреть общую траекторию развития направления
paperswithcode/methods — хороший кодификатор модификаций отдельных блоков DL, лично я смотрел модификации Attention
zotero — чтобы быстро под рукой хранить изучаемые статьи, делать выделения, оставлять комментарии в PDF и экспортировать такие хайлайты в вашу PKM тип того же logseq или obsidian

Упражнения 😓

Кроме того, я всё-таки прорешал те самые упражнения на реимплементацию BERT и Llama моделек. Там, конечно, не обошлось без сюрпризов, но об этом как-нибудь расскажу отдельно. Мои решения залиты на GitHub [BERT,](https://github.com/stllfe/minbert-assignment) [Llama], но не списывайте точь-в-точь! Крайне рекомендую, оказалось весьма полезно для понимания.

Сейчас в планах чуть адаптировать и проработать материал, а потом провести лайв-презентацию для вас, здесь на канале. Пока же для самых нетерпеливых прилагаю PDF версию слайдов, может быть полезно для ознакомления уже сейчас!

Отдельная благодарность YouTube, вебинарам DeepSchool и Илье Гусеву — благодаря нему много узнал про особенности позиционного кодирования.

За остальным велком в презу!

#Review #Links

6 months, 2 weeks ago
6 months, 2 weeks ago
6 months, 3 weeks ago

Продолжаю выступать аггрегатором выступлений... Сегодня в программе ребята с моей команды! ? x ?

Коллеги на Data Fest 2024 рассказывают как мы прикручиваем LLM к задаче составления плейлистов налету по текстовому запросу от пользователей!

В частности, немножко про metric learning, про генерацию синтетики для обучения с помощью проприетарных LLM и использование LLM же в качестве текстового энкодера — тот самый нашумевший Mistral-E5 на MTEB!

? Ссылочка на трансляцию [запись вроде живёт]

Под капотом никакого rocket science, but it's an honest work!!! ?

8 months, 3 weeks ago

Буду посмотреть онлайн — интересно решение RAG в GigaSearch, а также применение LLM в синтезе речи.

10 months, 1 week ago

Как я пишу заметки и веду конспекты! ?

Бывало ли такое у вас в школе/универе или уже после: начинаете слушать лекцию и делать заметки. Пару минут спустя ловите себя на мысли, что вы пишите диктант, к тому же с лютыми пропусками информации. В конце оказывается, что вы перевели с русского на русский и ничего для себя не узнали.

В чём тут проблема? В момент такой записи вы не работаете с материалом. Сразу оговорюсь, что всё далее — больше про онлайн-лекции, в которых можно вернуться назад. Для очных лекций нужны определенные модификации, потому что на них вы решаете сразу две задачи: (1) протоколировать как можно больше и (2) фильтровать и структурировать наиболее оптимальным образом.

Так вот, рецепт ~~батиного супа~~ моих заметок примерно следующий!

1️⃣ Прийти на лекцию/выступление/митинг с общими знаниями о предмете. Это поможет настроить собственный фильтр информации, который будет подсвечивать ровно столько, сколько нужно по уже волнующим вопросам.

2️⃣ Не записывать за лектором — записывать для себя! Ментально искать разницу между тем, что говорит лектор и тем, что знаю я. Что-то удивило? Записываем! Что-то показалось ошибочным — записываем! Для остального используем простые пометки, чтобы отразить структуру лекции. Мол а ещё сказали про это. Зачем — смотри далее. В специализированной литературе эту фазу часто называют fleeting notes (заметки на лету).

3️⃣ СРАЗУ после лекции сесть и попытаться заполнить все пропуски, дописать на месте пометок недостающую информацию и восстановить общий ход лекции. Короче пересказать её самому себе. Это этап самопроверки, ведь ранее мы намеренно пропускали то, что «и так понятно».

4️⃣ И вот тут самое вкусное — прохожу заново по материалу лекции и делаю самопроверку: «а правильно ли я написал что…?». Получаем основной профит:

?️ Вы убедились, что всё поняли корректно = положительный отклик, закрепляющий знание + небольшой буст мотивации продолжать и сопутствующих гармончиков

?️ Вы ошиблись и исправили себя: это очень полезный отклик для мозга (исследования говорят, что от факапов мы учимся больше чем от повторений), в некоторой эпсилон окрестности вокруг этой информации мозг будет более осторожен впредь и жадно бросаться на любые знания, укрепляющие этот вопрос!

©️ Вы нашли дыру в своих знаниях, которую не может восполнить пройденный материал: теперь можно смело бежать и прокрастинировать в гугл и копить сохранёнки

На моём опыте такая работа с материалом даёт тот самый вау-эффект, который иногда сам собой возникал в универе: «написал тест, просто потому что ходил на лекции и что-то записывал».

На чём это основывается?

Часть логики я заимствовал из техник продвинутого чтения (упоминал тут), заместив чтение прослушиванием. Частично взял результаты исследований о заметках. Опираюсь на идею того, что из ошибок мы учимся лучше всего. Ну и полирую это своим опытом и поиском того, что работает лично у меня.

Я знаю, было бы хорошо кинуть ссылки и пруфы на backed by science*✨
Но если я пойду это пруфать, пост вы не увидите ещё пару месяцев, а нанести пользу хочется уже сейчас.*

#самообучение #заметки #совет

We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 2 weeks, 3 days ago

Here in simple language about TON and crypto

Founder: @metasalience
contact : @deftalk_bot

Last updated 3 months, 2 weeks ago

Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение

Ведро для спама: @ton_telegrambot

Бот с курсами криптовалют: @TonometerBot

Чат: @chaTON_ru

Админ: @filimono

Last updated 2 weeks, 5 days ago