Mashkka про Data Science

Description
Пишу здесь про Data Science, NLP и жизнь в ИТ
Advertising
We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 1 month ago

Here in simple language about TON and crypto

Founder: @metasalience
contact : @deftalk_bot

Last updated 4 months ago

Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение

Ведро для спама: @ton_telegrambot

Бот с курсами криптовалют: @TonometerBot

Чат: @chaTON_ru

Админ: @filimono

Last updated 1 month ago

2 месяца назад
2 месяца назад
***🌸*****Больше языков для LLM*****🌸***

🌸Больше языков для LLM🌸
#nlp #про_nlp

Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣Сколько языков сейчас представлены в практике моделирования языка?

Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.

Причина тому — автоматическое определение языка (см fasttext)  невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора"  — наименее надежно атрибутированных данных.

Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.

Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.

🟣Инициатива HuggingFace

Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:

— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.

Авторы уже собрали 185 задач для 9 языков: поддерживаются китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.

Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.

Ну и... ждём большой новый многоязычный корпус с открытой лицензией!

Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣Мини-гайд
🟣Блог HF

2 месяца, 1 неделя назад
**Релиз GigaChat MAX!** [(ссылка на Хабр)](https://habr.com/ru/companies/sberdevices/articles/855368/)

Релиз GigaChat MAX! (ссылка на Хабр)

Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).

- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.

Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.

Предыдущие посты:
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

2 месяца, 1 неделя назад
****👣*******По следам OtusFest***

*👣*По следам OtusFest

В этот вторник выступила на OtusFest c рассказомпро последние достижения LLM и будущие тренды в области GenAI. Запасаемся попкорном в этот дождливый пятничный вечер и смотрим!

*📺Запись
👀*Слайды

2 месяца, 1 неделя назад
[#пятичныемемасы](?q=%23%D0%BF%D1%8F%D1%82%D0%B8%D1%87%D0%BD%D1%8B%D0%B5%D0%BC%D0%B5%D0%BC%D0%B0%D1%81%D1%8B)

#пятичныемемасы
Человеку, приславшему мне очередную голосовуху посвящается

2 месяца, 1 неделя назад
Mashkka про Data Science
2 месяца, 2 недели назад

🗻AIST conf: лучшее за 20 секунд

Традиционный vlog с конференции АИСТ в Бишкеке.

#трудовыебудни #новостисполей #nlp #mashkka_central_asia #аист #киргизия #осень #осень2024

2 месяца, 2 недели назад
2 месяца, 2 недели назад

РБК: Яндекс представил новое поколение нейросетей

– Яндекс выпустил новое поколение нейросетей YandexGPT 4
– Они обрабатывают около 60 стр. текста и умеют рассуждать
– Новая линейка включает мощную модель Pro и легкую Lite
– Они превосходят по качеству ответов предыдущие версии
– Это позволяет использовать их для решения сложных задач
– В т.ч. для анализа обращений, автоматизации закупок и др.
– Версия YandexGPT 4 Pro подойдет для трудоемких задач
– Lite полезна для простых сценариев, где важна скорость
– Они могут генерировать запросы для сторонних приложений
– В сред. новые модели отвечают на вопросы вдвое быстрее
– Демоверсия YandexGPT 4 уже доступна через Yandex Cloud
– Позднее их запустят для «Алисы» и других сервисов Яндекса

@ftsec

2 месяца, 3 недели назад
***🇰🇬*****Вслед за перелетным АИСТом прилетела в …

🇰🇬Вслед за перелетным АИСТом прилетела в Бишкек

Привет из Бишкека! Прилетела сюда на конференцию AIST, в которой я участвую уже второй год подряд. В этом году представляем нашу со студентами работу по мультимодальному ризонингу, в рамках которой мы создали большой VQA датасет.

Про работу расскажу чуть позже, а пока меня ждет знакомство с университетом Манас, принимающим конференцию в этом году.

#трудовыебудни #новостисполей #nlp

We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 1 month ago

Here in simple language about TON and crypto

Founder: @metasalience
contact : @deftalk_bot

Last updated 4 months ago

Канал о TON и все что с ним связано:
1. Аналитика
2. Инсайды
3. Авторское мнение

Ведро для спама: @ton_telegrambot

Бот с курсами криптовалют: @TonometerBot

Чат: @chaTON_ru

Админ: @filimono

Last updated 1 month ago