Роман с данными

Description
Все о данных, ML, AI
Founder & CEO TrainingData.Pro
7 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev
Advertising
We recommend to visit
HAYZON
HAYZON
5,835,362 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 1 month, 1 week ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 1 month ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 2 weeks ago

1 month, 3 weeks ago
А 6-го декабря буду выступать на …

А 6-го декабря буду выступать на конференции CONVERSATIONS 2024 с докладом
"Почему бенчмарки лгут? Как правильно оценить LLM для ваших бизнес-задач"

Кто тоже будет на конференции - ставьте 👍.
Готов со всеми пересечься и обсудить разметку и LLM.

1 month, 3 weeks ago
На нас уже Центральный Банк Российской …

На нас уже Центральный Банк Российской Федерации в своих тендерах ссылается.
Приятное достижение для проекта, которому 4 месяца.

P.S: Голосуйте активнее, чтобы мы уже добавили на лидерборд GigaChat Max.

2 months, 3 weeks ago
Год назад, когда выбирал название для …

Год назад, когда выбирал название для своего проекта @TonGPT, зарегестрировал множество названий TG ботов, таких как @Turbo_Gptbot, @tongpt4bot и т.д.

Сейчас подумал, а почему они у меня просто лежат, давай я их подключу, чтобы с них трафик в основной @TonGPT_bot лить.

Задача простая: задеплоить 15 ботов, чтобы на любое сообщение они отвечали “Переходи в @TonGPT_bot

Так как уже несколько лет практически ничего самостоятельно руками не пишу, а делегирую, то с этой задачкой пошел на kwork. Каково же было мое удивление, что за эту задачу получил оценку в 5-8к руб от нескольких исполнителей.

Из принципа закинул это же ТЗ в O1, получил код, залил на сервак. Запустил - работает! На всё про всё ушло 25 мин.

Вы там на kwork с дубу рухнули? Либо цену снижайте, либо совсем без работы останетесь.

3 months, 3 weeks ago
Добавили на [llmarena.ru](https://llmarena.ru/?utm_source=tg_roma_data) шеринг диалогов, чтобы …

Добавили на llmarena.ru шеринг диалогов, чтобы можно было скидывать друзьям/коллегам свои любимые переписки с LLMками.

Вчера встал вопрос: а какую длину ссылки делать?
Если сделать слишком длинную - неудобно будет делиться.
Если сделать слишком короткую - могут появиться коллизии.

На помощь пришел новый o1 и буквально за минуту раскромсал задачу.
Я ВМК МГУ окончил, сам бы смог решить, но ушло бы минут 30-40.
Чувствую как с каждым выходом новой модельки моя производительность повышается на 15-20% процентов)

P.S Ни YandexGPT Experimental, ни T-lite эту задачку не решил.
Пруф: https://llmarena.ru/?s=baa8e203

4 months, 2 weeks ago

И первая новость в обновленном канале следующая:
Мы с командой запустили свою российскую LLM Aрену.

Это такой сайт (идею скопировали у LMSYS), на котором обычные люди могут использовать разные LLM бесплатно, но взамен должны определять лучшую модель.
А мы на основе фидбека пользователей составляем рейтинг LLM и рассчитываем какая модель работает лучше всех на русском языке.

Мы попали прям в боль ML сообщества: кол-во LLM в России растет как на дрожжах, уже помимо YandexGPT, Гигачата есть и T-lite, и Вихрь, и Сайга. Новые LLM появляются каждую неделю и возникает потребность их сравнивать.

За последний месяц посещаемость проекта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru.

Заходите на llmarena.ru и выбирайте лучшую модель!

4 months, 2 weeks ago

На канале 1000 подписчиков!
И знаете что это значит?
Я решил снова провести ребрендинг и делаю канал с личным позиционированием.
Как-то не откликается мне Лебоски, которого макают в сартир на аватарке😬

Да и судя по статистике, личный авторский контент лучше разлетается и заходит подписчикам.
Долго думал как назвать, и решил: пусть будет "Роман с данными".

Логика такова:
- Я Роман? - Роман
- Занимаюсь сбором и разметкой данных уже 7 лет? - Занимаюсь
- У меня роман с данными? - Даже если не роман, то симпатия точно есть

Так что буду тут чаще делиться новостями/инсайтами/своим мнением о все что связано с данными, ML и ЛЛМками. Если вы поддерживаете ребрендинг - ставьте ❤️

6 months, 1 week ago

Всем привет! На связи Роман Куцев.
Много интересных проектов запускаю в последнее время. И об одном проекте я сегодня хочу вам рассказать)

Месяц назад я создал своего цифрового аватара, чтобы они вел соц сети вместо меня.
Тематику и миссию проекта выбрал следующую: освещать передовые события в сфере AI, нейростетей и показывать людям, как с помощью новых технологий оптимизировать свою работу.

Первый месяц прошел успешно. Завирусились видео и в ТикТоке, и в инсте, и на ютюбе.
Цель: 10к подписчиков до конца лета.
Так что призываю всех следить за моим цифровым аватаром и ставить лайки!)

7 months, 3 weeks ago
Всем привет, Роман Куцев на связи!

Всем привет, Роман Куцев на связи!

Продолжаю делиться своими выступлениями, которые накопились за прошедший год.
В этом докладе я решил осветить важную тему:
Как же можно достигать высокое качество при разметке данных.
Хоть правила и советы крайне простые, но внедрение их в ваш пайплайн разметки даст сильный прирост качества (проверено на Training Data)

Ссылка на видео 👇🏻
https://youtu.be/mdQqRh-IPD8

8 months, 2 weeks ago
Всем привет, Роман Куцев на связи!

Всем привет, Роман Куцев на связи!

Прошлой осенью заезжал в гости к Евгению Никитину, автору канала Варим МЛ, и заодно вместе с ним выступил на ML конференции TechTrain.

И вот, спустя почти год организаторы выложили видео с докладов в открытый доступ.
Если вам интересно как с помощью ML оптимизировать разметку, и какие тренды по разметке ждут нас в будущем, ссылка на видео 👇🏻
https://youtu.be/KFWCN4_sEGg

9 months ago
*****🔍*** Благодаря сбору данных клиент улучшил …

*🔍 Благодаря сбору данных клиент улучшил биометрическую систему по распознаванию лиц и голосов на 21%. Как мы это сделали?*

Подводя итоги нашей недели про сбор данных, хотели поделиться интересным кейсом из нашего опыта.

Клиенту нужно было собрать данные для улучшения системы распознавания лиц и речи. Техническое задание заказчика подразумевало уникальный сбор данных (фото, видео) оффлайн, строгие критерии к звуку и формату съемки. Также важно было собрать 1000 участников для съемки. Клиент не мог организовать сбор данных в таком объеме и формате, поэтому обратился к Training Data

В результате сбора:

Клиент улучшил биометрическую систему по распознаванию лиц и голосов на 21%

Собрали уникальный датасет с более чем 400'000 единицами данных от 1000 офлайн участников

Как нам удалось добиться таких результатов? Рассказали в нашем кейсе по ссылке:

https://trainingdata.ru/cases/face-and-speech-recognition

#где_кейсы_лебовски

We recommend to visit
HAYZON
HAYZON
5,835,362 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 1 month, 1 week ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 1 month ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 2 weeks ago