Kogut Ivan Tutoring

Description
Алгоритмы и машинное обучение
Автор: @KogutIvan
Чат канала: https://t.me/KogutIvanTutoringChat
Все большие посты: https://buildin.ai/share/d9d3e8b1-9909-4aba-9afd-feec0bb267d4?embed=true
По сотрудничеству писать @Polli_zz
Advertising
We recommend to visit

Крупнейшее медиа об интернет-культуре и технологиях.

Больше интересного на https://exploit.media

Написать в редакцию: @exploitex_bot

Сотрудничество: @todaycast

№ 4912855311

Last updated 6 days, 7 hours ago

Не заходи без шапочки из фольги и пары надежных проксей. Интернет, уязвимости, полезные сервисы и IT-безопасность.

Связь с редакцией: @nankok

Сотрудничество: @holartem

№ 4958183748

Last updated 3 days, 4 hours ago

Первый верифицированный канал о технологиях и искусственном интеллекте.

Сотрудничество/Реклама: @alexostro1

Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official

Last updated 2 months, 1 week ago

2 months, 2 weeks ago
**Рабочие будни. Парсинг** **товаров**

Рабочие будни. Парсинг товаров
#ЖизаПост

После вопроса на семинаре ШАДа о нашей команде в Яндексе я понял, что особо не рассказывал в канале, чем занимаюсь/занимался на работе 😅
Пора это исправить! Дисклеймер: все-все-все рассказать не удастся - NDA, сами понимаете)

Напомню, что я работаю в команде Товарного Поиска (это не Маркет, а часть Поиска). Как и у любого поиска у нас есть база, а именно - база товаров. И в этом посте хочу рассказать кратко о процессе, который привносит больший вклад в базу. Речь пойдет о парсинге.

Представьте перед собой страницу с товаром какого-нибудь онлайн магазина. Из нее нужно достать такие важные поля как цена, название, картинка и так далее. Как это сделать (подумайте сами, а затем открывайте спойлер)

Сразу расскажу наше итоговое решение. HTML страницу можно представить как дерево, а нужная нам информация лежит в каких-то вершинах этого дерева. Давайте тогда классифицировать каждую вершину на то, содержит ли она нужные данные или нет. Придумаем кучу признаков для вершины: про ее положение в дереве, про информацию в соседних вершинах и про контент в самой вершине. Большинство факторов считаются алгоритмически, вот вам и ДП по дереву. Конечно, еще по тексту в вершине считается нейросеть, выход которой мы назвали текстовым признаком. В итоге на этом многообразии признаков учим Catboost и классификатор готов

Этот проект начался еще до моего попадания в штат и конкретно я парсил данные для fashion категорий и улучшал precision и recall для базовых полей. Удалось поделать следующее: создание толокерских заданий, обучение Catboost, обучение BERT и дистилляция в DSSM, запуск, оптимизация этого дела на C++ и придумывание с реализацией эвристик на дереве на тех же плюсах 👨‍💻

Конечно, я не рассказал еще интересности этой задачи: более простые способы парсинга с их + и -, как обходить нужные страницы и так далее. Про это можно послушать в докладе одного из моих руклей на Highload 2022 (как давно это было) - ссылка ▶️

2 months, 3 weeks ago
2 months, 4 weeks ago
***2️⃣******4️⃣***

2️⃣4️⃣

Хоть уже 24, но понимаю, что еще много чего не знаю, не испытывал, не видел...
Зато чувствую, что именно сейчас то время, когда есть некая свобода и пора наращивать темп, пробовать и узнавать что-то новое💪

Спасибо, что со мной, ведь канал тоже порой мотивирует делать какие-то непривычные вещи❤️‍🔥

5 months, 3 weeks ago
5 months, 4 weeks ago
8 months ago

KIT 1 year CUP. Анонс x2
#Event

Уже больше 70 человек зарегистрировалось на контест (подробности тут) ? И большинство выбрали...

*? *Дату и время проведения: воскресенье 05.05, 11:00 МСК

В связи с этим продлеваем регистрацию до понедельника 29.04 включительно. Самое время позвать еще друзей
Напомню, что для участия нужно:
? Быть подписанным на канал
? Зарегистрироваться в гугл-форме, указав: ФИО, ник в ТГ, ник на КФ. Дату выбирайте 5 мая, так как выбора сейчас уже нет)

Всех, кто уже заполнил формочку, скоро добавим в чат участников

А пока всем хороших майских, побольше времени на природе и вкусных шашлыков?

We recommend to visit

Крупнейшее медиа об интернет-культуре и технологиях.

Больше интересного на https://exploit.media

Написать в редакцию: @exploitex_bot

Сотрудничество: @todaycast

№ 4912855311

Last updated 6 days, 7 hours ago

Не заходи без шапочки из фольги и пары надежных проксей. Интернет, уязвимости, полезные сервисы и IT-безопасность.

Связь с редакцией: @nankok

Сотрудничество: @holartem

№ 4958183748

Last updated 3 days, 4 hours ago

Первый верифицированный канал о технологиях и искусственном интеллекте.

Сотрудничество/Реклама: @alexostro1

Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official

Last updated 2 months, 1 week ago