Крупнейшее медиа об интернет-культуре и технологиях.
Больше интересного на https://exploit.media
Написать в редакцию: @exploitex_bot
Сотрудничество: @todaycast
№ 4912855311
Last updated 6 days, 7 hours ago
Не заходи без шапочки из фольги и пары надежных проксей. Интернет, уязвимости, полезные сервисы и IT-безопасность.
Связь с редакцией: @nankok
Сотрудничество: @holartem
№ 4958183748
Last updated 3 days, 4 hours ago
Первый верифицированный канал о технологиях и искусственном интеллекте.
Сотрудничество/Реклама: @alexostro1
Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official
Last updated 2 months, 1 week ago
Рабочие будни. Парсинг товаров
#ЖизаПост
После вопроса на семинаре ШАДа о нашей команде в Яндексе я понял, что особо не рассказывал в канале, чем занимаюсь/занимался на работе 😅
Пора это исправить! Дисклеймер: все-все-все рассказать не удастся - NDA, сами понимаете)
Напомню, что я работаю в команде Товарного Поиска (это не Маркет, а часть Поиска). Как и у любого поиска у нас есть база, а именно - база товаров. И в этом посте хочу рассказать кратко о процессе, который привносит больший вклад в базу. Речь пойдет о парсинге.
Представьте перед собой страницу с товаром какого-нибудь онлайн магазина. Из нее нужно достать такие важные поля как цена, название, картинка и так далее. Как это сделать (подумайте сами, а затем открывайте спойлер) ❓
Сразу расскажу наше итоговое решение. HTML страницу можно представить как дерево, а нужная нам информация лежит в каких-то вершинах этого дерева. Давайте тогда классифицировать каждую вершину на то, содержит ли она нужные данные или нет. Придумаем кучу признаков для вершины: про ее положение в дереве, про информацию в соседних вершинах и про контент в самой вершине. Большинство факторов считаются алгоритмически, вот вам и ДП по дереву. Конечно, еще по тексту в вершине считается нейросеть, выход которой мы назвали текстовым признаком. В итоге на этом многообразии признаков учим Catboost и классификатор готов
Этот проект начался еще до моего попадания в штат и конкретно я парсил данные для fashion категорий и улучшал precision и recall для базовых полей. Удалось поделать следующее: создание толокерских заданий, обучение Catboost, обучение BERT и дистилляция в DSSM, запуск, оптимизация этого дела на C++ и придумывание с реализацией эвристик на дереве на тех же плюсах 👨💻
Конечно, я не рассказал еще интересности этой задачи: более простые способы парсинга с их + и -, как обходить нужные страницы и так далее. Про это можно послушать в докладе одного из моих руклей на Highload 2022 (как давно это было) - ссылка ▶️
2️⃣4️⃣
Хоть уже 24, но понимаю, что еще много чего не знаю, не испытывал, не видел...
Зато чувствую, что именно сейчас то время, когда есть некая свобода и пора наращивать темп, пробовать и узнавать что-то новое💪
Спасибо, что со мной, ведь канал тоже порой мотивирует делать какие-то непривычные вещи❤️🔥
KIT 1 year CUP. Анонс x2
#Event
Уже больше 70 человек зарегистрировалось на контест (подробности тут) ? И большинство выбрали...
*? *Дату и время проведения: воскресенье 05.05, 11:00 МСК
В связи с этим продлеваем регистрацию до понедельника 29.04 включительно. Самое время позвать еще друзей
Напомню, что для участия нужно:
? Быть подписанным на канал
? Зарегистрироваться в гугл-форме, указав: ФИО, ник в ТГ, ник на КФ. Дату выбирайте 5 мая, так как выбора сейчас уже нет)
Всех, кто уже заполнил формочку, скоро добавим в чат участников
А пока всем хороших майских, побольше времени на природе и вкусных шашлыков?
Крупнейшее медиа об интернет-культуре и технологиях.
Больше интересного на https://exploit.media
Написать в редакцию: @exploitex_bot
Сотрудничество: @todaycast
№ 4912855311
Last updated 6 days, 7 hours ago
Не заходи без шапочки из фольги и пары надежных проксей. Интернет, уязвимости, полезные сервисы и IT-безопасность.
Связь с редакцией: @nankok
Сотрудничество: @holartem
№ 4958183748
Last updated 3 days, 4 hours ago
Первый верифицированный канал о технологиях и искусственном интеллекте.
Сотрудничество/Реклама: @alexostro1
Помощник: @Spiral_Yuri
Сотрудничаем с Tgpodbor_official
Last updated 2 months, 1 week ago