Первый онлайн-переводчик междустрочного текста из ведущих и ведомых СМИ. ѣѣ
Похвалить, поругаться, предложить новость, разместить рекламу
👇👇👇
@Otsuka_mail
Last updated hace 1 mes
⭐ АВАТАРКИ НА ВАШ ВКУС
▫️По вопросам: @Solnzelikii
▫️По рекламе: @Solnzelikii
❗Реклама нужна исключительно для продвижения канала❗
Пригласить друга — https://t.me/+uoFWvRi_7EJlYTdi
Last updated hace 1 semana, 2 días
А вот и новые функции Сферума подъехали
Платформа обновляет и дополняет функционал перед началом каждого учебного года, и этот год не стал исключением. Помимо расширенных настроек для звонков, теперь здесь есть цифровые помощники, новые боты, возможность добавлять пользователей из телефонной книги, режим «Не беспокоить», цифровые награды ученикам и регистрация на всероссийские олимпиады.
Подробности можно узнать здесь
Яндекс обновил контест на стажировку осень-зима. Задания уже лежат тут, там же можно их обсудить вместе с админами. И конечно разбор нового контеста будет на наших курсах, так что присмотритесь к ним.
Стажировка в Яндексе - самая крупная стажировка из всех, больше всего мест и их точно хватит на всех. Весьма прозрачный отбор, о котором писали здесь. Для успешного прохождения на собесы обычно достаточно решить 2/3 заданий, а в прошлый раз только половину.
Также не забываем посмотреть полный цикл собесов в Яндекс наших учеников:
Бэкенд Аналитика Машинное обучение
Задача Яндекса.
В последние дни все чаще встречается задача:
Дается массив из целых чисел длины n > 1. Вы должны вернуть минимальное произведение, которое можно получить из двух чисел массива. (позиции чисел должны быть уникальны)
Решение:
Конечно нужно решать за линию.
Пусть max1, max2 - два максимальных числа из массива, при этом max1 >= max2.
Пусть min1, min2 - два минимальных числа из массива, при том min1 <= min2.
Если min1 <= 0 и max1 >= 0 то ответом будет min1 * max1
Иначе мы получаем два варианта:
1) Все элементы положительные, в таком случае нужно вернуть min1 * min2
2) Все элементы отрицательные, в таком случае вернем max1 * max2
Именно так лаконично рассмотреть случае.
Частые ошибки:
Не умение находить два максимальных/два минимальных числа за один проход циклом за линию.
Запутаться со случаями, когда в массиве нет отрицательного/положительного числа, но есть ноль.
Время работы алгоритмы O(n)
Вот и non-tech-программа в IT для школьников! dreamlab — это бесплатная лаборатория, где ученики 8-11 классов могут попробовать себя в digital-направлениях: от тестирования и управления проектами до исследований и дизайна.
Годовая программа включает в себя лекции и мастер-классы по управлению и развитию цифровых проектов, пользовательскому опыту, продвижению и дизайну цифровых продуктов, коммуникациям и гибким навыкам. Участники будут работать над кейсами VK — классная возможность на практике познакомиться с реальными задачами. Формат смешанный — можно онлайн или офлайн. По окончании выпускники соберут портфолио и получат сертификаты. Это хороший старт для тех, кто хочет связать свое будущее с технологиями. Для участия необходимо оставить заявку до 20 сентября.
Вот и разбор аналитики на стажировку в Яндекс! Обязательно делимся с друзьями. Ждём 5 тыс просмотров на ютуб ролике и выкладываем МЛ. Советую поторопиться: контест вот-вот обновят.
Смотрим! Смотрим! https://www.youtube.com/watch?v=k4C9aWR6YJ4
YouTube
Разбор аналитики на стажировку в Яндекс!! (Весна-Лето 2024)
Подробней о курсах: https://t.me/postypashki\_old/1076 Код и условия задач: https://t.me/botalkaaa/39301
Эти пет проекты должен сделать каждый ML специалист
Устроиться можно попасть и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна.
Уже делали подобную подборку для аналитиков здесь, советую присмотреться.
Кредитный скоринг
Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.
Наивный Байесовский классификатор (НБК)
Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:
Вычисляем прогнозируемый результат с помощью условных вероятностей.
НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.
MLOps
Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.
Ранжирование и матчинг
Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.
Рекомендашки
Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
Также стоит попробовать обучение с подкреплением: многоруких бандитов.
Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.
CodeRun — новый онлайн-тренажер Яндекса, где можно прокачивать навыки разработки и аналитики, а заодно готовиться к техническим интервью
Задач много и разной сложности — каталог собрали разработчики Яндекса и внешние эксперты. В базу включены задания с прошлых чемпионатов и контестов по программированию, а ещё есть специальный формат авторских подборок. Например, можно пройти задачи по машинному обучению от Алексея Гусакова — технического директора Поиска.
Одна из главных фич: на платформе есть формат сезонных челленджей, где победители получат возможность попасть в Яндекс по упрощенному формату найма. А еще лидеры рейтинга смогут побороться за мерч, сертификаты и приглашение на награждение в офис компании.
Времени всё меньше: 2 сезон продлится до 27 августа. Покоряй рейтинговую таблицу и получи возможность попасть в штат!
Задача для тех кто пишет на С++.
Это одна из задач, которая попалась во время собеседования.
Задача:
Вам приходят запросы двух видов.
1) Добавить в конец элемент 'x'
2) Удалить самое ранее добавленное число.
(По факту у нас очередь)
Вам можно пользоваться только одним std::vector. Но вам известно, что в любой момент времени в очереди могут находиться не более n чисел.
Имея один вектор размера не более n научитесь обрабатывать все запросы.
Решение:
Давайте создадим вектор a размера n. Будем циклически записывать числа в массив.
https://en.wikipedia.org/wiki/Circular_buffer
Вот такое вот решение господа
Думаю будем полезно всем кто будет проходить собес на С++.
Вот и стартовала регистрация на контрольную «Выходи решать!». В этом году она пройдет с 28 сентября по 5 октября. Вы сможете проверить свои знания по пяти предметам на выбор – среди них есть математика, физика и информатика. Лучшие 10% рейтинга из числа участников контрольной смогут претендовать на поступление в заочную физико-техническую школу МФТИ без экзаменов. Задания будут доступны на платформе All Cups от VK – регистрация открыта до 5 октября.
Полный цикл отбора в Яндекс (МЛ 2024)
Сейчас студенты наших прошлых курсов под моим чутким сопровождением ломанулись проходить отборы в Яндекс, поэтому продолжаю радовать вас инсайдами и актуальными вопросами.
Далее представлен слегка отредактированный текст нашего выпускника.
Вступительный контест
Задания нашел тут, просто прорешал заранее и сдал, но зашли только 4 задачи. Первую и пятую мне решил ГПТ, только нужно было поправлять. Шестая просто посчитаит количество вхождений конкретных слов, а потом сортируем. Вторую мне скинул знакомый. Этого хватило, а знакомому хватило трех задач.
Кстати, товарищи, на курсе машинное обучение вы найдете подробный разбор (видео + код) этих задач.
МЛ секция
Сначала дали очень простую задачу на два указателя: в строке найти длину наибольшей подстроки, состоящей не более чем из двух уникальных символов. Я даже растерялся и начала копать не туда. Интервьюер предложил рассмотреть на примере и я сразу сообразил. Потом была простая задача по мл. Она разобрано здесь. И немного поспрашивали базу про классификацию, про линейную регрессию и регуляризацию.
Алгоритмическая секция
Первая задача: сжимать список целых чисел в диапазоны, которые там встречаются. Например, [1, 3, 2, 8, 11, 9, 0] -> "0-3, 8-9, 11".
Вторая задача: для множества точек на плоскости с целыми координатами определить есть ли у них вертикальная ось симметрии.
Для тех, кто в теме, задачи довольно баянистые. Их даже можно найти здесь.
Задачи я решил быстро и еще оставалось время, собеседующий дал мне задачу: написать бинарный поиск.
Дальше ждали собесы с командами.
Собес 1 (Яндекс Доставка)
Лайтово. Спросили просто про опыт, чем занимался. Поговорили про хакатоны, мои пет проекты. Мог только похвастаться кредитным скорингом и рекомендацией фильмов, которые я стырил и адаптировал по заветам Поступашек??.
Рассказали про себя и чем предстоит заниматься. Нужно выдумывать всякие фичи в катбуст, чтобы в реальном времени предсказывать приедет курьере или нет.
Собес 2 (Яндекс Деньги)
Здесь уже было потновато. Сначала попросили рассказать про случайный лес и градиентный бустинг, уточняющие вопросы по теории. Дальше попросили рассказать в общих чертах про АВ тесты и заострили внимание на ошибке 1го и 2го рода, p-value, мощность. Спрашивали про опыт работы в линуксе и написания скриптов на баше, попросили написать простой SQL запрос в блокнотике (есть табличка - фио, зарплата, отдел, надо вывести людей получающих минимальную зарплату в своем отделе). Затем был мл кейс: какие вопросы (из 100 имеющихся) задавать пользователю для идентификации мошенника. Чем-то подобным и предстоит заниматься в команде: по поведению пользователя на сайте и в приложении научиться понимать, бот это или нет. Поговорили про метрики классификации, а также про реализацию моего решения.
Вообще для подготовки к мл кейсам, помимо бота классической теории, советую смотреть всякие статьи на Хабре, конференции от Яндекса, Тинькофф и тд. Понятно, что в первую очередь смотреть выступления конкретной команды, с которой будет собес, и выступления левых команд, но в той же области.
Собес 3 (Яндекс Музыка)
Было много вопросов про метрики, какие знаю, физический смысл ROC-AUC. Дальше спросили: есть одна фича и один таргет, обучили регрессию, но весь тест лежит правее всего трейна— что выдаст линейная регрессия, KNN и случайный лес? И затем мл кейс, как сделать рекомендации плейлиста на сегодняшний день. Все основные повороты описаны здесь
В итоге три приглоса. На собесах ожидал хоть один вопрос по глубокому обучению, но его не было.
Первый онлайн-переводчик междустрочного текста из ведущих и ведомых СМИ. ѣѣ
Похвалить, поругаться, предложить новость, разместить рекламу
👇👇👇
@Otsuka_mail
Last updated hace 1 mes
⭐ АВАТАРКИ НА ВАШ ВКУС
▫️По вопросам: @Solnzelikii
▫️По рекламе: @Solnzelikii
❗Реклама нужна исключительно для продвижения канала❗
Пригласить друга — https://t.me/+uoFWvRi_7EJlYTdi
Last updated hace 1 semana, 2 días