Задачи DS - Собеседования, Соревнования, ШАД

Description
Чат: @zadachi_ds_chat
Предложка: @stanislav_ds
Advertising
We recommend to visit

По рекламе: @evoanna

Last updated 1 day, 12 hours ago

Сотрудничество по YouTube -
@utopia_agency

@hotdogsup

@sheikhto

@nikelodium

@whiteepr

@ssempaai

@ROMANEPAV

@InfluencelQ

Все происходящее в данном канале является вымыслом и не имеет отношения к реальности. +18

Last updated 2 weeks, 2 days ago

КАНАЛ С НОВОСТЯМИ - @RAIZNEWS

Ставим тут https://csgopositive.me/raiz

Канал с короткими нарезками моментов - https://www.youtube.com/@raizshort

Лицензионный софт - https://soft.store

Last updated 3 months ago

2 weeks ago
Поступашки продолжают набор на курс по …

Поступашки продолжают набор на курс по линейной алгебре!

Хочешь поступить в ШАД или магистратуру, затащить олимпиаду? Или просто мечтаешь стать крутым специалистом, тащить собесы, но не хватает фундамента? Тогда тебе к нам! Курс заточен под практику и решения задач, вся теория будет разобрана на конкретных задачах и примерах, которые будут на экзаменах и на собесах. На курсах вас ждут куча авторских задач для подготовки с разбором, доступ к закрытой базе заданий ШАДа, разбор реального контеста в ШАД, разбор ВСЕХ задач с собеседований в ШАД, Ai Masters, ААА, эксклюзивные материалы для проверяющих с собесов и много других приятных бонусов. А после прохождения курса тебя ждет пробный экзамен, собес с подробной консультацией и дальнейшим сопровождением ВПЛОТЬ до поступления в место мечты😎

Более того, ты сможешь получить ВСЕ ДЕНЬГИ потраченные на курс обратно, если первым решишь все домашние задания 😎😎

Курс длится 8 недель, каждую неделю по 2 урока, огромное количество дополнительного контента, более 40 часов уроков с последующим доступом к записям и ДЗ с проверкой. На семинарах с каждым учеником общаются по очереди, полноценное общение как здесь (никаких дурацких чатов, преподаватель лично выслушивает твои решения). Ежедневная связь, пробные собесы, экзамены, персональные рекомендации, инсайды и домашнее задание с проверкой, код ревью и с разбором от преподавателя, который отвечает даже после завершения курса! Все будет еще круче, чем на всех прошлый курсах (отзывы тут). Все для того, чтобы поступить в ШАД/ топовую магу уже летом или мы вернем потраченные деньги!

Программа и формат: чтобы ознакомиться с программой курса, посмотреть на то, как выглядят наши лекции и семинары, просто переходите на страницу курса.

Цена 7500р за курс, до 7 ноября, далее повышение цены до 8500р. Если покупали наши курсы ранее, то цена 7000р. Если же покупали аналогичный курс, но хотите больше новых задач и материалов, то новый курс (материал полностью обновлен и расширен) обойдется вам всего за 5000 р!

Даты: начала курса 10.11

Как купить: приобрести курс и задать вопросы можно по данному адресу: @menshe_treh

Еще курсы серии:
*➡️алгоритмыстарт 10.11
➡️математический анализ старт 17.11➡️***теория вероятностей старт 03.11

2 months, 1 week ago

Олимпиада по ИИ для учеников 8-11 классов поможет раскрыть потенциал в IT-сфере

А ещё — посетить экскурсии в ведущие IT-компании, мастер-классы и встретиться с экспертами из Ассоциации «Альянс в сфере искусственного интеллекта»

Отборочный и основной этапы пройдут в формате онлайн на платформе All Cups от VK. Скорее регистрируйтесь по ссылке — ловите удачу за хвост

3 months ago

Эти пет проекты должен сделать каждый ML специалист

Устроиться можно попасть и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна.
Уже делали подобную подборку для аналитиков здесь, советую присмотреться.

  1. Кредитный скоринг
    Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
    Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.

  2. Наивный Байесовский классификатор (НБК)
    Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
    Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:

  3. Вычисляем вероятность для каждого слова в тексте и отфильтровываем слова со значением вероятности меньше порогового. Такие слова будут нерелевантными.
  4. Для каждого слова в словаре создаём вероятность, что это слово окажется в спаме. Определяем условную вероятность для использования её в НБК.
  5. Вычисляем прогнозируемый результат с помощью условных вероятностей.
    НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.

  6. MLOps
    Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.

  7. Ранжирование и матчинг
    Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
    Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.

  8. Рекомендашки
    Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
    Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
    Также стоит попробовать обучение с подкреплением: многоруких бандитов.
    Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.

3 months, 2 weeks ago

Стажировка Яндекс (ML&Programming 2024)

Сейчас ребята с нашего прошлого курса по МЛ стали активно проходить собесы и в благодарность делятся задачками.

Условие:
Как построить ROC-кривую (нужен алгоритм), если например, у вас есть правильные ответы и ваши прогнозы?

Решение, которое зачли на собесе в комментариях.

Если хотите предложить задачу/вопрос пишите @vice22821. Также буду очень признателен за тестовые задания на любую позицию (аналитика, разработка, ml, de), готов к обмену или могу расплатиться натурой, в общем договоримся: вы мне, я вам!

4 months ago

Задача с собеса в Яндекс

Сейчас ребята с нашего прошлого курса по МЛ стали активно проходить собесы и в благодарность делятся задачками. Вот такую симпатичную задачку спросили на стажера:

Условие:
Может ли в методе ? ближайших соседей при ? = 2 получиться лучший результат, чем при
? = 1? Отказы от классификации тоже считать ошибками.

Решение, которое зачли на собесе в комментариях.

Если хотите предложить задачу/вопрос пишите @vice22821. Также буду очень признателен за тестовые задания на любую позицию (аналитика, разработка, ml, de), готов к обмену или могу расплатиться натурой, в общем договоримся: вы мне, я вам!

куда: #МЛ
тема: #МЛ

7 months ago

Стажировка в Авито

Прямо сейчас, товарищи, проходит отбор на самую главную стажировку аналитиков сезона. Для участия нужно заполнить анкету до 23 апреля. Специально для вас еще раз пробежимся по всем этапам отбора.

  1. Скрининг резюме
    Как заполнять анкету смотрим обязательно здесь.

  2. Тестовое задание
    Немало простых вопросов по матеше, теор веру, мат стату, а также sql, python. Найдете в конце файла.

  3. Видео интервью
    Раньше на обычные вакансии стажера звонил HR, который просто рассказывал о себе, о процессе отбора, а также уточнял формальные моменты. Похоже для оптимизации процесса это решили проводить в "записи".

  4. Техническое собеседование
    Задачи в лайве на теор вер и мат стат, которые обсуждаются в ролике. Еще могут попасться банальные задачи на парадокс Симпсона.

Авито есть две реĸламные ĸампании в интернете: на сайте А и на сайте Б. На сайте А ĸонверсия выросла, на сайте Б тоже, могла ли совместная ĸонверсия с обоих сайтов упасть. Пример приводили здесь.

Было проведено исследование, что 90% аварий совершают трезвые водители, а 10% пьяные, может ли это значить, что трезвая езда в 9 раз опаснее пьяной езды. Пример здесь.

Потом ждет кейс: АВ тест с уходами в мат стат и продуктовое понимание. Допустим хотим ввести новые фильтры в строке поиска. Как бы вы дизайнили этот эксперимент? Расскажите про формулы mde, t-теста, что такое p-value и тд, какие методы есть чтобы снизить дисперсию, как рассчитать размер выборки и длину (продолжительность теста). Опиши кратко очень словами, как бы ты написал CUPED функцией на питоне. Если прошли курсы, то проблем точно не возникнет.

Перед этим всем конечно еще раз спросят про опыт, конкретно про опыт работы в аналитике. Кратко накинут вопросы типо: как вы справляетесь со сложными задачами? Использовал ли оконки, какие библиотеки в питоне использовали и для чего?

  1. Собеседование на soft skills
    Тот самый behaviour из ролика

  2. Собеседование с руководителем и командой
    Все просто в духе чем занимался, что умеешь и можем ли мы быть тебе интересны.

8 months ago

КАК НАЧАТЬ КАРЬЕРУ В VK

Решаем тестовое задание, товарищи! Главная специфика VK group, что под его крылом собрана куча разных компаний. Потому единой культуры отбора особо нет, но ведь она везде приблизительно одна и та же: тестовое — технические собесы — собесы с командой (менеджерами).
Материал подготовлен в рамках нашего курса по аналитике как рубрика "Готовимся к собесу": ребята сдают задание с реальных собеседований практикующему специалисту, обсуждают все интересующие вопросы, а спустя какое-то время выходит разбор. Вариант тестового в архиве, там же можно посмотреть любопытные решения студентов нашего курса, кстати к нему еще можно присоединиться.

We recommend to visit

По рекламе: @evoanna

Last updated 1 day, 12 hours ago

Сотрудничество по YouTube -
@utopia_agency

@hotdogsup

@sheikhto

@nikelodium

@whiteepr

@ssempaai

@ROMANEPAV

@InfluencelQ

Все происходящее в данном канале является вымыслом и не имеет отношения к реальности. +18

Last updated 2 weeks, 2 days ago

КАНАЛ С НОВОСТЯМИ - @RAIZNEWS

Ставим тут https://csgopositive.me/raiz

Канал с короткими нарезками моментов - https://www.youtube.com/@raizshort

Лицензионный софт - https://soft.store

Last updated 3 months ago