Задачи DS - Собеседования, Соревнования, ШАД

Description
Чат: @zadachi_ds_chat
Реклама: @menshe_treh
We recommend to visit

По рекламе: @evoanna

Канал в реестре: https://clck.ru/3FCQe8

Last updated 1 month ago

Сотрудничество по YouTube/Telegram/TikTok - [email protected]

@bada99bada

@hotdogsup

@sheikhto

@nikelodium

@whiteepr

@ssempaai

@ROMANEPAV

@pahangoro

Все происходящее в данном канале является вымыслом и не имеет отношения к реаль

Last updated 2 days ago

КАНАЛ С НОВОСТЯМИ - @RAIZNEWS

Ставим тут https://csgopositive.me/raiz

Канал с короткими нарезками моментов - https://www.youtube.com/@raizshort

Лицензионный софт - https://soft.store

Last updated 1 month, 2 weeks ago

2 days, 17 hours ago
1 week ago
1 week, 2 days ago

Ответики🤡****
1.

x = init for \_ in range(iterations): gradient = 2 * x x = x \- learning\_rate * gradient return round(x, 3)

градиент функции(простая производная) в текущей точке и обновляем значение x, вычитая из него произведение градиента и скорости обучения

Когда приближаемся к минимуму, есть риск перешагнуть через него, поэтому при подсчёте новой точки размер шага нужно изменять
Это можно сделать, просто домножая градиент на какое-то маленькое число на learning rate a.k.a «коэффициент обучения», «скорость обучения», бывает, встречается название «размер шага» или «длина шага»
Формально это не так, потому что фактический размер шага равен произведению этого коэффициента и градиента функции:)

Градиентный спуск минимизирует функцию потерь, улучшая точность модели линейной регрессии

GD минимизирует функцию стоимости модели нейронной сети во время обучения
Обучение происходит во время обратного распространения ошибки при обучении модели на основе нейронной сети
По этой теме можно упомянуть про Adagrad, RMSprop и Adam(про оптимизаторы тут)
Из модификаций стандартного GD можно выделить ускоренные градиентные методы: метод тяжёлого шарика, метод Нестерова, сопряженных градиентов, SGD, Proximal методы

```
class Node:
def init(self, value: int):
self.value = value
self.next = None

class LinkedList:
def init(self):
self.head = None

def get(self, index: int) \-> int: current = self.head count = 0 while current is not None: if count == index: return current.value current = current.next count += 1 return \-1 def insertHead(self, val: int) \-> None: new\_node = Node(val) new\_node.next = self.head self.head = new\_node def insertTail(self, val: int) \-> None: new\_node = Node(val) if not self.head: self.head = new\_node return current = self.head while current.next is not None: current = current.next current.next = new\_node def remove(self, index: int) \-> bool: if index < 0: return False if index == 0: if self.head is not None: self.head = self.head.next return True else: return False current = self.head count = 0 while current is not None and count < index \- 1: current = current.next count += 1 if current is None or current.next is None: return False current.next = current.next.next return True def getValues(self) \-> list[int]: values = [] current = self.head while current is not None: values.append(current.value) current = current.next return values

```

@zadachi_ds
ПоступашкиML

2 months, 3 weeks ago
Поступашки продолжают набор на курс по …

Поступашки продолжают набор на курс по линейной алгебре!

Хочешь поступить в ШАД или магистратуру, затащить олимпиаду? Или просто мечтаешь стать крутым специалистом, тащить собесы, но не хватает фундамента? Тогда тебе к нам! Курс заточен под практику и решения задач, вся теория будет разобрана на конкретных задачах и примерах, которые будут на экзаменах и на собесах. На курсах вас ждут куча авторских задач для подготовки с разбором, доступ к закрытой базе заданий ШАДа, разбор реального контеста в ШАД, разбор ВСЕХ задач с собеседований в ШАД, Ai Masters, ААА, эксклюзивные материалы для проверяющих с собесов и много других приятных бонусов. А после прохождения курса тебя ждет пробный экзамен, собес с подробной консультацией и дальнейшим сопровождением ВПЛОТЬ до поступления в место мечты?

Более того, ты сможешь получить ВСЕ ДЕНЬГИ потраченные на курс обратно, если первым решишь все домашние задания ??

Курс длится 8 недель, каждую неделю по 2 урока, огромное количество дополнительного контента, более 40 часов уроков с последующим доступом к записям и ДЗ с проверкой. На семинарах с каждым учеником общаются по очереди, полноценное общение как здесь (никаких дурацких чатов, преподаватель лично выслушивает твои решения). Ежедневная связь, пробные собесы, экзамены, персональные рекомендации, инсайды и домашнее задание с проверкой, код ревью и с разбором от преподавателя, который отвечает даже после завершения курса! Все будет еще круче, чем на всех прошлый курсах (отзывы тут). Все для того, чтобы поступить в ШАД/ топовую магу уже летом или мы вернем потраченные деньги!

Программа и формат: чтобы ознакомиться с программой курса, посмотреть на то, как выглядят наши лекции и семинары, просто переходите на страницу курса.

Цена 7500р за курс, до 7 ноября, далее повышение цены до 8500р. Если покупали наши курсы ранее, то цена 7000р. Если же покупали аналогичный курс, но хотите больше новых задач и материалов, то новый курс (материал полностью обновлен и расширен) обойдется вам всего за 5000 р!

Даты: начала курса 10.11

Как купить: приобрести курс и задать вопросы можно по данному адресу: @menshe_treh

Еще курсы серии:
*➡️алгоритмыстарт 10.11
➡️математический анализ старт 17.11➡️***теория вероятностей старт 03.11

4 months, 3 weeks ago

Олимпиада по ИИ для учеников 8-11 классов поможет раскрыть потенциал в IT-сфере

А ещё — посетить экскурсии в ведущие IT-компании, мастер-классы и встретиться с экспертами из Ассоциации «Альянс в сфере искусственного интеллекта»

Отборочный и основной этапы пройдут в формате онлайн на платформе All Cups от VK. Скорее регистрируйтесь по ссылке — ловите удачу за хвост

5 months, 2 weeks ago

Эти пет проекты должен сделать каждый ML специалист

Устроиться можно попасть и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна.
Уже делали подобную подборку для аналитиков здесь, советую присмотреться.

  1. Кредитный скоринг
    Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
    Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.

  2. Наивный Байесовский классификатор (НБК)
    Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
    Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:

  3. Вычисляем вероятность для каждого слова в тексте и отфильтровываем слова со значением вероятности меньше порогового. Такие слова будут нерелевантными.
  4. Для каждого слова в словаре создаём вероятность, что это слово окажется в спаме. Определяем условную вероятность для использования её в НБК.
  5. Вычисляем прогнозируемый результат с помощью условных вероятностей.
    НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.

  6. MLOps
    Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.

  7. Ранжирование и матчинг
    Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
    Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.

  8. Рекомендашки
    Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
    Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
    Также стоит попробовать обучение с подкреплением: многоруких бандитов.
    Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.

5 months, 3 weeks ago

Стажировка Яндекс (ML&Programming 2024)

Сейчас ребята с нашего прошлого курса по МЛ стали активно проходить собесы и в благодарность делятся задачками.

Условие:
Как построить ROC-кривую (нужен алгоритм), если например, у вас есть правильные ответы и ваши прогнозы?

Решение, которое зачли на собесе в комментариях.

Если хотите предложить задачу/вопрос пишите @vice22821. Также буду очень признателен за тестовые задания на любую позицию (аналитика, разработка, ml, de), готов к обмену или могу расплатиться натурой, в общем договоримся: вы мне, я вам!

6 months, 1 week ago

Задача с собеса в Яндекс

Сейчас ребята с нашего прошлого курса по МЛ стали активно проходить собесы и в благодарность делятся задачками. Вот такую симпатичную задачку спросили на стажера:

Условие:
Может ли в методе ? ближайших соседей при ? = 2 получиться лучший результат, чем при
? = 1? Отказы от классификации тоже считать ошибками.

Решение, которое зачли на собесе в комментариях.

Если хотите предложить задачу/вопрос пишите @vice22821. Также буду очень признателен за тестовые задания на любую позицию (аналитика, разработка, ml, de), готов к обмену или могу расплатиться натурой, в общем договоримся: вы мне, я вам!

куда: #МЛ
тема: #МЛ

We recommend to visit

По рекламе: @evoanna

Канал в реестре: https://clck.ru/3FCQe8

Last updated 1 month ago

Сотрудничество по YouTube/Telegram/TikTok - [email protected]

@bada99bada

@hotdogsup

@sheikhto

@nikelodium

@whiteepr

@ssempaai

@ROMANEPAV

@pahangoro

Все происходящее в данном канале является вымыслом и не имеет отношения к реаль

Last updated 2 days ago

КАНАЛ С НОВОСТЯМИ - @RAIZNEWS

Ставим тут https://csgopositive.me/raiz

Канал с короткими нарезками моментов - https://www.youtube.com/@raizshort

Лицензионный софт - https://soft.store

Last updated 1 month, 2 weeks ago