Рассказываю про крипту и инвестиции на понятном языке.
Сотрудничество — @TGowner999
Больше информации о нашей сети: https://t.me/TGownerTOP
Last updated 1 месяц, 4 недели назад
Утро начинается не с кофе.
Сотрудничество: @evoanna (по всем вопросам, только мне писать)
Канал в реестре: https://clck.ru/3FCQfU
Last updated 2 недели назад
Самые любимые рецепты для Вас!
Контакт: @khaitbayev
Доверенные менеджеры тут:
https://t.me/+reWsclRikXIxOTcy
Ссылка для приглашения: https://t.me/+wsrt9bX3G1U3Zjg6
Last updated 1 месяц, 1 неделя назад
Примеры пет-проектов
Помните, я писал, что начале пути в резюме для нас важно иметь хорошие проекты, потому что естественно опыта работы скорей всего нет (это ведь начало пути)
Я тут подумал, и накидал несколько идей для проектов:
1️⃣Предсказание числа задержанных авиарейсов
Данные: Flight Delay Data
Бейзлайн: Линейная регрессия
Что делаем:
- Грузим и готовим данные, также обрабатываем пропущенные значения.
- Генерация признаков: делаем много логичных признаков
- Отбор признаков: оставляем место только для самых важных признаков (время года, погодные условия, категории авиакомпаний).
- Разбиение данных на train / OOS (out-of-sample) / OOT (out-of-time).
- Обучаем базовую модельку.
Улучшение:
- Использование деревянных моделей: Random Forest Regressor или любой бустинг, имя которого нам нравится.
- Можно потыкать в фичи, отражающие временные зависимости с применением скользящих средних и лагов.
Скиллы, которые можно прокачать: Прогнозирование временных рядов, Feature Engineering, работа с табличными данными.
2️⃣Анализ тональности отзывов
Данные: IMDb Reviews
Бейзлайн: Naive Bayes
Что делаем:
- Загрузка и очистка данных: токенизация текста, удаление стоп-слов.
- Преобразуем текста в векторы или численные признаки: TF-IDF, word2vec.
- Тут достаточно взять один трейн и одну валидацию.
- Обучение наивного Байеса
- Можно попробовать поработать над интерпретацией результатов.
Улучшение:
- Применяем RNN, LSTM или GRU просто посмотреть, что будет.
- И только потом переходим к трансформерам типа BERT.
Скиллы, которые можно прокачать: NLP, обработка текста, классификация, интерпретация моделей.
3️⃣Поиск аномалий в данных кредитных карт
Данные: Credit Card Fraud Detection
Бейзлайн: Дерево решений, ну или тупо kNN
Что делаем:
- Грузии и обрабатываем пропущенные значения (для этой задачи особо важно рассмотреть разные виды), нормализация.
- Работаем с признаками - здесь надо поискать корреляции и собирать пары признаков.
- Разбиваем по возможности на train / OOS / OOT.
- Обучаем наши простенькие модельки.
- Пробуем полученные зависимости и флаги прокинуть в признаки.
Улучшение:
- Использование методов кластеризации (допустим, DBSCAN).
- Применение ансамблей (Isolation Forest, Local Outlier Factor). Если берете градиентный бустинг, то надо тюнить!
Скиллы, которые можно прокачать: Поиск аномалий, работа с несбалансированными данными.
4️⃣Рекомендательная система
Данные: MovieLens Dataset
Бейзлайн: Коллаборативная фильтрация (Matrix Factorization)
Что делаем:
- Классически обрабатываем табличные данные.
- Строим item-user matrix.
- По возможности засовываем туда SVD (singular value decomposition).
Улучшение:
- Переход к методам ALS (Alternating Least Squares).
- Берем весь скоуп рекомендательных моделей, про которые вы слышали и делаем фит-предикт
Скиллы, которые можно прокачать: Рекомендательные системы, матричное разложение, нейросетевые методы.
5️⃣Распознавание объектов на изображениях
Данные: Тупо CIFAR-10 Dataset ну или любой другой с кагглов
Бейзлайн: Любая (желательно самописная) CNN сеточка
Что делаем:
- Загрузка и нормализация изображений.
- Построение базового CNN с несколькими сверточными и pooling слоями.
- Разбиение данных на тренировку и валидацию.
- Обучаем модели с использованием Cross Entropy Loss.
Улучшение:
- Использование более сложных моделей типа ResNet. Также берем все, что знаем и наваливаем побольше эпох
- Применение Transfer Learning с использованием предобученных моделей (VGG, Inception).
Скиллы, которые можно прокачать: Обработка изображений, сверточные нейронные сети, Transfer Learning.
Вообще все зависит от вашего воображения. Делайте огромные EDA, пробуйте крутить гиперпараметры, искать ошибки в предсказаниях и интерпретации. Делайте крутые визуализации! В общем, просто кайфуйте - вы можете прокачать любой скилл, главное, чтобы было желание и время ?
Заметьте, ни в одном из проектов я не упомянул LLM! Но это не значит, что с ними нельзя повозиться. Вон тем более Мистраль сделали бесплатный API. Так что крутость наших проектов зависит только от нас ?
Telegram
asisakov
РЕЗЮМЕ Часть 2 Начало выше ***⬆️*** 4. Проекты Здесь есть некоторое пересечение с тем, что было описано уже в рабочих проектах. Это скорее подходит для проектов, которые вы делали в свободное время. Например, у вас есть классный пет-проект, который помогает…
Всё, что нужно знать про собеседования в Data Science
Можно с уверенностью сказать, что каждый из вас не раз сталкивался с собеседованиями, или в будущем с ними столкнется. Я потихоньку писал для вас серию постов, которая поможет:
Итак, сверху вниз и по порядку публикаций:
Для всех этих постов я использовал информацию, которую собирал по несколько лет в своем другом канале. При этом я также постарался в каждой из глав раскрыть основные моменты, структуру и обязательно приводить примеры.
На все это у меня ушло больше, чем полгода и все это время я вкладывал частичку души в текст (или даже мануал), который теперь будет вам помогать топово готовиться к собеседованиям. Уверен, это будет полезно!
Лайк, шер, репост и комментарии приветствуются!
Telegram
asisakov
СОБЕСЕДОВАНИЯ Часть 1 *Здесь и далее рассматриваются DS-позиции. Выбрал нотацию DS (Data Scientist) именно потому, что она является собирательной, но отражающей конкретное направление в IT. Нередко замечаю комментарии, что найти первую работу для человека…
Low Battery
Сегодня выскочил пуш в углу экрана ноутбука с намеком, что пора бы подзарядиться - иначе он скоро выключится. Внезапно у меня возникла ассоциация с усталостью человека (или даже выгоранием). Давайте попробуем через эту парадигму рассмотреть варианты, что же делать, если мы очень близки к состоянию усталости.
When your Mac warns you about a low battery, it’s crucial to take immediate steps to prevent losing your work and shutting down unexpectedly. Here are pieces of advice to help you handle this situation:
Save Your Work Immediately (заканчиваем быстрые и срочные дела)
- Цель: Самое главное правильно распределить остаток усилий - если мы закомитились что-то сделать срочно, давайте займемся этими задачами, пока у нас ещё есть энергия.
- Действие: Отвечаем на срочные вопросы, отвлекаемся от того, что требуется в будущем. Одновременно разгружаем голову - получаем топливо в виде легкого дофамина за быстро сделанные задачи и при этом сохраняем ответственный подход.
Close Unnecessary Applications (дропаем нецелевые активности)
- Цель: Освобождаем голову еще глубже от всего, что сидит внутри - домашние дела или другие активности.
- Действие: Допустим, кроме рабочих задач у нас накопилась еще куча остального контекста, на который нам нужно потратить энергию. Надо ли звонить по поводу записи именно сейчас? Если тяжело выявить приоритеты, вспоминаем квадрат Декарта и отвечаем на вопросы о важности и срочности дел. Скорее всего большинство из того, что просто грузило нашу голову мы запишем на стикеры, приклеим у монитора и вернемся к этим моментам при необходимости.
Краткосрочно мы высвободили некоторое время на размышления и погружение в причины усталости
Если же мы не можем так просто взять и переключиться на долгий отдых, давайте заряжаться и снижать долговременную нагрузку
Стоит также понимать, что все эти вопросы требуют более глубокой проработки. Усталость, это не страшно - возможно надо дать себе временную передышку, а возможно надо полностью перестроить свой образ жизни. Все зависит от наших целей. Страшно, когда уже ничего не помогает - давайте не будет доходить до такого состояния.
Желаю всем больше заботиться о себе!
Telegram
asisakov
Анализ и принятие решений Часть 2 Начало выше ***⬆️*** Третий глоток. После того, как мы поняли нашу боль, нам надо это переформулировать в виде цели для проработки. И если "мало времени тратим на exploration" вроде и говорит о чем-то, но не располагает к действию…
Собеседования по ту сторону экрана
В последнее время я проводил много (ну ладно, немного) собеседований
Если вы когда-либо находились на собсеседовании по ту сторону экрана, вы знаете, что это довольно сложная задача. При этом целью собеседования могут быть совсем разные вещи: проверить экспертность в определенных темах, оценить софт-скиллы и прошлый опыт, понять вообще подходит ли по вайбу человек. Проблемой может быть чёткое определение того, что же именно мы ищем в будущем сотруднике: нечетко сформулированные критерии -> неправильный выбор кандидата.
Допустим, мы ищем кандидата с топовыми навыками аналитики или разработки, но как точно это оценить за час?
На все эти вопросы у каждого человека будет свой ответ и это нормально. Потому что у нас у всех разный стиль работы и личные качества, которые необходимы для того, чтобы эту работу топово выполнять. Даже если мы заранее составим идеальный профиль кандидата, то как правильно на него ориентироваться? Какой порог от всех качеств необходим и достаточен для прохождения интервью? Какие навыки обязательны?
На самом деле на эти вопросы можно ответить уже перед интервью. Но ответы будут постоянно меняться с процессом прохождения кандидатов по вашей воронке. И поэтому проводить собесы важно и для того, чтобы скорректировать свои критерии оценки при последующих интервью. Потихоньку мы заметим, что у нас появилась способность быстро оценивать людей и их навыки, подстраивать вопросы под ситуацию и необходимые цели.
Тут я бы хотел подытожить, что в определенный момент этот навык становится необходимым и чем быстрее вы для себя выстроите оптимальную стратегию отбора кандидатов, тем проще вам будет в будущем.
Предлагаю накидать в комментарии наиболее эффективные способы отбора подходящих кандидатов. Надеюсь всем будет полезно!
Давайте разберём каждый пункт чуть глубже, постараюсь по каждому накинуть по примеру.
Очень часто мы начинаем строить модель, не полностью понимая, для чего она нужна или какую проблему мы решаем. Это может привести к тому, что мы тратим время на модели, которые решают совсем не ту задачу. Также часто случается такое, что заказчик в итоге хотел решать совсем другую задачу. Поэтому важно погрузиться в причины появления задачи и затем уже принимать решение о том, а что же мы хотим сделать. Допустим, мы прогнозируем спрос на товары. Прежде чем начать, надо провести встречу с бизнесом и уточнить, что они понимают под спросом - фактические продажи или восстановленный спрос. Один лишь ответ на этот вопрос может значительно поменять способ сбора данных для построения модели.
Пока мы будем уделять время обработке данных, обучать и тюнить сложные бустинги, нейросетки, крутить под них параметры и признаки, может пройти большое количество времени. Иногда достаточно попробовать простые методы (даже замена последними значениями), чтобы получить неплохие результаты и уже начинать применять их. Допустим, нам нужно быстро протестировать с нуля идею применения рекомендашек. Вместо возни с тяжелыми моделями можно затестить простую вещь: рекомендовать пользователям товары, которые в топе по продажам (ну понятно, что надо убрать пакеты). Но даже так мы имеем хоть какие-то рекомендации.
Ну или 20% признаков могут дать 99% точности. Просто давайте выкинем мусорные фичи и накатим хороший процесс отбора признаков. И вот теперь нам не нужно тянуть в прод большинство неиспользуемых признаков. И интерпретировать проще! Из примеров - мы строим модель оттока (churn). Возможно всего лишь 2 признака, которые хранят информацию о последней покупке, могут аффектить на churn сильнее, чем остальные все вместе взятые признаки (даже транзакции).
На самом деле соотносится с пунктом 2. Сделали быструю модель, покрутили, протестировали. И если все хорошо, за то время, пока мы исследуем другие подходы, эта модель может принести неплохой аплифт к нашим метрикам. Нашли другой неплохой подход? Протестировали, выкатили и давайте дальше - наш итеративный процесс уже помогает в проде. К примеру, как только базовая модель наших рекомендаций заработает, давайте накатим умный постпроцессинг или составим модель покруче. Далее пробуем усложнять модели или делать их комбинации.
Метрики важны, но они не должны быть единственным критерием успеха. Важно понимать бизнес-контекст и логичность модели. Если мы своими рекомендациями растим количество продаж, то это может вылиться в большое количество продаж с отрицательной маржой. При это модель выполнит и перевыполнит KPI и продемонстрирует отличные метрики, но бизнесу будет неприятно.
Это один из путей к улучшению модели. Анализ наших расхождений в прогнозе и факте в каждом конкретном случае или в группе случаев помогает выявить слабые места и понять, в какую сторону копать. Допустим, наша прогнозная модель часто ошибается в праздники. Давайте попробуем учесть распределения этих праздников в прошлые года для того, чтобы скорректироваться. На крайняк - делаем руками.
Иногда оказывается, что изначально выбранная постановка задачи не является решением предполагаемой бизнес-задачи. Ничего страшного в том, чтобы поменять таргеты, либо вообще откатимся назад и начнем сначала. Гораздо страшней выкатить не ту модель и потратить на это дополнительные ресурсы. Например, вместо копания сложных моделей для предсказания числа курьеров можно переключиться на предсказание числа заказов и после этого моделирования числа курьеров.
Все эти советы основаны на реальном опыте, возможно вы и сами в будущем все это прочувствуете. Надеюсь, было полезно!
Рассказываю про крипту и инвестиции на понятном языке.
Сотрудничество — @TGowner999
Больше информации о нашей сети: https://t.me/TGownerTOP
Last updated 1 месяц, 4 недели назад
Утро начинается не с кофе.
Сотрудничество: @evoanna (по всем вопросам, только мне писать)
Канал в реестре: https://clck.ru/3FCQfU
Last updated 2 недели назад
Самые любимые рецепты для Вас!
Контакт: @khaitbayev
Доверенные менеджеры тут:
https://t.me/+reWsclRikXIxOTcy
Ссылка для приглашения: https://t.me/+wsrt9bX3G1U3Zjg6
Last updated 1 месяц, 1 неделя назад