Start Career in DS

Description
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev
Advertising
We recommend to visit
Roxman
Roxman
10,496,004 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 1 day, 18 hours ago

HAYZON
HAYZON
5,764,933 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 1 week, 6 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago

1 month, 2 weeks ago
***?*** **E-CUP от Ozon Tech**

? E-CUP от Ozon Tech

Ozon Tech запускает масштабное соревнование для ML-разработчиков в сфере e-com с призовым фондом 1 200 000 рублей!

Задачи основаны на реальных бизнес-кейсах Ozon Tech, нужно решить одну задачу на выбор:

1️⃣ Матчинг товаров. Разработать ML-модель, которая по названиям, атрибутам и картинкам определит, одинаковые ли товары.
2️⃣ Модерация изображений с запрещенными элементами. Разработать ML-модель, которая вне зависимости от стилистики изображения (фото, рисунок) определит наличие на нём сигареты и других соответствующих атрибутов.

Условия участия:

▫️ В соревнованиях можно участвовать одному или в команде до 5 человек
*▫️ Заявку нужно *подать до 18 августа включительно
▫️ Старт E-CUP 19 августа
▫️ На решение задачи есть 3 недели

Финалистами соревнования станут топ-5 решений в каждом кейсе, которые будут приглашены на питч-сессию, где команда экспертов Ozon Tech определят победителей?

1 month, 4 weeks ago

*? (1/2) Transformer в задачах НЕ текстовой модальности*

В прошлом постемы разбирали архитектуру Transformer в рамках работы с текстом. Сегодня поговорим про то, как Transformer может работать с другими модальностями.
?О терминологии: мультимодальность - способность модели работать с несколькими модальностями одновременно: текст, аудио, видео, изображение.

?Изображение:
Трансформер изначально создавался для работы с текстом. Однако, в статье Vision Transformer (ViT)даннаяархитектура была успешно адаптирована к работе с изображениями.
Особенности: изображение разбивается на маленькие куски (патчи), которые затем обрабатываются как последовательность. Ключевой слой Self-Attention помогает модели учитывать отношения между различными патчами изображения.

Затем появились мультимодальные модели LLaVA и CLIP, способные принимать на вход изображение и текстовый промпт. Такой подход позволил моделям решать задачуimage captioning(описание изображения) и классифицировать изображения без дообучения. Более подробно про это тут.

*?Аудио:
Ключевой моделью на базе
Transformer в работе с аудио является Whisper от OpenAI.
Особенности: аудиосигнал преобразуется в спектрограмму или векторные представления, которые затем обрабатываются трансформером. Self-Attention* позволяет модели выделять важные фрагменты звука.

Модель решает задачи распознавания речи (ASR), анализа звуковых сигналов и преобразование аудио в текст (Speech to Text).

*?Видео:
В работе с видео
трансформеры строятся на архитектурах ViViT и TimeSFormer.
Особенности: видео разбивается на последовательности кадров, которые обрабатываются как патчи изображений с учетом времени. Self-Attention* учитывает как пространственные, так и временные связи между кадрами.

Модели подобных архитектур могут решать задачи анализа и классификации видео и генерации описаний к ним.

*?Дополнительное чтиво:*
- Статья на Хабре про первую настоящую мультимодальную модель gpt-4o
- Про ViT для новичков читайте тут
- Подробные обзоры про ViT-like архитектуры для более продвинутых
- Распознавание речи, генерация субтитров и изучение языков при помощи Whisper на Хабре для практиков
- Подробный разбор, про ViViT и TimeSFormer, чтобы въехать
- Gitbook про трансформеры для более продвинутых (много дополнительного материала и кода)

Ставьте лайки❤️ и огоньки? для следующих крутых постов!
Пишите свои комментарии! До встречи??

2 months ago

? Карьерные консультации: что это и для чего оно может быть нужно?

Мы предлагаем делить карьерные консультации на 2 типа:

1️⃣ Карьерные консультации от HR, например, можно найти в Careerspace, Ancor, HRTime. HR сможет:

▫️ Разработать карьерную стратегию: план действий, который поможет найти/сменить работу или сферу.
▫️ Написать резюме так, чтобы оно прошло первичный скрининг hr.
▫️ Предоставить актуальные данные о рынке труда и трендах — какой процесс поиска работы, на какую зарплату можно расчитывать, в каких компаниях больше перспектив и тд.

2️⃣ Карьерные консультации от специалиста в сфере DS. Найти можно в сервисах Эйч, Хабр Карьера или HeadHunter. В последнем сервисе можно также найти HR консультанта.
Сразу отметим, что это не менторство или наставничество, а именно разовая консультация. Специалист из индустрии сможет:

▫️ Провести мок-интерьвью, рассказать что в данный момент спрашивают чаще всего.
▫️ Дать специализированные советы. Пример, вам интересен FinTech. Вы можете найти соответствующего специалиста, он расскажет про DL в финтехе, оценит ваши навыки и подскажет точки роста.
▫️ Нетворкинг. Есть вероятность получить полезные контакты и рекомендации, что может ускорить процесс поиска работы.

Возможные минусы:

- Примерная стоимость консультаций от 7к до 50к и выше. Нужно внимательно выбирать компанию или частного консультанта, если бюджет на поиск работы ограничен.

- Консультации не помогут, если у вас недостаточно внутренней мотивации и дисциплины. Консультант не найдет работу за вас, нужно самостоятельно откликаться на вакансии и ходить на собесы ?

А что вы думаете про карьерные консультации?
Ставьте ❤️, если было интересно и нужны ещё посты на эту тему)

2 months ago

*? Про рекламу в SCiDS*

Привет! На связи создатель канала Рома Васильев и команда канала Start Career in DS

Вы уже заметили, что в последнее время в канале появились рекламные посты, поэтому сегодня хотим поговорить про рекламу.

?‍? Чтобы продолжать создавать качественный контент, мы собрали команду энтузиастов для поиска материалов и контента. Реклама в канале помогает нам поддерживать нашу команду, продолжать развиваться и делится с вами полезной информацией

? Мы считаем, что реклама должна быть полезной для вас, поэтому тщательно фильтруем рекламные материалы и не публикуем всё подряд. Наша цель рассказать вам про интересные, доступные и актуальные для вас вещи.

Мы планируем рекомендовать в первую очередь хакатоны (которые полезны для вашего резюма) и места, в которые потенциально можно попасть бесплатно (есть бюджетные места), например, наш пост про магистратуру от ИТМО и Napoleon IT. Мы с ответственностью подходим к качеству контента и сами редактируем все рекламные тексты под стиль канала, чтобы вам было комфортно нас читать. Кроме того, будем стараться ограничиваться максимум 2-3 рекламными постами в месяц.

С заботой о вас, команда канала Start Career in DS ❤️

2 months, 1 week ago

Продолжаем вспоминать математику

На прошлой неделе рассказывали вам про освоениебазовой математики. Сегодня продолжаем тему и делимся ресурсами более продвинутого уровня про разделы математики необходимые для работы в сфере DS. Что ещё можно изучить, кроме курсов Карпова по статистике, про которые мы уже рассказывали в канале:

? Статья про базовые понятия статистики для науки о данных. Краткое перечисление часто встречающихся понятий в DS. Можно читать и по порядку углубленно изучать каждую тему.

? Теория вероятностей. Книга + видео. Тут всё просто, никаких предварительных знаний не требуется, можно начинать изучать хоть сейчас.

? Сборник задач по теории вероятностей (с решениями). Если уже знакомы с темой, то можно приступать к задачам.

? [ENG] Линейная алгебра. Простые объяснения базовых понятий, очень коротко, наглядно и доступно. Достаточно для первичного погружения в тему.

? [ENG] Линейная алгебра от MIT в связке с ML. Если разобрались с основами линейной алгебры в предыдущих видео, то тут можно продолжить изучение темы именно в направлении ML.

? Математическая статистика. Запись курса лекций по математической статистике от МФТИ (Лектор — доц. И.В. Родионов), подробно и основательно разберётесь в теме, если вам комфортен формат много часового видео.

?‍? Курс по математическому анализу от МГЛУ.
Первая часть и Вторая часть. Глубокое погружение в тему, для старта не обязательно, но в будущем можно освоить.

?‍? Платформы где можно попрактиковаться в решении задач: линейная алгебра + ML/DL и статистика и теория вероятности. Теория дело хорошее, но без практики никуда.

Использовали что-то из этой подборки?) Делитесь в комментариях своими рекомендациями и ставьте ❤️

4 months, 2 weeks ago
Yandex приглашает поучаствовать в Practical ML …

Yandex приглашает поучаствовать в Practical ML Conf 14 сентября!

На конференции поговорим о том, как применять ML-технологии в бизнесе и реальных продуктах. Регистрируйтесь уже сейчас — те, кто сделает это раньше всех, попадут на закрытый мини-ивент в июле.

А если хотите поделиться своим опытом в ML, станьте спикером, оставив заявку. Ключевые темы конференции — CV, RecSys, MLOps, NLP, Speech и Analytics. После подачи программный комитет рассмотрит заявки и примет решение об участии каждого претендента.

? Сбор заявок завершится 13 июля.

Реклама. ООО "Яндекс", ИНН 7736207543.

4 months, 2 weeks ago

?‍? Открытый курс по прикладной статистике от Академии Аналитиков Авито (часть первая)

Ребята из Авито сделали крутой курс по прикладной статистике.
А мы специально для вас разбили его на блоки! Можете выбрать то, что интересно именно вам и пойти освежить знания по теме ?
1. Статистический критерий
1.1 Статистический критерий1.2 Создание статистических критериев в Python1.3 Cтатистический критерий уровня статзначимости α1.4. Двусторонние критерии
2. Статистическая мощность
2.1. Статистическая мощность2.2. Мощность для задачи про доставку2.3. Minimum Detectable Effect - MDE2.4. Доверительный интервал2.4/1. Доверительный интервал. Продолжение2.4/2. Доверительный интервал Уилсона2.5. Алгоритм проверки гипотез

3. Z-test
3.1. Критерии сравнения средних3.2. Z-test3.3. Занятие со звездочкой, Z-test

4. T-test
4.1. Критерии сравнения средних. T-критерий Стьюдента4.2. T-test4.3. Доверительный интервал4.4. АБ-тесты. Двувыборочный Т-test4.5. MDE для T-test
5. Метод Монте-Карло
5.1. Метод Монте-Карло5.2. Метод Монте-Карло (на исторических данных)5.3. Метод Монте-Карло (определение мощности на исторических данных)

Вот здесь можно найти ноутбуки по курсу

Накидайте ? это посту если хотите больше материалов по прикладной статистике ?

YouTube

1.1. Статистический критерий

00:00 Пример и постановка задачи прикладной статистики06:14 Нулевая и альтернативная гипотезы, статистика критерия10:29 Формулировка статистического критерия...

4 months, 3 weeks ago

? Как понять честная ли монетка/случайно ли работает алгоритм?

Классическая задачка, которую в разных вариациях часто спрашивают на собеседованиях.

Вот в этом видео можно подробно на экспериментах понять как оно работает: видео
Вот здесь можно проверить свою интуицию и самостоятельно попробовать половить обманщиков на монетках: тык

Если коротко, алгоритм такой (и он очень похож на процесс проведения АВ тестов!):
1. Фиксируем ошибку 1 и 2 рода.
Ошибка 1 рода = как часто мы будем ошибочно говорить что монетка нечестная, когда она честная. Обычно берут за 0.05
Ошибка 2 рода = как часто мы будем ошибочно говорить что монетка честная, когда она нечестная. Обычно берут за 0.2

2. Считаем требуемый объём выборки. Это хорошо бы уметь делать руками, но для тренировки есть калькуляторы, например этот
В нашем случае он зависит от трех факторов: ошибки 1 и 2 рода (которую мы выбрали на шаге 1) и MDE (минимального эффекта, который мы хотим наблюдать). К примеру, если мы видеть отклонение монетки на 20% (если вероятность орла 0.6 место 0.5), то нам нужно 93 подбарсывания, а если хотим видеть отклонение монетки на 10% (вероятность орла 0.55 место 0.5), то нужно уже 388 подбрасываний

3. Проводим эксперимент - ряд подбрасываний монетки согласно рассчитанному в пункте 2 числу

4. Считаем с какой вероятностью мы могли получить такое или более критическое значение (долю орлов/решки) при условии, что монетка честная. Если это значение получается больше 0.05, то говорим, что монетка нечестная, а если меньше 0.05 - говорим, что в условиях нашго теста мы не можем сказать, что монетка нечестная
Это значение называется p-value. А как его считать - вы можете как раз подробно посмотреть в видео

YouTube

How To Catch A Cheater With Math

Try catching cheaters yourself: https://primerlearning.org/Support these videos on Patreon: https://www.patreon.com/primerlearningPlush blobs and other stuff...

5 months ago

? Топовое видео про архитектуру бэкенда

Как мы рассказывали в этом посте, отличный способ погрузиться в data science – начать свой проект. Вот [ENG] классная мотивирующая статья от Пола Грэма, в которой он рассказывает, как создать Гугл (спойлер: делать проекты)

Но каждый проект, помимо аналитических и ml-ных штук, требует грамотной бэкенд архитектуры. Часто нет знакомого бэкендера, который готов за бесплатно написать всю оболочку для вашего pet-проекта, и приходится самим погружаться во все это (но это на самом деле хорошо, потому что так вы получаете знания, благодаря которым, например, в соло сможете быстро развернуть mvp своего стартапа)

Недавно в рекомендациях встретил видео, в котором чувак очень просто рассказывает про современную архитектуру бэкенда:
– базы данных
– http, rest
– кэш
– микросервисы
– репликации
– балансеры
– брокеры сообщений
и т. д.

Если вы хотите делать свои проекты – обязательно посмотрите этот видос, даже если вы новичок.

Ставьте огоньки под этот пост?, если он вам понравился, и сердечки ❤️, если вы хотите больше постов про pet-проекты/стартапы

YouTube

Как Сделать Лучший Пет-Проект | Архитектура Бекенда за 1 час

БЕСПЛАТНЫЙ ВЕБИНАР "10 НАВЫКОВ, ЧТОБЫ ТОЧНО ПОЛУЧИТЬ РАБОТУ JAVA JUNIOR" 23 МАЯ В 19:00! Регистрируйся по ссылке ниже, расскажем какие hard и soft skills развивать в первую очередь, чего ждут от тебя и твоего резюме работодатели и где брать опыт работы! После…

We recommend to visit
Roxman
Roxman
10,496,004 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 1 day, 18 hours ago

HAYZON
HAYZON
5,764,933 @hayzonn

💼 How to create capital and increase it using cryptocurrency

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ 𝐎𝐧𝐞 𝐋𝐨𝐯𝐞: @major
🍀 𝐌𝐲 𝐜𝐡𝐚𝐧𝐧𝐞𝐥𝐬: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 1 week, 6 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago