Start Career in DS

Description
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev
Advertising
We recommend to visit
HAYZON
HAYZON
6,053,581 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 3 weeks, 1 day ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 2 weeks, 2 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago

1 month, 4 weeks ago

🦜*🔗LangСhain - библиотека, расширяющая возможности LLM*

Недавно в нашем канале был опубликован пост Hugging Face Hub и библиотека transformers, а сегодня мы хотим расширить тему наиболее популярных инструментов при работе с LLM и расскажем про ключевые особенности библиотеки и всей экосистемы LangChain.

LangСhain - популярная библиотека, которая упрощает разработку LLM-Driven приложений, предоставляя все необходимые инструменты для создания агентских систем, цепочек вызовов и взаимодействия языковых моделей с внешними API.

Основные особенности LangChain:

*1️⃣ RAG (Retrieval Augmented Generation)В нашем предыдущем посте мы рассказывали про концепцию создания RAG-систем. LangChain оснащен всеми необходимыми инструментами для построения классического RAG.
Например, перед вами поставили задачу построить QnA чат-бота в онлайн-поддержке. С помощью
LangChain вы сможете сформировать правильную базу знаний из источников, по которым должен отвечать бот, и на пользовательский запрос находить релевантные части потенциальных ответов для дальнейшей генерации конечного ответа LLM’кой. *2️⃣ Chains (цепочки)
LangСhain запросто позволяет создавать последовательности операций (цепочки) для задач обработки естественного языка, которые могут состоять из различных этапов обращений к LLM, использованию внешних API и составления промптов.
Такой подход может использоваться абсолютно в любой задаче, где процесс обработки пользовательского запроса моделью имеет цепочечный вид: запрос пользователя -> формирование промптов для модели -> получение ответа модели -> преобразование ответа и вывод.
Более детально про цепочки в
LangChain** читайте из официальной документации.

*3️⃣ Агентские системы
Концепция Агентов сейчас набирает большую популярность в задачах, где LLM могут использоваться для решения более сложных задач, нежели просто генерация текста.
Например, дать возможность LLM вызывать API прогноза погоды для предоставления актуальной информации пользователю по данному вопросу. В роли API может выступать более продвинутые инструменты - базы данных, несколько API, пользовательские функции.
LangChain* расширяет возможности работы LLM в такой роли и упрощает разработку агентских-систем.

4️⃣ LangGraph
Это дополнительная библиотека в экосистеме LangChain, которая позволяет создавать рабочие процессы на основе графов. Сюда может входить, как создание рабочих цепочек, исполняющихся агентом, так и формирование графов знаний, который могут выступать заменой классическим базам знаний в RAG.
🔥Введение в LangGraph смотрите тутитут

5️⃣ LangSmith
Среда для создания LLM-Driven приложений, которая объединяет все инструменты экосистемы LangChain, а также даёт возможность визуально отслеживать и улучшать разработку таких приложений.
Например, отображает RAG-пайплайн и выводит логи на каждом шаге.
🔥 Изучение LangSmith можете начать тут и тут

📌 Что ещё стоит изучить:
- Серия практикоориентированных постов на Хабре по созданию AI-агентов с помощью LangChain
- Официальный LangChain CookBook с огромным количеством реализаций различных задачек с LLM под капотом
- Как создана концепция экосистемы из официальной страницы - Дополнительно про агенты читайте здесь

В следующем посте хотим рассказать про особенности AI-Агентов на базе LLM!
Ставьте:
🔥 - если текущий пост был полезен!
❤️ - если ждете следующий!
До встречи👋🏻

2 months ago

🧠 Про критическое мышление

Знание статистики, умение программировать и пользоваться Pandas - всё это необходимые навыки для успешной работы в DS. Но одним из ключевых софтовых навыков является умение критически мыслить.

Для успешной карьеры в DS важно понимать задачи бизнеса, правильно задавать вопросы, смотреть на проблему под разными углами и делать выводы полезные для бизнеса.

*👇Как критическое мышление можно проявлять в работе DS'a:*

📎 Задавать вопросы про природу процессов и данных.
Важно искать смысл за данными и понимать что они за собой несут. Разобраться откуда данные пришли, почему возникли пропущенные значения и тд, и только после этого использовать какие-либо алгоритмы

📎 Придумывать альтернативы. Стараться понимать какой смысл за моделями стоит и, когда и какую из них применять. Самое простое решение во многих задачах классического ML - взять градиентный бустинг и применить, но это может быть не самым логичным решенем для вашей задачи. Нужно понимать что стоит за данными, думать наперед и понимать как этот алгоритм будет применяться дальше

📎 Отслеживать тенденции в своей области. Прежде чем приступать к задаче, проверьте в интернете кто и как делал эту задачу до вас. К примеру, если вы строите модель предсказания спроса, то вероятно кто-то уже строил эту модель. Можно сэкономить время на ошибках и сделать работу эффективнее, если провести предварительную подготовку

📎 Расширять кругозор. Очень круто читать и анализировать профильную литературу и научные статьи, смотреть какие новые методы появляются в сфере и как можно их использовать. Однако важно не только разбираться в технической части, но и узнавать как новые методы будут интегрироваться в бизнес и в продукт, то есть - понимать как это будет выглядеть на практике и на что повлияет. Тут можем порекомендовать несколько книжек по теме ▶️

Расширить кругозор в области применения машинного обучения:
📚 Машинное обучения для бизнеса и маркетинга - отличная книжка, которая проведёт вас по основам машинного обучения в практически всех областях (не только маркетинга!)

Понять что такое критическое мышление в общем смысле этого слова:
📚 Гарри Поттер и методы рационального мышления - история про то, как всем известная история могла бы пойти по другому пути

---
Мы стараемся делать контент более разнообразным и полезным для вас! И нам важна обратная связь 🙂

Поставьте ❤️ этому посту, если вам нравится периодически почитывать про софты и 👍, если хотите больше технических материалов

2 months ago

☁️ **RAG: концепция [Ч.1]

🚫** Современные LLM обладают впечатляющими навыками решать новые задачи без необходимости обучения. Однако, если в тренировочном датасете были данные или факты, имеющие временную изменчивость, то ответы модели могут приводить к галлюцинациям.

📌 Базовый пример: мы хотим, чтобы LLM отвечала по внутренним документам нашей компании для помощи клиентам.

Очевидно, что любая LLM не имеет точных и актуальных знаний для правильного ответа на любые запросы подобного рода, поэтому и была придумана RAG-концепция.

🔍 RAG (Retrieval Augmented Generation) - метод поиска и извлечения релевантных данных по пользовательскому запросу из внешней или внутренней базы знаний с целью расширить контекст модели актуальной информацией.

🗂 В качестве базы знаний тут могут выступать различные структурированные (базы данных, таблицы) и неструктурированные (книги, журналы, документы) источники информации.

❗️Глобально RAG помогает решать не только проблему актуализации данных, но при этом экономит много ресурсов и времени для продукта, если бы задача обновления знаний решалась через дообучение LLM.

Разберем основные части RAG:

- Retrieval - часть системы, которая отвечает за поиск и извлечение информации, так и называют — ретривер (retriever).
- Retrieval Augmented — дополнение запроса пользователя найденной релевантной информацией.
- Retrieval Augmented Generation — генерация ответа пользователю с учетом дополнительно найденной информацией.

📚 Дополнительное чтиво:
- Простое объяснение RAG на Хабре- Подробно о генерации с дополненной выборкой на AWS Amazon - GPT и RAG технологии в Базе знаний InKnowledge

В следующих частях данной серии поговорим про современные подходы к построению RAG, а также от нашей команды вы получите общий справочник по данной теме.
Ставьте ❤️ и 🔥 за интересный пост!
До встречи👋

4 months, 3 weeks ago

*? (1/2) Transformer в задачах НЕ текстовой модальности*

В прошлом постемы разбирали архитектуру Transformer в рамках работы с текстом. Сегодня поговорим про то, как Transformer может работать с другими модальностями.
?О терминологии: мультимодальность - способность модели работать с несколькими модальностями одновременно: текст, аудио, видео, изображение.

?Изображение:
Трансформер изначально создавался для работы с текстом. Однако, в статье Vision Transformer (ViT)даннаяархитектура была успешно адаптирована к работе с изображениями.
Особенности: изображение разбивается на маленькие куски (патчи), которые затем обрабатываются как последовательность. Ключевой слой Self-Attention помогает модели учитывать отношения между различными патчами изображения.

Затем появились мультимодальные модели LLaVA и CLIP, способные принимать на вход изображение и текстовый промпт. Такой подход позволил моделям решать задачуimage captioning(описание изображения) и классифицировать изображения без дообучения. Более подробно про это тут.

*?Аудио:
Ключевой моделью на базе
Transformer в работе с аудио является Whisper от OpenAI.
Особенности: аудиосигнал преобразуется в спектрограмму или векторные представления, которые затем обрабатываются трансформером. Self-Attention* позволяет модели выделять важные фрагменты звука.

Модель решает задачи распознавания речи (ASR), анализа звуковых сигналов и преобразование аудио в текст (Speech to Text).

*?Видео:
В работе с видео
трансформеры строятся на архитектурах ViViT и TimeSFormer.
Особенности: видео разбивается на последовательности кадров, которые обрабатываются как патчи изображений с учетом времени. Self-Attention* учитывает как пространственные, так и временные связи между кадрами.

Модели подобных архитектур могут решать задачи анализа и классификации видео и генерации описаний к ним.

*?Дополнительное чтиво:*
- Статья на Хабре про первую настоящую мультимодальную модель gpt-4o
- Про ViT для новичков читайте тут
- Подробные обзоры про ViT-like архитектуры для более продвинутых
- Распознавание речи, генерация субтитров и изучение языков при помощи Whisper на Хабре для практиков
- Подробный разбор, про ViViT и TimeSFormer, чтобы въехать
- Gitbook про трансформеры для более продвинутых (много дополнительного материала и кода)

Ставьте лайки❤️ и огоньки? для следующих крутых постов!
Пишите свои комментарии! До встречи??

4 months, 4 weeks ago

? Карьерные консультации: что это и для чего оно может быть нужно?

Мы предлагаем делить карьерные консультации на 2 типа:

1️⃣ Карьерные консультации от HR, например, можно найти в Careerspace, Ancor, HRTime. HR сможет:

▫️ Разработать карьерную стратегию: план действий, который поможет найти/сменить работу или сферу.
▫️ Написать резюме так, чтобы оно прошло первичный скрининг hr.
▫️ Предоставить актуальные данные о рынке труда и трендах — какой процесс поиска работы, на какую зарплату можно расчитывать, в каких компаниях больше перспектив и тд.

2️⃣ Карьерные консультации от специалиста в сфере DS. Найти можно в сервисах Эйч, Хабр Карьера или HeadHunter. В последнем сервисе можно также найти HR консультанта.
Сразу отметим, что это не менторство или наставничество, а именно разовая консультация. Специалист из индустрии сможет:

▫️ Провести мок-интерьвью, рассказать что в данный момент спрашивают чаще всего.
▫️ Дать специализированные советы. Пример, вам интересен FinTech. Вы можете найти соответствующего специалиста, он расскажет про DL в финтехе, оценит ваши навыки и подскажет точки роста.
▫️ Нетворкинг. Есть вероятность получить полезные контакты и рекомендации, что может ускорить процесс поиска работы.

Возможные минусы:

- Примерная стоимость консультаций от 7к до 50к и выше. Нужно внимательно выбирать компанию или частного консультанта, если бюджет на поиск работы ограничен.

- Консультации не помогут, если у вас недостаточно внутренней мотивации и дисциплины. Консультант не найдет работу за вас, нужно самостоятельно откликаться на вакансии и ходить на собесы ?

А что вы думаете про карьерные консультации?
Ставьте ❤️, если было интересно и нужны ещё посты на эту тему)

5 months ago

*? Про рекламу в SCiDS*

Привет! На связи создатель канала Рома Васильев и команда канала Start Career in DS

Вы уже заметили, что в последнее время в канале появились рекламные посты, поэтому сегодня хотим поговорить про рекламу.

?‍? Чтобы продолжать создавать качественный контент, мы собрали команду энтузиастов для поиска материалов и контента. Реклама в канале помогает нам поддерживать нашу команду, продолжать развиваться и делится с вами полезной информацией

? Мы считаем, что реклама должна быть полезной для вас, поэтому тщательно фильтруем рекламные материалы и не публикуем всё подряд. Наша цель рассказать вам про интересные, доступные и актуальные для вас вещи.

Мы планируем рекомендовать в первую очередь хакатоны (которые полезны для вашего резюма) и места, в которые потенциально можно попасть бесплатно (есть бюджетные места), например, наш пост про магистратуру от ИТМО и Napoleon IT. Мы с ответственностью подходим к качеству контента и сами редактируем все рекламные тексты под стиль канала, чтобы вам было комфортно нас читать. Кроме того, будем стараться ограничиваться максимум 2-3 рекламными постами в месяц.

С заботой о вас, команда канала Start Career in DS ❤️

5 months ago

Продолжаем вспоминать математику

На прошлой неделе рассказывали вам про освоениебазовой математики. Сегодня продолжаем тему и делимся ресурсами более продвинутого уровня про разделы математики необходимые для работы в сфере DS. Что ещё можно изучить, кроме курсов Карпова по статистике, про которые мы уже рассказывали в канале:

? Статья про базовые понятия статистики для науки о данных. Краткое перечисление часто встречающихся понятий в DS. Можно читать и по порядку углубленно изучать каждую тему.

? Теория вероятностей. Книга + видео. Тут всё просто, никаких предварительных знаний не требуется, можно начинать изучать хоть сейчас.

? Сборник задач по теории вероятностей (с решениями). Если уже знакомы с темой, то можно приступать к задачам.

? [ENG] Линейная алгебра. Простые объяснения базовых понятий, очень коротко, наглядно и доступно. Достаточно для первичного погружения в тему.

? [ENG] Линейная алгебра от MIT в связке с ML. Если разобрались с основами линейной алгебры в предыдущих видео, то тут можно продолжить изучение темы именно в направлении ML.

? Математическая статистика. Запись курса лекций по математической статистике от МФТИ (Лектор — доц. И.В. Родионов), подробно и основательно разберётесь в теме, если вам комфортен формат много часового видео.

?‍? Курс по математическому анализу от МГЛУ.
Первая часть и Вторая часть. Глубокое погружение в тему, для старта не обязательно, но в будущем можно освоить.

?‍? Платформы где можно попрактиковаться в решении задач: линейная алгебра + ML/DL и статистика и теория вероятности. Теория дело хорошее, но без практики никуда.

Использовали что-то из этой подборки?) Делитесь в комментариях своими рекомендациями и ставьте ❤️

We recommend to visit
HAYZON
HAYZON
6,053,581 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 3 weeks, 1 day ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 2 weeks, 2 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago