PyMagic

Description
Data Science / ML / Deep Learning
VK group https://vk.com/club211095898
Advertising
We recommend to visit

Бизнес блог #1
Выжимаю книги до самой сути.

👉 Реклама - @jaMasha

📇 Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot

🏆 Оставьте след в истории с помощью книги
https://expert-book.pro

Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.

Last updated 8 hours ago

Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru

По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2

Last updated 1 month, 2 weeks ago

16 hours ago

➡️Полезные ссылки из видео

Теория:
- Сайт по обучению Python, блок про структуры данных в Python
- Handbook структуры данных (более полная версия)
- Книга «Алгоритмы и структуры данных на Python»
- Книга «Грокаем алгоритмы»
- Handbook от Яндекса, раздел «Основы алгоритмов»
- Статья Сложность алгоритмов и операций на примере Python
- Таблица со сложностями Алгоритмов и Структуры данных

Практика:
- LeetCode
- Codewars
- CodeRun
- Leetcode Top Interview Questions (на структуры данных)
- HackerRank Data Structures

16 hours ago
***⚙️*** Структуры данных и алгоритмы

⚙️ Структуры данных и алгоритмы

❗️Помимо того, что эти темы необходимы для успешного прохождения собеседований, особенно в части live-coding, важно в целом быть знакомым с основными структурами данных и алгоритмами.

1️⃣Это позволит вам быстрее и эффективнее писать код
2️⃣Вы будете понимать, когда и какую структуру данных стоит использовать, так как выбор подходящей структуры и алгоритма зачастую напрямую влияет на производительность программы.

➡️Кстати, у DS'ов эти темы часто вызывают затруднения. На собеседованиях примерно 8 из 10 кандидатов сталкиваются с трудностями по этой теме.

➡️Поэтому настоятельно рекомендую посмотреть видео, в котором разбираются как основные алгоритмы, а также пример реализации одного из самых популярных алгоритмов, которых часто задают на собеседованиях для DS!

https://youtu.be/Wzg3zqndJBU

1 week ago
***🤖***Как сделать собственного [ассистента](https://youtu.be/QtDTUyw8qSk) при помощи …

🤖Как сделать собственного ассистента при помощи RAG

Про то, что такое RAG мы уже писали в этом посте 🤗 А теперь давайте попробуем потренироваться и написать такого ассистента на Python!

Задача — создать виртуального помощника куратора для студентов онлайн-школы. Такой куратор сможет не только отвечать на вопросы студентов, но и предоставлять ответы по лекциям, коду из семинаров и видео-лекциям.

Как в данном случае задействовать образовательный материал и LLM, смотрите в новом видео!

https://youtu.be/QtDTUyw8qSk

1 week, 1 day ago

🤓 Регуляризация в деревьях решений. Part 2

В привычном смысле регуляризации, как штрафов на веса (например, в линейных моделях, разбирали в этом посте), в деревьях решений нет. Однако ограничения на структуру дерева выполняют ту же роль, помогая предотвратить переобучение и сделать модель более устойчивой на новых данных.

Напомню, что узлы — точки в дереве, где данные делятся на основе условий (предикат), а листья — конечные узлы дерева, где находятся итоговые предсказания или решения.

Проще сразу рассматривать их в контексте наименований гиперпараметров из sklearn:

➡️Ключевые параметры:
- max_depth — ограничивает глубину дерева. Один из важнейших параметров, предотвращающих избыточное подстраивание под обучающую выборку
- ccp_alpha — используется для постобработки дерева, удаляет узлы с низкой важностью, уменьшая сложность модели. Чем выше значение, тем больше узлов будет удалено

➡️Дополнительные:
- min_samples_split — минимальное количество объектов для разделения узла, предотвращает деление узлов с малым количеством данных, предотвращает излишнюю детализацию
- min_samples_leaf и min_weight_fraction_leaf — задают минимальный размер листьев (кол-во и доля)
- max_leaf_nodes — ограничение на количество листьев

Часть из этих параметров используется и в градиентном бустинге. Я, кстати, очень люблю спрашивать на собеседованиях про его гиперпараметры. Всегда выглядит забавно, когда человек рассказывает про свой опыт в 100500 лет, про суперпроекты, которые он делал с помощью бустинга, а потом впадает в ступор после простого вопроса о гиперпараметрах. Казалось бы, ты же их тюнишь постоянно 🤔

Хотите пост про гиперпараметры бустинга? Ставьте 🔥

1 week, 3 days ago
Перезапускаем рубрику [**#дайджест\_wbs**](?q=%23%D0%B4%D0%B0%D0%B9%D0%B4%D0%B6%D0%B5%D1%81%D1%82_wbs): теперь больше деталей …

Перезапускаем рубрику #дайджест_wbs: теперь больше деталей к каждому из инфоповодов!

Читайте пилотный выпуск и оставляйте реакции на новый формат 🔥💜👍

➡️ Pixtral-Large-Instruct-2411 — новая модель от Mistral
Это более крупная (124B) модель, обновляющая успешный релиз Pixtral 12B, сделавшая огромный скачок в OCR и понимании документов с графиками. Это open-weight модель, не позволяющая свободное использование в коммерческих целях (только в образовательных и исследовательских).

Авторы сообщают о SOTA-результатах на MathVista, DocVQA и VQAv2, которые уже были успешно перебиты Qwen-2-VL 72B (мир DL двигается очень быстро).

➡️ Релиз Stability AI : модели ControlNet для Stable Diffusion 3.5 LargeТеперь можно точно контролировать генерацию изображений:
* Canny: управляет структурой через карту границ, идеально для иллюстраций и скетчей.
*▪ Depth: использует карту глубины для 3D-рендеринга и архитектурной визуализации.
Blur**: обеспечивает качественное увеличение изображений через обработку фрагментов.

Модели совместимы только с SD 3.5 Large (8b). Планируются облегченные 2B-версии и новые типы контроля.

➡️ Nvidia Labs представили SANA
Новый, быстрый и эффективный генератор изображений
до 4K разрешения (4096×4096)
который в 100+ раз быстрее существующих моделей при высоком разрешении и может работать даже на ноутбуке с GPU (16GB памяти).

Генерация высококачественного 1024×1024 изображения занимает менее чем 1 секунду, сама модель маленькая (590M параметров), что упрощает развертывание, открытый исходный код и модель будут доступны публично.

Возможно создатьтвысококачественный визуальный контент локально, без облачных сервисов.

➡️ Smol course — практический курс от Huggingface
Курс демонстрирует методы файн-тюнинга LLM на примере SmolLM2. Не требуется специализированное оборудование и платные сервисы, подойдет для дообучение моделей на обычном пользовательском железе.

Комментарии подготовили ML- и DS-специалисты Wildberries 💘

Подписывайтесь, чтобы быть в курсе новостей:*🌟@wb_space📹*@wb_tech

1 week, 6 days ago

🤓 Регуляризация

Тема актуальная не только для тех, кто занимается классическим машинным обучением, но и Deep Learning. Давайте начнем с основ, которые обычно проходят в начале обучения, это поможет вам понять саму концепцию регуляризации.

Глобально модель может находиться в трех состояниях: недообучение, нормальное обучение и переобучение. Существует несколько способов борьбы с переобучением, и регуляризация — один из таких методов.

➡️Регуляризация — это способ, при котором в функцию потерь добавляется дополнительный штраф. Этот штраф зависит от коэффициента регуляризации и выбранного способа регуляризации. Возможны следующие варианты:
- L1-регуляризация — сумма квадратов весов модели
- L2-регуляризация — сумма модулей весов
- ElasticNet — комбинация L1 и L2 регуляризаций, которая позволяет контролировать оба аспекта

➡️Эти методы наиболее часто применяются в линейных моделях. Однако для деревьев решений и других алгоритмов (ансамбли), такие понятия, как веса перед признаками, отсутствуют. Поэтому для таких моделей методы регуляризации могут отличаться.

➡️Единственный нюанс касается моделей градиентного бустинга, поскольку в этом случае используется схожий подход в регуляризации, направленный на ограничение сложности модели. Например, можно добавить штраф за большое количество листьев в функцию потерь или контролировать веса в листьях с помощью подходов L1 и L2.

Ставь 🔥, чтобы узнать о способах регуляризации в деревьях решений

3 weeks ago

Самый залайканный коммент под последним видео - про то, что это всё была ПОСТАНОВА с собесом 🙈 Скажу больше: таких комментов — каждый второй. Зато когда парни делают подобного рода контент, мы не сомневаемся, и пишем какие они офигенные! Ох уж эти двойные стандарты 😉

Для меня было бы полнейшей дикостью сделать такую «постанову», это противоречит и моим принципам, и здравому смыслу, и такое вранье - ппц какой удар по бизнесу. Для меня уже было оч нервно идти и притворяться на собесе кем то другим, за что я извинилась перед коллегами в прошлых сообщениях тут))
Кто меня лично хорошо знает, у тех вообще не было сомнений, что все это было реальным экспериментом) Далее доказывать что ты не индюк, только дурак будет)

Но я понимаю, почему так писали. Признать, что не получается найти работу из-за собственных пробелов, тяжело. Кто-то не доучил материал, не разобрался, не приложил максимум усилий, а может, вообще не хочет идти в эту сферу. Тогда и начинаются попытки подогнать реальность под себя. Это большая ошибка, которая мешает достичь цели.

Знаете, как начинается выздоровление у зависимых? С признания проблемы. Без этого двигаться дальше невозможно. Тут то же самое — только вместо болезни это честный взгляд на свои знания и навыки.

Очень много комментов было по поводу того, что вопросы на Junior были слишком сложные. Я в шоке🙈 Теперь понятно, почему некоторые годами не могут устроиться. Они хотят делать только fit-predict и получать за это 300к в месяц. Друзья, так бывает 1 на 1млн, не обольщайтесь, вы в этот 1 млн не попадете.

У нас 4-5 лет назад были ТЕ ЖЕ вопросы + гномики, но сейчас гномиков для части направлений заменили на базовые вопросы по архитектуре Transformer. КАКОЙ КОШМАР 🥲

В общем, пересматривайте и пишите еще больше комментов 🤗🤗🤗 Мне наоборот нравится, когда горят 🍑🔥 есть потом фактура и вдохновение))

P.S.: странно, что никто не заметил ошибку в моем рассказе про Transformer на собесе 🤔 Я ее специально не стала убирать)

1 month, 3 weeks ago

💬Тематическое моделирование в NLP

Тематическое моделирование позволяет автоматически обнаруживать и извлекать скрытые темы в текстах. В основе его работы лежат алгоритмы, которые анализируют слова и их связи, выявляя общие темы и паттерны.

➡️ Зачем нужно тематическое моделирование?

Тематическое моделирование позволяет быстро анализировать большие объемы текста, выявляя ключевые темы без ручной классификации. Это особенно полезно для мониторинга трендов, так как помогает отслеживать изменения в общественном мнении и определять новые популярные темы в социальных сетях, новостях.

➡️ Подходы в тематическом моделировании

LDA (Latent Dirichlet Allocation) — один из самых популярных алгоритмов для тематического моделирования. Он моделирует темы как распределения слов, основываясь на статистических паттернах в текстах. LDA позволяет определить, какие слова наиболее вероятно связаны с каждой темой, что делает его мощным инструментом для анализа текстов

NMF (Non-Negative Matrix Factorization) — метод, который раскладывает матрицу документов с текстом на две неотрицательные матрицы. Одна матрица представляет темы, а другая — их связь со словами

Word Embeddings — использование векторных представлений слов, таких как Word2Vec, GloVe, BERT и пр. Эти модели позволяют не только выявлять семантические отношения между словами, но и выполнять более глубокий анализ текстов, учитывая контекст. BERT, в частности, обеспечивает превосходные результаты в понимании сложных текстов благодаря своей способности учитывать предшествующий контекст слов. После получения эмбеддингов используют кластеризацию для разбиения документов на темы.

❗️Помимо прочего можно не останавливаться только на выбранной модели, на подборе ее гиперпараметров, а попробовать подход ансамблирования, который на практике дает результаты лучше. Например, Ensemble Latent Dirichlet Allocation (eLDA) обучает ансамбль моделей, отбрасывая не повторяются темы.

We recommend to visit

Бизнес блог #1
Выжимаю книги до самой сути.

👉 Реклама - @jaMasha

📇 Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot

🏆 Оставьте след в истории с помощью книги
https://expert-book.pro

Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.

Last updated 8 hours ago

Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru

По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2

Last updated 1 month, 2 weeks ago