Бизнес блог #1
Выжимаю книги до самой сути.
👉 Реклама - @jaMasha
📇 Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot
🏆 Оставьте след в истории с помощью книги
https://expert-book.pro
Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.
Last updated 8 hours ago
Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru
По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2
Last updated 1 month, 2 weeks ago
➡️Полезные ссылки из видео
Теория:
- Сайт по обучению Python, блок про структуры данных в Python
- Handbook структуры данных (более полная версия)
- Книга «Алгоритмы и структуры данных на Python»
- Книга «Грокаем алгоритмы»
- Handbook от Яндекса, раздел «Основы алгоритмов»
- Статья Сложность алгоритмов и операций на примере Python
- Таблица со сложностями Алгоритмов и Структуры данных
Практика:
- LeetCode
- Codewars
- CodeRun
- Leetcode Top Interview Questions (на структуры данных)
- HackerRank Data Structures
⚙️ Структуры данных и алгоритмы
❗️Помимо того, что эти темы необходимы для успешного прохождения собеседований, особенно в части live-coding, важно в целом быть знакомым с основными структурами данных и алгоритмами.
1️⃣Это позволит вам быстрее и эффективнее писать код
2️⃣Вы будете понимать, когда и какую структуру данных стоит использовать, так как выбор подходящей структуры и алгоритма зачастую напрямую влияет на производительность программы.
➡️Кстати, у DS'ов эти темы часто вызывают затруднения. На собеседованиях примерно 8 из 10 кандидатов сталкиваются с трудностями по этой теме.
➡️Поэтому настоятельно рекомендую посмотреть видео, в котором разбираются как основные алгоритмы, а также пример реализации одного из самых популярных алгоритмов, которых часто задают на собеседованиях для DS!
🤖Как сделать собственного ассистента при помощи RAG
Про то, что такое RAG мы уже писали в этом посте 🤗 А теперь давайте попробуем потренироваться и написать такого ассистента на Python!
Задача — создать виртуального помощника куратора для студентов онлайн-школы. Такой куратор сможет не только отвечать на вопросы студентов, но и предоставлять ответы по лекциям, коду из семинаров и видео-лекциям.
Как в данном случае задействовать образовательный материал и LLM, смотрите в новом видео!
🤓 Регуляризация в деревьях решений. Part 2
В привычном смысле регуляризации, как штрафов на веса (например, в линейных моделях, разбирали в этом посте), в деревьях решений нет. Однако ограничения на структуру дерева выполняют ту же роль, помогая предотвратить переобучение и сделать модель более устойчивой на новых данных.
Напомню, что узлы — точки в дереве, где данные делятся на основе условий (предикат), а листья — конечные узлы дерева, где находятся итоговые предсказания или решения.
Проще сразу рассматривать их в контексте наименований гиперпараметров из sklearn:
➡️Ключевые параметры:
- max_depth — ограничивает глубину дерева. Один из важнейших параметров, предотвращающих избыточное подстраивание под обучающую выборку
- ccp_alpha — используется для постобработки дерева, удаляет узлы с низкой важностью, уменьшая сложность модели. Чем выше значение, тем больше узлов будет удалено
➡️Дополнительные:
- min_samples_split — минимальное количество объектов для разделения узла, предотвращает деление узлов с малым количеством данных, предотвращает излишнюю детализацию
- min_samples_leaf и min_weight_fraction_leaf — задают минимальный размер листьев (кол-во и доля)
- max_leaf_nodes — ограничение на количество листьев
Часть из этих параметров используется и в градиентном бустинге. Я, кстати, очень люблю спрашивать на собеседованиях про его гиперпараметры. Всегда выглядит забавно, когда человек рассказывает про свой опыт в 100500 лет, про суперпроекты, которые он делал с помощью бустинга, а потом впадает в ступор после простого вопроса о гиперпараметрах. Казалось бы, ты же их тюнишь постоянно 🤔
Хотите пост про гиперпараметры бустинга? Ставьте 🔥
Перезапускаем рубрику #дайджест_wbs: теперь больше деталей к каждому из инфоповодов!
Читайте пилотный выпуск и оставляйте реакции на новый формат 🔥💜👍
➡️ Pixtral-Large-Instruct-2411 — новая модель от Mistral
Это более крупная (124B) модель, обновляющая успешный релиз Pixtral 12B, сделавшая огромный скачок в OCR и понимании документов с графиками. Это open-weight модель, не позволяющая свободное использование в коммерческих целях (только в образовательных и исследовательских).
Авторы сообщают о SOTA-результатах на MathVista, DocVQA и VQAv2, которые уже были успешно перебиты Qwen-2-VL 72B (мир DL двигается очень быстро).
➡️ Релиз Stability AI : модели ControlNet для Stable Diffusion 3.5 LargeТеперь можно точно контролировать генерацию изображений:
*▪ Canny: управляет структурой через карту границ, идеально для иллюстраций и скетчей.
*▪ Depth: использует карту глубины для 3D-рендеринга и архитектурной визуализации.
▪ Blur**: обеспечивает качественное увеличение изображений через обработку фрагментов.
Модели совместимы только с SD 3.5 Large (8b). Планируются облегченные 2B-версии и новые типы контроля.
➡️ Nvidia Labs представили SANA
Новый, быстрый и эффективный генератор изображений
до 4K разрешения (4096×4096)
который в 100+ раз быстрее существующих моделей при высоком разрешении и может работать даже на ноутбуке с GPU (16GB памяти).
Генерация высококачественного 1024×1024 изображения занимает менее чем 1 секунду, сама модель маленькая (590M параметров), что упрощает развертывание, открытый исходный код и модель будут доступны публично.
Возможно создатьтвысококачественный визуальный контент локально, без облачных сервисов.
➡️ Smol course — практический курс от Huggingface
Курс демонстрирует методы файн-тюнинга LLM на примере SmolLM2. Не требуется специализированное оборудование и платные сервисы, подойдет для дообучение моделей на обычном пользовательском железе.
➿➿➿➿➿
Комментарии подготовили ML- и DS-специалисты Wildberries 💘
Подписывайтесь, чтобы быть в курсе новостей:*🌟@wb_space📹*@wb_tech
🤓 Регуляризация
Тема актуальная не только для тех, кто занимается классическим машинным обучением, но и Deep Learning. Давайте начнем с основ, которые обычно проходят в начале обучения, это поможет вам понять саму концепцию регуляризации.
Глобально модель может находиться в трех состояниях: недообучение, нормальное обучение и переобучение. Существует несколько способов борьбы с переобучением, и регуляризация — один из таких методов.
➡️Регуляризация — это способ, при котором в функцию потерь добавляется дополнительный штраф. Этот штраф зависит от коэффициента регуляризации и выбранного способа регуляризации. Возможны следующие варианты:
- L1-регуляризация — сумма квадратов весов модели
- L2-регуляризация — сумма модулей весов
- ElasticNet — комбинация L1 и L2 регуляризаций, которая позволяет контролировать оба аспекта
➡️Эти методы наиболее часто применяются в линейных моделях. Однако для деревьев решений и других алгоритмов (ансамбли), такие понятия, как веса перед признаками, отсутствуют. Поэтому для таких моделей методы регуляризации могут отличаться.
➡️Единственный нюанс касается моделей градиентного бустинга, поскольку в этом случае используется схожий подход в регуляризации, направленный на ограничение сложности модели. Например, можно добавить штраф за большое количество листьев в функцию потерь или контролировать веса в листьях с помощью подходов L1 и L2.
Ставь 🔥, чтобы узнать о способах регуляризации в деревьях решений
Самый залайканный коммент под последним видео - про то, что это всё была ПОСТАНОВА с собесом 🙈 Скажу больше: таких комментов — каждый второй. Зато когда парни делают подобного рода контент, мы не сомневаемся, и пишем какие они офигенные! Ох уж эти двойные стандарты 😉
Для меня было бы полнейшей дикостью сделать такую «постанову», это противоречит и моим принципам, и здравому смыслу, и такое вранье - ппц какой удар по бизнесу. Для меня уже было оч нервно идти и притворяться на собесе кем то другим, за что я извинилась перед коллегами в прошлых сообщениях тут))
Кто меня лично хорошо знает, у тех вообще не было сомнений, что все это было реальным экспериментом) Далее доказывать что ты не индюк, только дурак будет)
Но я понимаю, почему так писали. Признать, что не получается найти работу из-за собственных пробелов, тяжело. Кто-то не доучил материал, не разобрался, не приложил максимум усилий, а может, вообще не хочет идти в эту сферу. Тогда и начинаются попытки подогнать реальность под себя. Это большая ошибка, которая мешает достичь цели.
Знаете, как начинается выздоровление у зависимых? С признания проблемы. Без этого двигаться дальше невозможно. Тут то же самое — только вместо болезни это честный взгляд на свои знания и навыки.
Очень много комментов было по поводу того, что вопросы на Junior были слишком сложные. Я в шоке🙈 Теперь понятно, почему некоторые годами не могут устроиться. Они хотят делать только fit-predict и получать за это 300к в месяц. Друзья, так бывает 1 на 1млн, не обольщайтесь, вы в этот 1 млн не попадете.
У нас 4-5 лет назад были ТЕ ЖЕ вопросы + гномики, но сейчас гномиков для части направлений заменили на базовые вопросы по архитектуре Transformer. КАКОЙ КОШМАР 🥲
В общем, пересматривайте и пишите еще больше комментов 🤗🤗🤗 Мне наоборот нравится, когда горят 🍑🔥 есть потом фактура и вдохновение))
P.S.: странно, что никто не заметил ошибку в моем рассказе про Transformer на собесе 🤔 Я ее специально не стала убирать)
💬Тематическое моделирование в NLP
Тематическое моделирование позволяет автоматически обнаруживать и извлекать скрытые темы в текстах. В основе его работы лежат алгоритмы, которые анализируют слова и их связи, выявляя общие темы и паттерны.
➡️ Зачем нужно тематическое моделирование?
Тематическое моделирование позволяет быстро анализировать большие объемы текста, выявляя ключевые темы без ручной классификации. Это особенно полезно для мониторинга трендов, так как помогает отслеживать изменения в общественном мнении и определять новые популярные темы в социальных сетях, новостях.
➡️ Подходы в тематическом моделировании
➖ LDA (Latent Dirichlet Allocation) — один из самых популярных алгоритмов для тематического моделирования. Он моделирует темы как распределения слов, основываясь на статистических паттернах в текстах. LDA позволяет определить, какие слова наиболее вероятно связаны с каждой темой, что делает его мощным инструментом для анализа текстов
➖ NMF (Non-Negative Matrix Factorization) — метод, который раскладывает матрицу документов с текстом на две неотрицательные матрицы. Одна матрица представляет темы, а другая — их связь со словами
➖ Word Embeddings — использование векторных представлений слов, таких как Word2Vec, GloVe, BERT и пр. Эти модели позволяют не только выявлять семантические отношения между словами, но и выполнять более глубокий анализ текстов, учитывая контекст. BERT, в частности, обеспечивает превосходные результаты в понимании сложных текстов благодаря своей способности учитывать предшествующий контекст слов. После получения эмбеддингов используют кластеризацию для разбиения документов на темы.
❗️Помимо прочего можно не останавливаться только на выбранной модели, на подборе ее гиперпараметров, а попробовать подход ансамблирования, который на практике дает результаты лучше. Например, Ensemble Latent Dirichlet Allocation (eLDA) обучает ансамбль моделей, отбрасывая не повторяются темы.
Бизнес блог #1
Выжимаю книги до самой сути.
👉 Реклама - @jaMasha
📇 Хотите свою книгу? Мы напишем её за вас и сделаем книгу бестселлером. Подробности в боте @Summary_library_bot
🏆 Оставьте след в истории с помощью книги
https://expert-book.pro
Фильмы и сериалы со всей планеты. Мы знаем, что посмотреть, где посмотреть и на что сходить в кино.
Last updated 8 hours ago
Все материалы размещены по партнёрской програме ivi.ru | All materials are posted on the partner program ivi.ru
По всем вопросам: @kuzr103
Купить рекламу: https://telega.in/c/k1noxa103
Основной канал: https://t.me/kino_hd2
Last updated 1 month, 2 weeks ago