News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://z-library.sk
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official
Last updated 6 months, 2 weeks ago
Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.
For paid promotions and feedback contact us at: @CEOofBelarus
Last updated 1 week, 1 day ago
?Welcome to the best book channel of Telegram.
✨Buy ads: https://telega.io/c/BooksHub25
✨Contact admin ➠ @Bookshub_contact_bot
✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18
🤔💡Как Spotify создал платформу для масштабных аннотаций: опыт и результаты
Spotify в своей статье How We Generated Millions of Content Annotations поделился кейсом, как удалось масштабировать процесс аннотаций для разработки ML и GenAI моделей. Эти улучшения обеспечили обработку миллионов треков и подкастов, ускорив создание и обновление моделей.
Основные шаги:
1️⃣ Масштабирование человеческой экспертизы:
✅Основные команды:аннотаторы (первичный обзор), аналитики качества (решение сложных случаев), менеджеры проектов (обучение команд и связь с инженерами).
✅Автоматизация: внедрили систему на базе больших языковых моделей (LLM) для поддержки аннотаторов, что позволило значительно сократить затраты и усилия.
*2️⃣ Новые инструменты для аннотаций:*
✅Разработаны интерфейсы для сложных задач (например, аннотация аудио/видео сегментов или текстов).
✅Созданы метрики для мониторинга: количество выполненных задач, объем данных, продуктивность аннотаторов.
✅Введен показатель «согласованность» аннотаций, чтобы автоматически отправлять спорные случаи экспертам.
*3️⃣ Интеграция с ML-инфраструктурой:*
✅Построили гибкую архитектуру с возможностью использовать разные инструменты.
✅Добавили CLI и UI для быстрого запуска проектов.
✅Интегрировали аннотации в производственные ML-пайплайны.
*😎Результаты:
✅Объем аннотаций увеличился в 10 раз.
✅Производительность аннотаторов выросла в 3 раза.
✅*Снизилось время запуска новых моделей.
??Маленькая подборка больших интересных и полезных датасетов
Sky-T1-data-17k — разнообразный датасет, предназначенный для обучения модели Sky-T1-32B, являющейся ризонингом модели MiniMax-Text-01, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом
XMIDI Dataset — крупномасштабный музыкальный датасет с точными метками эмоций и жанров. Содержит 108 023 MIDI-файла, являясь крупнейшим из известных наборов данных такого рода
AceMath-Data - семейство датасетов, которые использовались NVIDIA для обучения флагманской модели AceMath-72B-Instruct, которая значительно превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач
*?*?Топ подборка полезных инструментов для работы с данными**
gitingest — это утилита, созданная для автоматизации анализа данных из репозиториев Git. Она позволяет собирать информацию о коммитах, ветках и авторах, а затем преобразовывать её в удобные форматы для интеграции с языковыми моделями (LLM). Инструмент идеально подходит для анализа истории изменений, построения моделей на основе кода и автоматизации работы с репозиториями
datasketch — Python-библиотека для оптимизации работы с большими данными. Она предоставляет вероятностные структуры данных, включая MinHash для оценки схожести Jaccard и HyperLogLog для подсчёта уникальных объектов. Эти инструменты позволяют быстро выполнять задачи, такие как поиск похожих элементов и анализ кардинальности, с минимальными затратами памяти и времени.
Polars — высокопроизводительная библиотека для работы с табличными данными, разработанная на Rust с поддержкой Python. Библиотека интегрируется с NumPy, Pandas, PyArrow, Matplotlib, Plotly, Scikit-learn и TensorFlow. Polars поддерживает фильтрацию, сортировку, слияние, объединение и группировку данных, обеспечивая высокую скорость и эффективность для аналитики и обработки больших объемов данных.
SQLAlchemy — библиотека для работы с базами данных, поддерживающая взаимодействие с PostgreSQL, MySQL, SQLite, Oracle, MS SQL и другими СУБД. Она предоставляет инструменты для объектно-реляционного отображения (ORM), что упрощает управление данными, позволяя разработчикам работать с объектами Python вместо написания SQL-запросов, а также поддерживает гибкую работу с "сырыми" SQL для сложных сценариев.
SymPy — библиотека для работы с символьной математикой в Python. Она позволяет выполнять операции над выражениями, уравнениями, функциями, матрицами, векторами, полиномами и другими объектами. С помощью SymPy можно решать уравнения, упрощать выражения, вычислять производные, интегралы, приближения, подстановки, факторизации, а также работать с логарифмами, тригонометрией, алгеброй и геометрией.
DeepChecks — это Python-библиотека для автоматизированной проверки моделей и данных машинного обучения. Она выявляет проблемы с производительностью моделей, целостностью данных, несоответствием распределений и другими аспектами. DeepChecks позволяет легко создавать кастомные проверки, а результаты визуализируются в удобных таблицах и графиках, упрощая анализ и интерпретацию.
Scrubadub — Python-библиотека, предназначенная для обнаружения и удаления персонально идентифицируемой информации (PII) из текста. Она может распознавать и скрывать такие данные, как имена, номера телефонов, адреса, номера кредитных карт и многое другое. Инструмент поддерживает настройку правил и может быть интегрирован в различные приложения для обработки конфиденциальных данных.
*?Чем же отличаются Smart Data от Big Data?*
В статье What’s Smart data and how it’s different from Big data? автор рассматривает особенности "Умных Данных". Ниже мы приведем свое видение этой концепции (оно может отличаться, а может и совпадать?).
Итак, Smart Data — это концепция, ориентированная на обработку, анализ и использование данных с учетом их актуальности, качества и пользы для принятия решений. В отличие от Big Data, где акцент делается на объем, Smart Data фокусируется на извлечении ценной информации из огромного массива данных.
*?Особенности Smart Data:
*✅Качество данных: Отбор только релевантных, точных и структурированных данных
✅Контекстуальность: Данные обрабатываются с учетом их значимости для конкретной задачи
✅Аналитика в реальном времени:** Smart Data используются для возможности быстрого принятия решений
*?Преимущества:
*✅Эффективность: Экономия ресурсов за счет работы только с нужными данными
✅Персонализация: Возможность адаптировать услуги под конкретные потребности
✅Меньше ошибок:** Фокус на высоком качестве данных снижает риски получения некорректных результатов
*?Однако не все так радужно, есть и недостатки:
*✅Этические и правовые вопросы: Работа с персональными данными несет риски нарушения конфиденциальности и неправомерного использования информации. Это может привести к штрафам и утрате доверия
✅Высокая зависимость от качества данных: Если исходные данные неполные, неточные или устаревшие, результаты анализа могут вводить в заблуждение и ухудшить принятие решений
✅Высокая стоимость внедрения: Требуется инвестиция в технологии, время и квалифицированный персонал
✅Проблемы интерпретации результатов: Даже с качественными данными аналитика может быть сложной для понимания неэкспертами, что требует дополнительных затрат на обучение сотрудников
✅Технические сбои:** Инфраструктура для обработки данных может быть уязвима к сбоям, что особенно критично при работе с реальными процессами, такими как управление в финансовой или медицинской сфере
*?Таким образом*, Smart Data — это про осмысленное использование данных для достижения конкретных целей. Эта концепция позволяет компаниям не только справляться с информационным шумом, но и получать конкурентные преимущества. Однако внедрение требует продуманной стратегии и ресурсов, иначе есть риск понести огромные убытки
News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://z-library.sk
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official
Last updated 6 months, 2 weeks ago
Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.
For paid promotions and feedback contact us at: @CEOofBelarus
Last updated 1 week, 1 day ago
?Welcome to the best book channel of Telegram.
✨Buy ads: https://telega.io/c/BooksHub25
✨Contact admin ➠ @Bookshub_contact_bot
✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18