Big Data Science [RU]

Description
Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: [email protected]
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career
We recommend to visit

News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://z-library.sk
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official

Last updated 6 months, 2 weeks ago

Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.

For paid promotions and feedback contact us at: @CEOofBelarus

Last updated 1 week, 1 day ago

?Welcome to the best book channel of Telegram.

✨Buy ads: https://telega.io/c/BooksHub25

✨Contact admin ➠ @Bookshub_contact_bot

✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18

1 week, 2 days ago
1 week, 5 days ago
***🤔******💡*****Как Spotify создал платформу для масштабных …

🤔💡Как Spotify создал платформу для масштабных аннотаций: опыт и результаты

Spotify в своей статье How We Generated Millions of Content Annotations поделился кейсом, как удалось масштабировать процесс аннотаций для разработки ML и GenAI моделей. Эти улучшения обеспечили обработку миллионов треков и подкастов, ускорив создание и обновление моделей.

Основные шаги:
1️⃣ Масштабирование человеческой экспертизы:
Основные команды:аннотаторы (первичный обзор), аналитики качества (решение сложных случаев), менеджеры проектов (обучение команд и связь с инженерами).
Автоматизация: внедрили систему на базе больших языковых моделей (LLM) для поддержки аннотаторов, что позволило значительно сократить затраты и усилия.

*2️⃣ Новые инструменты для аннотаций:*

Разработаны интерфейсы для сложных задач (например, аннотация аудио/видео сегментов или текстов).
Созданы метрики для мониторинга: количество выполненных задач, объем данных, продуктивность аннотаторов.
Введен показатель «согласованность» аннотаций, чтобы автоматически отправлять спорные случаи экспертам.

*3️⃣ Интеграция с ML-инфраструктурой:*

Построили гибкую архитектуру с возможностью использовать разные инструменты.
Добавили CLI и UI для быстрого запуска проектов.
Интегрировали аннотации в производственные ML-пайплайны.

*😎Результаты:
Объем аннотаций увеличился в 10 раз.
Производительность аннотаторов выросла в 3 раза.
*Снизилось время запуска новых моделей.

2 weeks ago
***?******?*****Маленькая подборка больших интересных и полезных …

??Маленькая подборка больших интересных и полезных датасетов

Sky-T1-data-17k — разнообразный датасет, предназначенный для обучения модели Sky-T1-32B, являющейся ризонингом модели MiniMax-Text-01, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом

XMIDI Dataset — крупномасштабный музыкальный датасет с точными метками эмоций и жанров. Содержит 108 023 MIDI-файла, являясь крупнейшим из известных наборов данных такого рода

AceMath-Data - семейство датасетов, которые использовались NVIDIA для обучения флагманской модели AceMath-72B-Instruct, которая значительно превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач

2 weeks, 5 days ago
4 weeks ago
*****?******?***Топ подборка полезных инструментов для работы …

*?*?Топ подборка полезных инструментов для работы с данными**

gitingest — это утилита, созданная для автоматизации анализа данных из репозиториев Git. Она позволяет собирать информацию о коммитах, ветках и авторах, а затем преобразовывать её в удобные форматы для интеграции с языковыми моделями (LLM). Инструмент идеально подходит для анализа истории изменений, построения моделей на основе кода и автоматизации работы с репозиториями

datasketch — Python-библиотека для оптимизации работы с большими данными. Она предоставляет вероятностные структуры данных, включая MinHash для оценки схожести Jaccard и HyperLogLog для подсчёта уникальных объектов. Эти инструменты позволяют быстро выполнять задачи, такие как поиск похожих элементов и анализ кардинальности, с минимальными затратами памяти и времени.

Polars — высокопроизводительная библиотека для работы с табличными данными, разработанная на Rust с поддержкой Python. Библиотека интегрируется с NumPy, Pandas, PyArrow, Matplotlib, Plotly, Scikit-learn и TensorFlow. Polars поддерживает фильтрацию, сортировку, слияние, объединение и группировку данных, обеспечивая высокую скорость и эффективность для аналитики и обработки больших объемов данных.

SQLAlchemy — библиотека для работы с базами данных, поддерживающая взаимодействие с PostgreSQL, MySQL, SQLite, Oracle, MS SQL и другими СУБД. Она предоставляет инструменты для объектно-реляционного отображения (ORM), что упрощает управление данными, позволяя разработчикам работать с объектами Python вместо написания SQL-запросов, а также поддерживает гибкую работу с "сырыми" SQL для сложных сценариев.

SymPy — библиотека для работы с символьной математикой в Python. Она позволяет выполнять операции над выражениями, уравнениями, функциями, матрицами, векторами, полиномами и другими объектами. С помощью SymPy можно решать уравнения, упрощать выражения, вычислять производные, интегралы, приближения, подстановки, факторизации, а также работать с логарифмами, тригонометрией, алгеброй и геометрией.

DeepChecks — это Python-библиотека для автоматизированной проверки моделей и данных машинного обучения. Она выявляет проблемы с производительностью моделей, целостностью данных, несоответствием распределений и другими аспектами. DeepChecks позволяет легко создавать кастомные проверки, а результаты визуализируются в удобных таблицах и графиках, упрощая анализ и интерпретацию.

Scrubadub — Python-библиотека, предназначенная для обнаружения и удаления персонально идентифицируемой информации (PII) из текста. Она может распознавать и скрывать такие данные, как имена, номера телефонов, адреса, номера кредитных карт и многое другое. Инструмент поддерживает настройку правил и может быть интегрирован в различные приложения для обработки конфиденциальных данных.

1 month ago
1 month ago
*****?***Чем же отличаются Smart Data от …

*?Чем же отличаются Smart Data от Big Data?*

В статье What’s Smart data and how it’s different from Big data? автор рассматривает особенности "Умных Данных". Ниже мы приведем свое видение этой концепции (оно может отличаться, а может и совпадать?).

Итак, Smart Data — это концепция, ориентированная на обработку, анализ и использование данных с учетом их актуальности, качества и пользы для принятия решений. В отличие от Big Data, где акцент делается на объем, Smart Data фокусируется на извлечении ценной информации из огромного массива данных.

*?Особенности Smart Data:
*✅Качество данных: Отбор только релевантных, точных и структурированных данных
Контекстуальность: Данные обрабатываются с учетом их значимости для конкретной задачи
Аналитика в реальном времени:** Smart Data используются для возможности быстрого принятия решений

*?Преимущества:
*✅Эффективность: Экономия ресурсов за счет работы только с нужными данными
Персонализация: Возможность адаптировать услуги под конкретные потребности
Меньше ошибок:** Фокус на высоком качестве данных снижает риски получения некорректных результатов

*?Однако не все так радужно, есть и недостатки:
*✅Этические и правовые вопросы: Работа с персональными данными несет риски нарушения конфиденциальности и неправомерного использования информации. Это может привести к штрафам и утрате доверия
Высокая зависимость от качества данных: Если исходные данные неполные, неточные или устаревшие, результаты анализа могут вводить в заблуждение и ухудшить принятие решений
Высокая стоимость внедрения: Требуется инвестиция в технологии, время и квалифицированный персонал
Проблемы интерпретации результатов: Даже с качественными данными аналитика может быть сложной для понимания неэкспертами, что требует дополнительных затрат на обучение сотрудников
Технические сбои:** Инфраструктура для обработки данных может быть уязвима к сбоям, что особенно критично при работе с реальными процессами, такими как управление в финансовой или медицинской сфере​

*?Таким образом*, Smart Data — это про осмысленное использование данных для достижения конкретных целей. Эта концепция позволяет компаниям не только справляться с информационным шумом, но и получать конкурентные преимущества. Однако внедрение требует продуманной стратегии и ресурсов, иначе есть риск понести огромные убытки

3 months, 1 week ago
We recommend to visit

News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://z-library.sk
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official

Last updated 6 months, 2 weeks ago

Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.

For paid promotions and feedback contact us at: @CEOofBelarus

Last updated 1 week, 1 day ago

?Welcome to the best book channel of Telegram.

✨Buy ads: https://telega.io/c/BooksHub25

✨Contact admin ➠ @Bookshub_contact_bot

✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18