Big Data Science [RU] / Books / Telegram Index

Open in telegram

☆☆☆☆☆

⚑ Report channel

1,876 @bdscience_ru

Description

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: [email protected]
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

We recommend to visit

Z-Library Official ?

617.627 @zlibrary_official

News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://z-library.sk
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official

Last updated hace 1 año, 7 meses

Intel Slava Z

421.876 @intelslava

Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.

For paid promotions and feedback contact us at: @CEOofBelarus

Last updated hace 1 año, 1 mes

Books Hub: Ebook & Audiobook

303.870 @bookshub25

💫Welcome to the best book channel of Telegram.

✨Buy ads: https://telega.io/c/BooksHub25

✨Contact admin ➠ @Bookshub_contact_bot

✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18

1 year, 1 month ago

142 #

1 year, 1 month ago

🤔💡Как Spotify создал платформу для масштабных аннотаций: опыт и результаты

Spotify в своей статье How We Generated Millions of Content Annotations поделился кейсом, как удалось масштабировать процесс аннотаций для разработки ML и GenAI моделей. Эти улучшения обеспечили обработку миллионов треков и подкастов, ускорив создание и обновление моделей.

Основные шаги:
1️⃣ Масштабирование человеческой экспертизы:
✅Основные команды:аннотаторы (первичный обзор), аналитики качества (решение сложных случаев), менеджеры проектов (обучение команд и связь с инженерами).
✅Автоматизация: внедрили систему на базе больших языковых моделей (LLM) для поддержки аннотаторов, что позволило значительно сократить затраты и усилия.

*2️⃣ Новые инструменты для аннотаций:*

✅Разработаны интерфейсы для сложных задач (например, аннотация аудио/видео сегментов или текстов).
✅Созданы метрики для мониторинга: количество выполненных задач, объем данных, продуктивность аннотаторов.
✅Введен показатель «согласованность» аннотаций, чтобы автоматически отправлять спорные случаи экспертам.

*3️⃣ Интеграция с ML-инфраструктурой:*

✅Построили гибкую архитектуру с возможностью использовать разные инструменты.
✅Добавили CLI и UI для быстрого запуска проектов.
✅Интегрировали аннотации в производственные ML-пайплайны.

*😎Результаты:
✅Объем аннотаций увеличился в 10 раз.
✅Производительность аннотаторов выросла в 3 раза.
✅*Снизилось время запуска новых моделей.

250 #

1 year, 1 month ago

??Маленькая подборка больших интересных и полезных датасетов

Sky-T1-data-17k — разнообразный датасет, предназначенный для обучения модели Sky-T1-32B, являющейся ризонингом модели MiniMax-Text-01, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом

XMIDI Dataset — крупномасштабный музыкальный датасет с точными метками эмоций и жанров. Содержит 108 023 MIDI-файла, являясь крупнейшим из известных наборов данных такого рода

AceMath-Data - семейство датасетов, которые использовались NVIDIA для обучения флагманской модели AceMath-72B-Instruct, которая значительно превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач

166 #

1 year, 1 month ago

263 #

1 year, 1 month ago

*?*?Топ подборка полезных инструментов для работы с данными**

gitingest — это утилита, созданная для автоматизации анализа данных из репозиториев Git. Она позволяет собирать информацию о коммитах, ветках и авторах, а затем преобразовывать её в удобные форматы для интеграции с языковыми моделями (LLM). Инструмент идеально подходит для анализа истории изменений, построения моделей на основе кода и автоматизации работы с репозиториями

datasketch — Python-библиотека для оптимизации работы с большими данными. Она предоставляет вероятностные структуры данных, включая MinHash для оценки схожести Jaccard и HyperLogLog для подсчёта уникальных объектов. Эти инструменты позволяют быстро выполнять задачи, такие как поиск похожих элементов и анализ кардинальности, с минимальными затратами памяти и времени.

Polars — высокопроизводительная библиотека для работы с табличными данными, разработанная на Rust с поддержкой Python. Библиотека интегрируется с NumPy, Pandas, PyArrow, Matplotlib, Plotly, Scikit-learn и TensorFlow. Polars поддерживает фильтрацию, сортировку, слияние, объединение и группировку данных, обеспечивая высокую скорость и эффективность для аналитики и обработки больших объемов данных.

SQLAlchemy — библиотека для работы с базами данных, поддерживающая взаимодействие с PostgreSQL, MySQL, SQLite, Oracle, MS SQL и другими СУБД. Она предоставляет инструменты для объектно-реляционного отображения (ORM), что упрощает управление данными, позволяя разработчикам работать с объектами Python вместо написания SQL-запросов, а также поддерживает гибкую работу с "сырыми" SQL для сложных сценариев.

SymPy — библиотека для работы с символьной математикой в Python. Она позволяет выполнять операции над выражениями, уравнениями, функциями, матрицами, векторами, полиномами и другими объектами. С помощью SymPy можно решать уравнения, упрощать выражения, вычислять производные, интегралы, приближения, подстановки, факторизации, а также работать с логарифмами, тригонометрией, алгеброй и геометрией.

DeepChecks — это Python-библиотека для автоматизированной проверки моделей и данных машинного обучения. Она выявляет проблемы с производительностью моделей, целостностью данных, несоответствием распределений и другими аспектами. DeepChecks позволяет легко создавать кастомные проверки, а результаты визуализируются в удобных таблицах и графиках, упрощая анализ и интерпретацию.

Scrubadub — Python-библиотека, предназначенная для обнаружения и удаления персонально идентифицируемой информации (PII) из текста. Она может распознавать и скрывать такие данные, как имена, номера телефонов, адреса, номера кредитных карт и многое другое. Инструмент поддерживает настройку правил и может быть интегрирован в различные приложения для обработки конфиденциальных данных.

341 #

1 year, 1 month ago

352 #

1 year, 1 month ago

*?Чем же отличаются Smart Data от Big Data?*

В статье What’s Smart data and how it’s different from Big data? автор рассматривает особенности "Умных Данных". Ниже мы приведем свое видение этой концепции (оно может отличаться, а может и совпадать?).

Итак, Smart Data — это концепция, ориентированная на обработку, анализ и использование данных с учетом их актуальности, качества и пользы для принятия решений. В отличие от Big Data, где акцент делается на объем, Smart Data фокусируется на извлечении ценной информации из огромного массива данных.

*?Особенности Smart Data:
*✅Качество данных: Отбор только релевантных, точных и структурированных данных
✅Контекстуальность: Данные обрабатываются с учетом их значимости для конкретной задачи
✅Аналитика в реальном времени:** Smart Data используются для возможности быстрого принятия решений

*?Преимущества:
*✅Эффективность: Экономия ресурсов за счет работы только с нужными данными
✅Персонализация: Возможность адаптировать услуги под конкретные потребности
✅Меньше ошибок:** Фокус на высоком качестве данных снижает риски получения некорректных результатов

*?Однако не все так радужно, есть и недостатки:
*✅Этические и правовые вопросы: Работа с персональными данными несет риски нарушения конфиденциальности и неправомерного использования информации. Это может привести к штрафам и утрате доверия
✅Высокая зависимость от качества данных: Если исходные данные неполные, неточные или устаревшие, результаты анализа могут вводить в заблуждение и ухудшить принятие решений
✅Высокая стоимость внедрения: Требуется инвестиция в технологии, время и квалифицированный персонал
✅Проблемы интерпретации результатов: Даже с качественными данными аналитика может быть сложной для понимания неэкспертами, что требует дополнительных затрат на обучение сотрудников
✅Технические сбои:** Инфраструктура для обработки данных может быть уязвима к сбоям, что особенно критично при работе с реальными процессами, такими как управление в финансовой или медицинской сфере

*?Таким образом*, Smart Data — это про осмысленное использование данных для достижения конкретных целей. Эта концепция позволяет компаниям не только справляться с информационным шумом, но и получать конкурентные преимущества. Однако внедрение требует продуманной стратегии и ресурсов, иначе есть риск понести огромные убытки

445 #

1 year, 4 months ago

371 #

We recommend to visit

Z-Library Official ?

617.627 @zlibrary_official

Last updated hace 1 año, 7 meses

Intel Slava Z

421.876 @intelslava

Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.

For paid promotions and feedback contact us at: @CEOofBelarus

Last updated hace 1 año, 1 mes

Books Hub: Ebook & Audiobook

303.870 @bookshub25