Big Data Science [RU]

Description
Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: [email protected]
? — https://t.me/bdscience — Big Data Science channel (english version)
? — https://t.me/bds_job — channel about Data Science jobs and career
Advertising
We recommend to visit

News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://singlelogin.re
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official

Last updated 2 months, 1 week ago

Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.

For paid promotions and feedback contact us at @CEOofBelarus

Last updated 8 hours ago

?Welcome to the best book channel of Telegram.

✨Buy ads: https://telega.io/c/BooksHub25

✨Contact admin ➠ @Bookshub_contact_bot

✨ Off Topic Community➠ @BooksHubCommunity

✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18

1 month, 4 weeks ago

??Интересный набор данных Caldera

Датасет Caldera представляет собой сцены с открытым исходным кодом, содержащую большую часть геометрии, найденной в игре Call of Duty®: Warzone.

Сюда входит геометрия, которую можно визуализировать, а также некоторые альтернативные, обычно невидимые представления, используемые в других расчетах. Например, разработчики включили сюда объемы для помощи в расчетах освещения или простые фигуры для обнаружения столкновений. Исключены многие одноточечные сущности, например, места спавна персонажей или сложные модели, основанные на скриптах. Как отмечают разработчики, они решили не включать в этот выпуск текстуры и материалы. Это добавило бы сложности и размера и без того тяжелой сцене. Они сосредоточились на многочисленных связях между пространственными элементами, которые можно обнаружить в этом наборе, а не на точном визуальном представлении.

GitHub

GitHub - Activision/caldera: Caldera data set from Call of Duty®: Warzone™

Caldera data set from Call of Duty***®***: Warzone***™***. Contribute to Activision/caldera development by creating an account on GitHub.

***?******?*****Интересный набор данных Caldera**
2 months, 1 week ago

?Датасеты, использовавшиеся при построении различных ML-базисов

Iphone dataset - набор датасетов, на основе которых были построены более 40 тысяч динамических и более 100 тысяч статических гауссианов, 20 базисов SE(3) с помощью Shape of Motion.

Время обучения на 1хGPU A100 с использованием оптимизатора Adam разрешением 960x720 составило чуть более 2-х часов при скорости рендеринга 40 кадров в секунду.

По результатам тестов в процессе обучения, Shape of Motion показал хорошие результаты по качеству и консистентности построения сцен.
Однако, метод все еще требует оптимизации для каждой конкретной сцены и не может обрабатывать значительные изменения ракурса камеры. Также установлена критическая зависимость от точных параметров камеры и пользовательского ввода для создания маски движущихся объектов.

GitHub

GitHub - vye16/shape-of-motion

Contribute to vye16/shape-of-motion development by creating an account on GitHub.

2 months, 1 week ago

??Бенчмарк для комплексной оценки логического мышления LLM

ZebraLogic - бенчмарк, основанный на логических головоломках и представляет собой набор из 1000 программно сгенерированных заданий различной сложности - с сеткой от 2x2 до 6x6.

Каждая головоломка состоит из N домов (пронумерованных слева направо) и M характеристик для каждого дома. Задача заключается в том, чтобы на основе предоставленных подсказок определить уникальное распределение значений характеристик по домам.
Языковым моделям предоставляется один пример решения головоломки с подробным объяснением хода рассуждений и ответом в формате JSON. Затем модели должны решить новую задачу, предоставив как ход рассуждений, так и окончательное решение в заданном формате.

Метрики оценки:
1. Точность на уровне головоломки (процент полностью правильно решенных головоломок).
2. Точность на уровне ячеек (доля правильно заполненных ячеек в матрице решения).

?Страница проекта
?Датасет

Локальный запуск ZebraLogic в рамках фреймфорка ZeroEval:

```
# Install via conda

conda create -n zeroeval python=3.10
conda activate zeroeval

# pip install vllm -U # pip install -e vllm

pip install vllm==0.5.1
pip install -r requirements.txt
# export HF_HOME=/path/to/your/custom/cache_dir/

# Run Meta-Llama-3-8B-Instruct via local, with greedy decoding on zebra\-grid
bash zero_eval_local.sh -d zebra-grid -m meta-llama/Meta-Llama-3-8B-Instruct -p Meta-Llama-3-8B-Instruct -s 4
```

GitHub

GitHub - yuchenlin/ZeroEval: A simple unified framework for evaluating LLMs

A simple unified framework for evaluating LLMs. Contribute to yuchenlin/ZeroEval development by creating an account on GitHub.

4 months, 3 weeks ago

??Подборка векторных баз данных
Векторные базы данных — это особый тип баз данных, предназначенный для организации данных на основе сходства. Для этого они преобразуют исходные данные — такие как изображения, текст, видео или аудио — в математические представления, известные как многомерные векторы. Каждый вектор может иметь от десятков до тысяч измерений, в зависимости от сложности исходных данных. на данный момент существуют такие векторные БД, как:
Chroma - Это векторная база данных с открытым исходным кодом, созданная для обеспечения разработчиков и организаций любого размера ресурсами, необходимыми для создания приложений на основе больших языковых моделей (LLM). Она предоставляет разработчикам высокомасштабируемое и эффективное решение для хранения, поиска и извлечения многомерных векторов.
Одной из причин популярности Chroma является ее гибкость
Pinecone - Это облачная управляемая векторная база данных. Широкая поддержка многомерных векторов делает Pinecone подходящей для различных сценариев использования, включая поиск по сходству, рекомендательные системы, персонализацию и семантический поиск. Она также поддерживает возможность одноступенчатой фильтрации. А способность анализировать данные в реальном времени делает ее отличным выбором для обнаружения угроз и мониторинга кибератак в сфере кибербезопасности.
Weviate - Примечательной особенностью этой БД является то, что ее можно использовать для хранения как векторов, так и объектов. Это делает ее подходящей для приложений, сочетающих несколько методов поиска, таких как векторный поиск и поиск по ключевым словам.
Milvus - использует самые современные алгоритмы для ускорения процесса поиска, что позволяет быстро находить похожие векторы даже при работе с большими массивами данных.

Trychroma

the AI-native open-source embedding database

4 months, 3 weeks ago

*⚖️Apache Superset: преимущества и недостатки
Apache Superset - это инструмент визуализации данных с открытым исходным кодом, который обеспечивает богатый набор возможностей для анализа данных и создания интерактивных дашбордов.
Преимущества Apache Superset:
1. Открытый исходный код: Apache Superset разрабатывается и поддерживается сообществом, что обеспечивает высокую степень гибкости и возможность расширения под различные потребности.
2. Мощная визуализация данных: Superset предлагает широкий выбор графиков, диаграмм и визуальных элементов, позволяя пользователям создавать красочные и информативные дашборды для анализа данных.
3. Интерактивные возможности: Пользователи могут легко взаимодействовать с дашбордами, применять фильтры, изменять параметры и проводить свертывание/развертывание данных для получения более глубокого понимания информации.
4. Интеграция с различными источниками данных: Superset поддерживает множество источников данных, включая базы данных, хранилища данных, Apache Druid и многие другие, что делает его универсальным инструментом для работы с данными из различных источников.
5. Масштабируемость и производительность: Благодаря своей архитектуре и использованию технологий, таких как Apache Druid, Superset способен эффективно обрабатывать большие объемы данных и обеспечивать высокую производительность при работе с дашбордами.
Недостатки Apache Superset:
1. Сложность настройки: Несмотря на то, что Superset предоставляет обширные возможности, его настройка и конфигурация могут быть сложными, особенно для новичков, требуя определенного уровня технической образованности.
2. Недостаточная документация: Некоторые пользователи отмечают, что документация по Superset не всегда достаточно подробна или актуальна, что может затруднить процесс изучения и работы с инструментом.
В целом*, Apache Superset представляет собой мощный инструмент для визуализации данных с открытым исходным кодом, который обладает рядом преимуществ, таких как гибкость, масштабируемость и мощные визуальные возможности. Однако, перед использованием следует учитывать и недостатки, такие как сложность настройки и некоторые ограничения по ее доступности.

superset.apache.org

Welcome | Superset

Community website for Apache Superset***™***, a data visualization and data exploration platform

4 months, 4 weeks ago

?Извлечение данных с Quivr
Quivr — это open-source сервис, который позволяет извлекать информацию из локальных файлов (PDF, CSV, Excel, Word, аудио, видео и т.д)
Quivr может работать в автономном режиме, поэтому всегда существует возможность получить доступ к своим данным в любое время и в любом месте.
Quivr также совместим с ОС Ubuntu 22 или новее
Открытый исходный код можно получить по данной ссылке

Quivr

Quivr - Open source chat-powered second brains

Your GenAI Second Brain ***🧠*** A personal productivity assistant (RAG) ***⚡️******🤖*** Chat with your docs (PDF, CSV, ...) & apps using Langchain, GPT 3.5 / 4 turbo, Private, Anthropic, VertexAI, Ollama, LLMs, that you can share with users ! Local & Private alternative to…

6 months, 3 weeks ago

?⚔️Sensei подскажет
Sensei - это сравнительно новый Python-инструмент генерации синтетических данных с использованием таких систем, как OpenAI, MistralAI or AnthropicAII.
Для запуска необходимо произвести следующую предустановку:
pip install openai mistralai numpy
Разработчики также написали подробную инструкцию по настройке.

GitHub

GitHub - migtissera/Sensei: Generate Synthetic Data Using OpenAI, MistralAI or AnthropicAI

Generate Synthetic Data Using OpenAI, MistralAI or AnthropicAI - migtissera/Sensei

6 months, 3 weeks ago

??Готовый набор аннотированных изображений
Набор данных ImageNet включает в себя 14 197 122 аннотированных изображений, структурированных в соответствии с иерархией WordNet.
С начала 2010 года этот набор данных используется в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC) и служит стандартом для задач классификации изображений и обнаружения объектов.
Этот обширный публичный набор данных содержит изображения, которые были вручную аннотированы для целей обучения.

Kaggle

ImageNet Object Localization Challenge

Identify the objects in images

7 months ago

??DeltaLake: преимущества и недостатки
Delta Lake - это уровень абстракции для работы с данными в хранилищах данных. Delta Lake предоставляет дополнительные возможности и гарантии целостности данных для хранения и обработки больших объемов данных.
Преимущества Delta Lake:
1. Транзакционная согласованность: Delta Lake предоставляет ACID-транзакции, обеспечивая транзакционную согласованность данных. Это гарантирует надежность операций и управление целостностью данных.
2. Партиционирование: Delta Lake поддерживает партиционирование данных, что улучшает производительность запросов и управление данными. Партицирование позволяет эффективно фильтровать данные на основе определенных критериев.
3. Улучшенная производительность: Delta Lake оптимизирует выполнение запросов и операций на данных, что ведет к улучшенной производительности в сравнении с обычными хранилищами данных.
4. Обработка потоковых данных: Delta Lake поддерживает потоковую обработку данных, что позволяет мгновенно обновлять и анализировать данные в реальном времени.
Недостатки Delta Lake:
1. Сложность настройки: Некоторые пользователи могут столкнуться с трудностями при настройке и использовании Delta Lake из-за его расширенных функциональных возможностей.
2. Совместимость: Вопросы совместимости могут возникнуть при интеграции Delta Lake с другими инструментами и системами хранения данных.
В целом, Delta Lake предоставляет мощные инструменты для управления и обработки данных, но использование его следует рассматривать с учетом конкретных требований проекта и опыта команды.

delta.io

Home

8 months, 3 weeks ago

??Программирование датасетов теперь не проблема
Сноркель - фреймворк для программирования данных (data programming). Подход данного фреймворка заключается в в использовании разных эвристик и априорных знаний для автоматической разметки датасетов. Проект стартовал в Стэнфорде как инструмент для помощи в разметке датасетов для задачи information extraction, а сейчас разработчики делают платформу для пользования внешними заказчиками.
Арсенал Сноркеля включает в себя три ключевых инструмента:
-разметочные функции для создания датасета;
-преобразующие функции для аугментации датасета;
-срезающие (slicing) функции, выделяющие подмножества в датасете, которые критичны для производительности обучающихся моделей.

We recommend to visit

News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://singlelogin.re
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official

Last updated 2 months, 1 week ago

Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.

For paid promotions and feedback contact us at @CEOofBelarus

Last updated 8 hours ago

?Welcome to the best book channel of Telegram.

✨Buy ads: https://telega.io/c/BooksHub25

✨Contact admin ➠ @Bookshub_contact_bot

✨ Off Topic Community➠ @BooksHubCommunity

✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18