Big Data Science [RU]

Description
Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: [email protected]
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career
Advertising
We recommend to visit

News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://singlelogin.re
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official

Last updated 4 months ago

Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.

For paid promotions and feedback contact us at: @CEOofBelarus

Last updated 1 month ago

?Welcome to the best book channel of Telegram.

✨Buy ads: https://telega.io/c/BooksHub25

✨Contact admin ➠ @Bookshub_contact_bot

✨ Off Topic Community➠ @BooksHubCommunity

✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18

3 weeks, 6 days ago
1 month, 1 week ago
1 month, 1 week ago

😎Топ Pyhton-библиотек для оптимизации работы с данными

Pony ORM — это удобная и мощная библиотека для работы с объектно-реляционными базами данных, которая позволяет писать SQL-запросы, используя синтаксис Python. Она автоматически преобразует Python-код в SQL-запросы, что упрощает взаимодействие с базами данных, делая его более интуитивным и лаконичным. Pony ORM поддерживает основные СУБД, такие как PostgreSQL, MySQL, SQLite и другие, предоставляя гибкость и удобство при создании запросов и работе с моделями данных.

Pypika — это библиотека для создания SQL-запросов программным способом на Python, которая позволяет избегать ошибок ручного написания SQL-кода и защищает от SQL-инъекций. Она особенно полезна при построении динамических и параметризованных запросов, что делает её идеальным инструментом для приложений, работающих с базами данных. Pypika позволяет строить запросы с высокой степенью детализации и сложности, сохраняя при этом читаемость и безопасность кода.

EdgeDB — это современная база данных и клиентская библиотека для Python, которая упрощает управление схемами данных и написание запросов. Она предлагает более интуитивный и удобный подход по сравнению с традиционными SQL базами данных, предоставляя расширенные возможности работы с данными. Основные особенности EdgeDB включают автоматическую генерацию схем, работу с реляционными данными без необходимости написания сложных SQL-запросов, а также поддержку типобезопасности и более выразительный синтаксис для манипуляций с данными.

Tortoise ORM — это современный асинхронный ORM (Object-Relational Mapping), разработанный для работы с базами данных в асинхронных Python-приложениях. Он поддерживает различные реляционные базы данных, такие как PostgreSQL, MySQL, SQLite, и написан с упором на простоту и удобство использования. Tortoise ORM позволяет строить сложные SQL-запросы с использованием Python-кода, автоматически синхронизируя модели данных с базой данных. Поддержка асинхронности делает его особенно полезным в высоконагруженных или веб-приложениях, где важно эффективно управлять ресурсами и запросами к базе данных.

Polars — это высокопроизводительная библиотека для обработки и анализа данных на языке Python и Rust, ориентированная на работу с большими объемами данных. Благодаря многопоточности и оптимизированной архитектуре, Polars обеспечивает значительно более высокую скорость выполнения операций по сравнению с традиционными инструментами, такими как Pandas. Библиотека поддерживает широкий спектр операций над табличными данными (dataframes), предлагая интуитивно понятный интерфейс для фильтрации, агрегации и трансформации данных. Она идеально подходит для задач, требующих высокой производительности, особенно при работе с большими наборами данных.

3 months, 4 weeks ago

?Датасеты, использовавшиеся при построении различных ML-базисов

Iphone dataset - набор датасетов, на основе которых были построены более 40 тысяч динамических и более 100 тысяч статических гауссианов, 20 базисов SE(3) с помощью Shape of Motion.

Время обучения на 1хGPU A100 с использованием оптимизатора Adam разрешением 960x720 составило чуть более 2-х часов при скорости рендеринга 40 кадров в секунду.

По результатам тестов в процессе обучения, Shape of Motion показал хорошие результаты по качеству и консистентности построения сцен.
Однако, метод все еще требует оптимизации для каждой конкретной сцены и не может обрабатывать значительные изменения ракурса камеры. Также установлена критическая зависимость от точных параметров камеры и пользовательского ввода для создания маски движущихся объектов.

GitHub

GitHub - vye16/shape-of-motion

Contribute to vye16/shape-of-motion development by creating an account on GitHub.

4 months ago

??Бенчмарк для комплексной оценки логического мышления LLM

ZebraLogic - бенчмарк, основанный на логических головоломках и представляет собой набор из 1000 программно сгенерированных заданий различной сложности - с сеткой от 2x2 до 6x6.

Каждая головоломка состоит из N домов (пронумерованных слева направо) и M характеристик для каждого дома. Задача заключается в том, чтобы на основе предоставленных подсказок определить уникальное распределение значений характеристик по домам.
Языковым моделям предоставляется один пример решения головоломки с подробным объяснением хода рассуждений и ответом в формате JSON. Затем модели должны решить новую задачу, предоставив как ход рассуждений, так и окончательное решение в заданном формате.

Метрики оценки:
1. Точность на уровне головоломки (процент полностью правильно решенных головоломок).
2. Точность на уровне ячеек (доля правильно заполненных ячеек в матрице решения).

?Страница проекта
?Датасет

Локальный запуск ZebraLogic в рамках фреймфорка ZeroEval:

```
# Install via conda

conda create -n zeroeval python=3.10
conda activate zeroeval

# pip install vllm -U # pip install -e vllm

pip install vllm==0.5.1
pip install -r requirements.txt
# export HF_HOME=/path/to/your/custom/cache_dir/

# Run Meta-Llama-3-8B-Instruct via local, with greedy decoding on zebra\-grid
bash zero_eval_local.sh -d zebra-grid -m meta-llama/Meta-Llama-3-8B-Instruct -p Meta-Llama-3-8B-Instruct -s 4
```

GitHub

GitHub - yuchenlin/ZeroEval: A simple unified framework for evaluating LLMs

A simple unified framework for evaluating LLMs. Contribute to yuchenlin/ZeroEval development by creating an account on GitHub.

6 months, 1 week ago

??Подборка векторных баз данных
Векторные базы данных — это особый тип баз данных, предназначенный для организации данных на основе сходства. Для этого они преобразуют исходные данные — такие как изображения, текст, видео или аудио — в математические представления, известные как многомерные векторы. Каждый вектор может иметь от десятков до тысяч измерений, в зависимости от сложности исходных данных. на данный момент существуют такие векторные БД, как:
Chroma - Это векторная база данных с открытым исходным кодом, созданная для обеспечения разработчиков и организаций любого размера ресурсами, необходимыми для создания приложений на основе больших языковых моделей (LLM). Она предоставляет разработчикам высокомасштабируемое и эффективное решение для хранения, поиска и извлечения многомерных векторов.
Одной из причин популярности Chroma является ее гибкость
Pinecone - Это облачная управляемая векторная база данных. Широкая поддержка многомерных векторов делает Pinecone подходящей для различных сценариев использования, включая поиск по сходству, рекомендательные системы, персонализацию и семантический поиск. Она также поддерживает возможность одноступенчатой фильтрации. А способность анализировать данные в реальном времени делает ее отличным выбором для обнаружения угроз и мониторинга кибератак в сфере кибербезопасности.
Weviate - Примечательной особенностью этой БД является то, что ее можно использовать для хранения как векторов, так и объектов. Это делает ее подходящей для приложений, сочетающих несколько методов поиска, таких как векторный поиск и поиск по ключевым словам.
Milvus - использует самые современные алгоритмы для ускорения процесса поиска, что позволяет быстро находить похожие векторы даже при работе с большими массивами данных.

Trychroma

the AI-native open-source embedding database

6 months, 2 weeks ago

*⚖️Apache Superset: преимущества и недостатки
Apache Superset - это инструмент визуализации данных с открытым исходным кодом, который обеспечивает богатый набор возможностей для анализа данных и создания интерактивных дашбордов.
Преимущества Apache Superset:
1. Открытый исходный код: Apache Superset разрабатывается и поддерживается сообществом, что обеспечивает высокую степень гибкости и возможность расширения под различные потребности.
2. Мощная визуализация данных: Superset предлагает широкий выбор графиков, диаграмм и визуальных элементов, позволяя пользователям создавать красочные и информативные дашборды для анализа данных.
3. Интерактивные возможности: Пользователи могут легко взаимодействовать с дашбордами, применять фильтры, изменять параметры и проводить свертывание/развертывание данных для получения более глубокого понимания информации.
4. Интеграция с различными источниками данных: Superset поддерживает множество источников данных, включая базы данных, хранилища данных, Apache Druid и многие другие, что делает его универсальным инструментом для работы с данными из различных источников.
5. Масштабируемость и производительность: Благодаря своей архитектуре и использованию технологий, таких как Apache Druid, Superset способен эффективно обрабатывать большие объемы данных и обеспечивать высокую производительность при работе с дашбордами.
Недостатки Apache Superset:
1. Сложность настройки: Несмотря на то, что Superset предоставляет обширные возможности, его настройка и конфигурация могут быть сложными, особенно для новичков, требуя определенного уровня технической образованности.
2. Недостаточная документация: Некоторые пользователи отмечают, что документация по Superset не всегда достаточно подробна или актуальна, что может затруднить процесс изучения и работы с инструментом.
В целом*, Apache Superset представляет собой мощный инструмент для визуализации данных с открытым исходным кодом, который обладает рядом преимуществ, таких как гибкость, масштабируемость и мощные визуальные возможности. Однако, перед использованием следует учитывать и недостатки, такие как сложность настройки и некоторые ограничения по ее доступности.

superset.apache.org

Welcome | Superset

Community website for Apache Superset***™***, a data visualization and data exploration platform

6 months, 2 weeks ago

?Извлечение данных с Quivr
Quivr — это open-source сервис, который позволяет извлекать информацию из локальных файлов (PDF, CSV, Excel, Word, аудио, видео и т.д)
Quivr может работать в автономном режиме, поэтому всегда существует возможность получить доступ к своим данным в любое время и в любом месте.
Quivr также совместим с ОС Ubuntu 22 или новее
Открытый исходный код можно получить по данной ссылке

Quivr

Quivr - Open source chat-powered second brains

Your GenAI Second Brain ***🧠*** A personal productivity assistant (RAG) ***⚡️******🤖*** Chat with your docs (PDF, CSV, ...) & apps using Langchain, GPT 3.5 / 4 turbo, Private, Anthropic, VertexAI, Ollama, LLMs, that you can share with users ! Local & Private alternative to…

8 months, 2 weeks ago

?⚔️Sensei подскажет
Sensei - это сравнительно новый Python-инструмент генерации синтетических данных с использованием таких систем, как OpenAI, MistralAI or AnthropicAII.
Для запуска необходимо произвести следующую предустановку:
pip install openai mistralai numpy
Разработчики также написали подробную инструкцию по настройке.

GitHub

GitHub - migtissera/Sensei: Generate Synthetic Data Using OpenAI, MistralAI or AnthropicAI

Generate Synthetic Data Using OpenAI, MistralAI or AnthropicAI - migtissera/Sensei

We recommend to visit

News and announcements of the library. No books here.
??Official Chinese channel: t.me/zlib_china_official
? https://singlelogin.re
https://en.wikipedia.org/wiki/Z-Library
? https://twitter.com/Z_Lib_official
? https://mastodon.social/@Z_Lib_official

Last updated 4 months ago

Intel slava is a Russian News aggregator who covers Conflicts/Geopolitics and urgent news from around the world.

For paid promotions and feedback contact us at: @CEOofBelarus

Last updated 1 month ago

?Welcome to the best book channel of Telegram.

✨Buy ads: https://telega.io/c/BooksHub25

✨Contact admin ➠ @Bookshub_contact_bot

✨ Off Topic Community➠ @BooksHubCommunity

✨ Copyright Disclaimer➠ https://telegra.ph/LEGAL-COPYRIGHT-DISCLAIMER-09-18