Data Analysis / Big Data

Description
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Advertising
We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 6 days, 8 hours ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 1 month ago

#1 канал о блокчейне, криптовалютах и децентрализованных финансах.

🔥 Реклама — @DCTeam

Last updated 6 hours ago

2 months, 3 weeks ago

Data Vault: Мой опыт создания модели вручную

Как я делал Data Vault руками... или custom migrate a Data Vault c нотками Data Vault 2.0. Достаточно интересный способ провести время, но для начала углубимся в краткий экскурс.

Читать: https://habr.com/ru/articles/829338/

#ru

@big_data_analysis | Другие наши каналы

2 months, 3 weeks ago

Бутстрап и доверительные интервалы: от теории к практике на Python

Привет!

Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач.

В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика).

Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.

Читать: https://habr.com/ru/articles/829336/

#ru

@big_data_analysis | Другие наши каналы

2 months, 3 weeks ago

Кластеризация множества объектов, алгоритм K-means++

Поступила задача выполнения кластеризации множества товаров, по их размерам (двумерная плоскость). Значения распределения: ширина и высота.

После изучения вопроса, было найдено несколько подходящих алгоритмов, одним из самых распространенных оказался алгоритм под названием K-means, а так же его вариация K-means++. Плюсы, в отличии от классики, подошли более разумно к подбору начальных точек опоры, калибрующихся итерационно, до момента идентичности нескольких последовательных результатов.

Читать: https://habr.com/ru/articles/829202/

#ru

@big_data_analysis | Другие наши каналы

3 months ago

Предсказание выбытия насосов или как я вошел в data science

Всем привет, меня зовут Богдан. В ML я начал свое посвящение осенью 2023 года и за этот год успел поработать над таким неоднозначным проектом как "Предсказание выбытия насосов". На данную тему на Хабре уже есть несколько статей, которые я в своё время нашел и опыт которых я пытался перенести в свой учебный big data пет проект :)
ссылки на других ребят тут: ссылка 1 и ссылка 2

Хочу сказать что в данной статье не будет кода, она будет посвящена размышлениям, неудачам и иногда смешным попыткам решить данную проблему. Ну а также наверное где-то я буду кидать ссылки на совершенно разные вещи и немного похвастаюсь нашим финальным решением и тем, к чему меня привело участие во всем этом.

Если вы хотите посмотреть на то как это реализовано под капотом, то добро пожаловать в репу на гитхабе
Здесь расписано множество вещей, которые я успел попробовать пока работал над этой задачей в них входят как удачные решения, так и не очень.

Читать: https://habr.com/ru/articles/827242/

@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных

3 months ago

Услуги Data Warehouse от ScienceSoft

ScienceSoft с 2005 года предоставляет услуги по дата-вахтингам: консультации, разработка, поддержка и миграция. Компания помогает клиентам объединять данные в эффективные DWH решения для улучшения аналитики и отчетности. Узнайте больше о возможностях и обратитесь за консультацией. ScienceSoft: Преимущества построения DWH решений

ScienceSoft помогает компаниям строить эффективные DWH решения, снижая проектные и эксплуатационные затраты до 80%. Примеры успешных проектов включают построение хранилищ данных для авиакосмической, автомобильной, банковской и других отраслей. Убедитесь сами в их эффективности! ScienceSoft помогает bioAffinity Technologies в диагностике рака легких

bioAffinity Technologies выбрала ScienceSoft для разработки ПО автоматизированного анализа данных для выявления рака легких. Проект потребовал внедрения сложной отраслевой методологии и интеграции с медицинскими системами, что ScienceSoft успешно реализовала благодаря глубокому пониманию лабораторного ПО.

Читать подробнее
___
Другие наши проекты

Scnsoft

Data Warehouse Services – ScienceSoft

19 years of experience in rendering data warehouse services: design and development, migration, consulting, and support. Cloud, on-premises, and hybrid solutions.

3 months ago

Создание голосового ассистента на Python с классификацией пользователей на основе нейронных сетей (аналог FaceID)

Всем привет!

Возвращаюсь к теме применения нейронных сетей в личных целях. На этот раз будем запускать долгий проект, по созданию голосового ассистента (ГА). Создать свою Алису или Siri довольно просто, есть уже много статей на Хабр (и не только), которые подробно описывают основные принципы, но чтобы было действительно профессионально и интересно мы углубимся в эту тему и «прикрутим» нейронные сети к нашему ГА. И в первой части начнем с того, что научим нашего голосового ассистента распознавать человека, который в данный момент пользуется компьютером.

Такой проект отлично будет смотреть в любом портфолио, тут будет присутствовать, как и общее программирование на Python, так и взаимодействие с нейронными сетями. Я считаю, что любой начинающий или практикующий питонист (аналитик, специалист по машинному обучению) разобрав, поняв, доработав (нужное подчеркнуть) данный проект, отлично прокачает свои навыки.

Первую часть нашего большого проекта поделим на несколько этапов:

Читать: https://habr.com/ru/articles/827216/

@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных

3 months, 1 week ago

Графы в рекомендательных системах [часть 1]

Привет, ХАБР! Недавно я писал научную статью с AIRI по графовым рекомендательным системам. Это был мой первый практический опыт работы с этой технологией, поэтому пришлось углубиться в исследования и изучение доступных материалов. Я решил, что пока я разбираюсь в этой теме, было бы полезно поделиться своими находками с вами.

Эта статья будет частью серии, состоящей из двух или трех частей. В первой части мы рассмотрим базовые понятия, концепции и простые модели, а также выделим их ключевые особенности. Вторую часть напишут мои знакомые из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели. Все остальные части можно будет найти в моем телеграм канале, поэтому приглашаю подписаться что бы не пропустить, а вам приятного чтения.
? Идем разбираться!

Читать: https://habr.com/ru/articles/825896/

@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных

3 months, 1 week ago

PandasA — кратно ускоряем работу аналитика данных в одну строчку

Ускоряем написание кода при работе с таблицами и библиотекой Pandas с помощью PandasAI в несколько раз за пару строк. Хитрецы уже используют ...

Читать: https://habr.com/ru/articles/825572/

@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных

3 months, 1 week ago

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой.

Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело!

Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку.

В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь.

Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!

Читать: https://habr.com/ru/articles/825606/

@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных

3 months, 2 weeks ago

Внедрение Business Intelligence с нуля — первые шаги

Внедрение системы Business Intelligence в рамках компании - одновременно уникально для каждой компании, и в то же время может быть унифицировано за счет использования существующего опыта и знаний. В этой статье приведены базовые принципы построения BI систем, на которые можно ориентироваться, чтобы сэкономить время и получить качественную BI систему для компании. Тем, кому интересны основы BI систем - добро пожаловать :)

В качестве небольшого вступления имеет смысл отметить две особенности BI систем. BI системы основаны на рассчитываемых ключевых показателях эффективности (KPI), но тем не менее, для управления компанией представляет ценность именно система или набор показателей, а не какой-либо единственный показатель. Другой особенностью является то, что BI система аккумулирует данные из различных систем и различной периодичностью, например, финансовые показатели из учетных систем, данные о клиентах из CRM систем или из систем обратной связи с клиентами, и все эти задачи интеграции встают перед компанией, которая внедряет BI.

Рассморим выбор ключевых показателей BI системы "с нуля", что определит суть будущей BI системы компании. Конечно, можно использовать и готовый набор показателей, которые часто имеются для разных предметных областей в различных BI платформах, в этой статье обращается внимание на выбор системы KPI "с нуля".

Популярным подходом к управлению по KPI является сбалансированная система показателей (Balances Scorecards, BCS), предложенная Р. Капланом и Д. Нортоном "Сбалансированная система показателей" в 1996 году. В книге рекомендуется подход к управлению, основанный на ключевых показателях эффективности (KPI), отслеживающих стратегический прогресс в достижении основных целей по четырем направлениям: финансовые показатели, взаимодействие с клиентами компании, внутренние процессы компании и обучение/рост сотрудников компании.

Читать: https://habr.com/ru/articles/824268/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных

We recommend to visit

Официальный новостной канал криптобиржи OKX | www.okx.com на русском языке.

💬 Комьюнити: t.me/okx_russian

👨‍💻 Поддержка: [email protected]

АДМИН: @DaniiOKX
Маркетинг: @CoffeeTrends

Last updated 6 days, 8 hours ago

Здесь простым языком про TON, DFC и крипту.

Принимаем автоматически.
Ссылка для друзей: https://t.me/+-EOfWx2pRKhmNGE6
Связь: @deftalk_bot

Last updated 1 month ago

#1 канал о блокчейне, криптовалютах и децентрализованных финансах.

🔥 Реклама — @DCTeam

Last updated 6 hours ago