Это разве аналитика? / Food / Telegram Index

Open in telegram

☆☆☆☆☆

⚑ Report channel

3,763 @eto_analytica

Description

Привет, я Андрей @ab0xa, bi / de / java dev

Анализ данных и визуализация, интересные ссылки, вакансии, уроки, юмор) и личный опыт

Стек технологий Python, Java, SQL, Tableau, Knime, Yandex.Облако, Yandex DataLens

Advertising

We recommend to visit

Крипто Стукач | Инвестиции | Заработок

1,525,355 @crypto_stukach

Рассказываю про крипту и инвестиции на понятном языке.

Сотрудничество — @TGowner999

Больше информации о нашей сети: https://t.me/TGownerTOP

Last updated 1 month ago

E V O L U T I O N

1,099,982 @evo_memy

Утро начинается не с кофе.

Сотрудничество: @evoanna (по всем вопросам, только мне писать)

Канал в реестре: https://clck.ru/3FCQfU

Last updated 5 days, 22 hours ago

Кулинария Рецепты 🧑‍🍳

774,511 @kulinariya_retsept

Самые любимые рецепты для Вас!

Контакт: @khaitbayev

Доверенные менеджеры тут:
https://t.me/+reWsclRikXIxOTcy

Ссылка для приглашения: https://t.me/+wsrt9bX3G1U3Zjg6

Last updated 1 week, 6 days ago

2 months ago

Алгоритмы и структуры для массивных наборов данных [2023] Меджедович Дж., Тахирович Э.pdf

Стандартные алгоритмы и структуры при применении к крупным распределенным наборам данных могут становиться медленными — или вообще не работать. Правильный подбор алгоритмов, предназначенных для работы с большими данными, экономит время, повышает точность и снижает стоимость обработки.
Книга знакомит с методами обработки и анализа больших распределенных данных. Насыщенное отраслевыми историями и занимательными иллюстрациями, это удобное руководство позволяет легко понять даже сложные концепции. Вы научитесь применять на реальных примерах такие мощные алгоритмы, как фильтры Блума, набросок count-min, HyperLogLog и LSM-деревья, в своих собственных проектах.

544 #

2 months ago

Были ещё ответы, что проценты — это часть от целого, и нельзя визуализировать их кругами. Это не так.

Проценты бывают разные — в некоторых случаях они являются частью одного целого, а в некоторых — разных целых (как тут).

При визуализации надо отталкиваться, в первую очередь, от цели.
И цель тут — сравнить числа между собой, бабблы её вполне решают.

538 #

2 months ago

521 #

5 months ago

И на всякий случай!

Как казаться умным
- Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора
- Просите вернуться на один слайд назад без всякой причины
- Побуждайте всех "сделать шаг назад"
- Повторяйте последнюю фразу инженера, но очень медленно
- Спрашивайте, задаем ли мы правильные вопросы
- Ходите по комнате
- Выйдите и сделайте вид, что получили важный телефонный звонок
- Спрашивайте, не смешиваем ли мы несколько вопросов
- Перебивайте чье-то обновление, а затем дайте им закончить
- В онлайн звонке отправить emoji или reaction, и похвалить спикера
- Спросить про следующие шаги и action plan
- Уточнить сроки (dead line)
- Спросить есть ли у нас OKR и как мы будем их измерить?
- На всякие случай спросить, а результат точно имеет tangible output?

Дополните список!

385 #

5 months ago

Книга "Практический анализ временных рядов: прогнозирование со статистикой и машинное обучение"

536 #

5 months ago

Котятки?,
У меня была охренительная история, как я пыталась по гайду подрубить Tableau к Mongo. Я рассказывала тут позднюю версию, а чуть дальше у меня была история с максимально печальным концом с SDK.
SDK в большинстве случаев это библиотека/пакет или целая среда, куда вы можете запустить ваших программистов и они напилят (теоретически) вам интеграцию с источником там, где её быть не должно.
Вот тут список BI/построителей с SDK, но он не полный, того же SDK Power Query там нет.
http://www.discoversdk.com/categories/business-intelligence?pn=1&tpo=true
P. S. Когда-то наличие SDK у меня входило в перечень критериев для выбора BI- инструмента. Я была юна и немного тупа, ибо не до конца понимала, что любой кастомный код надо не только писать, но и поддерживать, обвешивать тестами и править баги.
Сейчас, в случае отсутствия коннектора у уже стоящей BI (которую фиг заменишь) к моему редкому источнику, я просто прокидываю данные из источника в ту базенку, где коннектор есть. Да, цепочка через третьи среды это такое себе, и да, слово колхоз мне говорили.
Но с одноразовой историей, как говорится, и excel тебе дашборд нарисует.

discoversdk

Business Intelligence | DiscoverSdk

Top 31 Business Intelligence tools,reviews and details of the best apps online

459 #

5 months ago

⚡️Хитрая задачка с работы.

Попросили меня выгрузить всех клиентов, у которых ставка кредита меньше или равно указанных. Должны быть меньше вот этих (как пример, цифры придуманные):
? Срок рассрочки 3 мес.: 5.93%
? Срок рассрочки 4 мес.: 6.64%
? Срок рассрочки 6 мес.: 7.05%

В базе данные хранятся у каждого клиента в параметре value просто как текст:
installment_0_0_3_7,59 Срок рассрочки 3 мес. installment_0_0_4_8,42 Срок рассрочки 4 мес. installment_0_0_6_10,84 Срок рассрочки 6 мес.Сравнить нужно не только ставку, но и соотнести с продолжительностью кредита.

Решение ?
✔️Генерация данных. ? Создадим небольшой датафрейм:

data = [ { 'client\_id': 111, 'value': 'installment\_0\_0\_3\_7,59 Срок рассрочки 3 мес.' 'installment\_0\_0\_4\_8,42 Срок рассрочки 4 мес.' 'installment\_0\_0\_6\_10,84 Срок рассрочки 6 мес.' }, { 'client\_id': 222, 'value': 'installment\_0\_0\_3\_4,93 Срок рассрочки 3 мес.' }, { 'client\_id': 333, 'value': 'installment\_0\_0\_4\_5,64 Срок рассрочки 4 мес.' 'installment\_0\_0\_6\_6,05 Срок рассрочки 6 мес.' }, { 'client\_id': 444, 'value': 'installment\_0\_0\_3\_7,78 Срок рассрочки 3 мес.' 'installment\_0\_0\_6\_9,60 Срок рассрочки 6 мес.' }, { 'client\_id': 555, 'value': 'installment\_0\_0\_4\_8,57 Срок рассрочки 4 мес.' 'installment\_0\_0\_6\_8 Срок рассрочки 6 мес.' } ] \# Создание DataFrame df = pd.DataFrame(data)

Обработка данных ?*
✔️*** Создаем пустой список для хранения обработанных данных.

processed\_data = []

*✔️*Извлечение данных с помощью iterrows() ?****

Для каждой строки извлекаем client_id, сроки рассрочки и процентные ставки из столбца value. Используем регулярное выражение для поиска всех совпадений в value, которые соответствуют шаблону installment_0_0__.

*?Как работает iterrows() ?* Метод iterrows() проходит по строкам DataFrame и возвращает пары (index, row) для каждой строки. Здесь index - это индекс строки, а row - это Series, представляющая данные строки.
То есть я извлекаю сроки рассрочки и процентные ставки из колонки value и потом добавляю их в новый DataFrame.

```
for index, row in df.iterrows():
client_id = row['client_id']
value = row['value']

\# Извлечение сроков и ставок с помощью регулярного выражения  
matches = re.findall(r'installment\_0\_0\_(\d+)\_([\d,\.]+)', value)

for match in matches:  
    term = f"Срок рассрочки {match[0]} мес."  
    rate\_str = match[1].replace(',', '.')  
    rate\_str = re.sub(r'\.$', '', rate\_str)  
    rate = float(rate\_str)           
    processed\_data.append({  
        'client\_id': client\_id,  
        'rate': rate,  
        'term': term              
    })

# Создание нового DataFrame из обработанных данных
processed_df = pd.DataFrame(processed_data)
```

Регулярное выражение для извлечения данных ?*
Разберем *matches = re.findall(r'installment_0_0_(\d+)_([\d,.]+)', value) подробно:
1. Ищет буквальный текст "installment_0_0_" в строке.

(\d+): Находит одну или более цифр и сохраняет их как первую группу захвата (срок кредитования).
Ищет символ подчеркивания _.

4.([\d,.]+): Находит одну или более цифр, запятых или точек и сохраняет их как вторую группу захвата (ставка кредита).

Метод re.findall возвращает список кортежей, каждый из которых содержит группы захвата.

У нас получился датафрейм с колонками client_id, rate и term. Вуаля! А теперь можно отфильтровать нужное.

✔️Фильтрация данных ?
Далее я фильтрую данные по заданным условиям. Проценты не должны превышать определенных значений для каждого срока рассрочки

\# Определение условий фильтрации conditions = { "Срок рассрочки 3 мес.": 5.93, "Срок рассрочки 4 мес.": 6.64, "Срок рассрочки 6 мес.": 7.05 } filtered\_df = processed\_df[processed\_df.apply( lambda row: row['term'] in conditions and row['rate'] <= conditions[row['term']], axis=1)]

?Так как код большой, то я оставлю ссылку на юпитер ноутбук. Тестируйте, модифицируйте.

537 #

5 months, 1 week ago

Котятки?,
Диаграмма Sankey - мой самый нелюбимый тип диаграмм, так как шаг влево-шаг вправо - и она становится нечитаемой.
При этом при грамотном применении она максимально информативна.
Я искала наиболее удачную методологию её построения, а нашла Клондайк - сайт-ода этой диаграмме.
Внутри: методология, примеры, вдохновение, история, статьи.
Мой любимый раздел - конечно, фейки, как соврать и испортить статистику неудачной диаграммой.
Сайт: https://www.sankey-diagrams.com/
Моя любимая серия постов:
https://www.sankey-diagrams.com/lying-with-sankey-diagrams-5/

Sankey-Diagrams

Sankey Diagrams – A Sankey diagram says more than 1000 pie charts

A blog dedicated to Sankey diagrams. These diagrams visualize material or energy flows with proportional arrow magnitudes. Phineas features sample Sankey diagrams and discusses them.

724 #

We recommend to visit

Крипто Стукач | Инвестиции | Заработок

1,525,355 @crypto_stukach

Last updated 1 month ago

E V O L U T I O N

1,099,982 @evo_memy

Last updated 5 days, 22 hours ago

Кулинария Рецепты 🧑‍🍳

774,511 @kulinariya_retsept

Last updated 1 week, 6 days ago