Это разве аналитика?

Description
Привет, я Андрей @ab0xa, bi / de / java dev

Анализ данных и визуализация, интересные ссылки, вакансии, уроки, юмор) и личный опыт

Стек технологий Python, Java, SQL, Tableau, Knime, Yandex.Облако, Yandex DataLens
Advertising
We recommend to visit

Рассказываю про крипту и инвестиции на понятном языке.

Сотрудничество — @TGowner999

Больше информации о нашей сети: https://t.me/TGownerTOP

Last updated 1 day, 19 hours ago

Утро начинается не с кофе.

Сотрудничество: @evoanna (по всем вопросам, только мне писать)

Last updated 1 month, 3 weeks ago

Канал кто хочет легко заработать в интернете

По поводу рекламы - @pavelWbprice

Last updated 2 months ago

1 week, 2 days ago

Алгоритмы и структуры для массивных наборов данных [2023] Меджедович Дж., Тахирович Э.pdf

Стандартные алгоритмы и структуры при применении к крупным распределенным наборам данных могут становиться медленными — или вообще не работать. Правильный подбор алгоритмов, предназначенных для работы с большими данными, экономит время, повышает точность и снижает стоимость обработки.
Книга знакомит с методами обработки и анализа больших распределенных данных. Насыщенное отраслевыми историями и занимательными иллюстрациями, это удобное руководство позволяет легко понять даже сложные концепции. Вы научитесь применять на реальных примерах такие мощные алгоритмы, как фильтры Блума, набросок count-min, HyperLogLog и LSM-деревья, в своих собственных проектах.

1 week, 3 days ago

Были ещё ответы, что проценты — это часть от целого, и нельзя визуализировать их кругами. Это не так.

Проценты бывают разные — в некоторых случаях они являются частью одного целого, а в некоторых — разных целых (как тут).

При визуализации надо отталкиваться, в первую очередь, от цели.
И цель тут — сравнить числа между собой, бабблы её вполне решают.

1 week, 3 days ago
3 months, 1 week ago

И на всякий случай!

Как казаться умным
- Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора
- Просите вернуться на один слайд назад без всякой причины
- Побуждайте всех "сделать шаг назад"
- Повторяйте последнюю фразу инженера, но очень медленно
- Спрашивайте, задаем ли мы правильные вопросы
- Ходите по комнате
- Выйдите и сделайте вид, что получили важный телефонный звонок
- Спрашивайте, не смешиваем ли мы несколько вопросов
- Перебивайте чье-то обновление, а затем дайте им закончить
- В онлайн звонке отправить emoji или reaction, и похвалить спикера
- Спросить про следующие шаги и action plan
- Уточнить сроки (dead line)
- Спросить есть ли у нас OKR и как мы будем их измерить?
- На всякие случай спросить, а результат точно имеет tangible output?

Дополните список!

3 months, 1 week ago

Книга "Практический анализ временных рядов: прогнозирование со статистикой и машинное обучение"

3 months, 1 week ago

Котятки?,
У меня была охренительная история, как я пыталась по гайду подрубить Tableau к Mongo. Я рассказывала тут позднюю версию, а чуть дальше у меня была история с максимально печальным концом с SDK.
SDK в большинстве случаев это библиотека/пакет или целая среда, куда вы можете запустить ваших программистов и они напилят (теоретически) вам интеграцию с источником там, где её быть не должно.
Вот тут список BI/построителей с SDK, но он не полный, того же SDK Power Query там нет.
http://www.discoversdk.com/categories/business-intelligence?pn=1&tpo=true
P. S. Когда-то наличие SDK у меня входило в перечень критериев для выбора BI- инструмента. Я была юна и немного тупа, ибо не до конца понимала, что любой кастомный код надо не только писать, но и поддерживать, обвешивать тестами и править баги.
Сейчас, в случае отсутствия коннектора у уже стоящей BI (которую фиг заменишь) к моему редкому источнику, я просто прокидываю данные из источника в ту базенку, где коннектор есть. Да, цепочка через третьи среды это такое себе, и да, слово колхоз мне говорили.
Но с одноразовой историей, как говорится, и excel тебе дашборд нарисует.

discoversdk

Business Intelligence | DiscoverSdk

Top 31 Business Intelligence tools,reviews and details of the best apps online

3 months, 1 week ago

⚡️Хитрая задачка с работы.

Попросили меня выгрузить всех клиентов, у которых ставка кредита меньше или равно указанных. Должны быть меньше вот этих (как пример, цифры придуманные):
? Срок рассрочки 3 мес.: 5.93%
? Срок рассрочки 4 мес.: 6.64%
? Срок рассрочки 6 мес.: 7.05%

В базе данные хранятся у каждого клиента в параметре value просто как текст:
installment_0_0_3_7,59 Срок рассрочки 3 мес. installment_0_0_4_8,42 Срок рассрочки 4 мес. installment_0_0_6_10,84 Срок рассрочки 6 мес.Сравнить нужно не только ставку, но и соотнести с продолжительностью кредита.

Решение ?
✔️Генерация данных. ? Создадим небольшой датафрейм:

data = [ { 'client\_id': 111, 'value': 'installment\_0\_0\_3\_7,59 Срок рассрочки 3 мес.' 'installment\_0\_0\_4\_8,42 Срок рассрочки 4 мес.' 'installment\_0\_0\_6\_10,84 Срок рассрочки 6 мес.' }, { 'client\_id': 222, 'value': 'installment\_0\_0\_3\_4,93 Срок рассрочки 3 мес.' }, { 'client\_id': 333, 'value': 'installment\_0\_0\_4\_5,64 Срок рассрочки 4 мес.' 'installment\_0\_0\_6\_6,05 Срок рассрочки 6 мес.' }, { 'client\_id': 444, 'value': 'installment\_0\_0\_3\_7,78 Срок рассрочки 3 мес.' 'installment\_0\_0\_6\_9,60 Срок рассрочки 6 мес.' }, { 'client\_id': 555, 'value': 'installment\_0\_0\_4\_8,57 Срок рассрочки 4 мес.' 'installment\_0\_0\_6\_8 Срок рассрочки 6 мес.' } ] \# Создание DataFrame df = pd.DataFrame(data)

Обработка данных ?*
✔️*** Создаем пустой список для хранения обработанных данных.

processed\_data = []

*✔️*Извлечение данных с помощью iterrows() ?****

Для каждой строки извлекаем client_id, сроки рассрочки и процентные ставки из столбца value. Используем регулярное выражение для поиска всех совпадений в value, которые соответствуют шаблону installment_0_0__.

*?Как работает iterrows() ?* Метод iterrows() проходит по строкам DataFrame и возвращает пары (index, row) для каждой строки. Здесь index - это индекс строки, а row - это Series, представляющая данные строки.
То есть я извлекаю сроки рассрочки и процентные ставки из колонки value и потом добавляю их в новый DataFrame.

```
for index, row in df.iterrows():
client_id = row['client_id']
value = row['value']

\# Извлечение сроков и ставок с помощью регулярного выражения matches = re.findall(r'installment\_0\_0\_(\d+)\_([\d,\.]+)', value) for match in matches: term = f"Срок рассрочки {match[0]} мес." rate\_str = match[1].replace(',', '.') rate\_str = re.sub(r'\.$', '', rate\_str) rate = float(rate\_str) processed\_data.append({ 'client\_id': client\_id, 'rate': rate, 'term': term })

# Создание нового DataFrame из обработанных данных
processed_df = pd.DataFrame(processed_data)
```

Регулярное выражение для извлечения данных ?*
Разберем
*matches = re.findall(r'installment_0_0_(\d+)_([\d,.]+)', value)
подробно:
1. Ищет буквальный текст "installment_0_0_" в строке.

  1. (\d+): Находит одну или более цифр и сохраняет их как первую группу захвата (срок кредитования).

  2. Ищет символ подчеркивания _.

4.([\d,.]+): Находит одну или более цифр, запятых или точек и сохраняет их как вторую группу захвата (ставка кредита).

  1. Метод re.findall возвращает список кортежей, каждый из которых содержит группы захвата.

У нас получился датафрейм с колонками client_id, rate и term. Вуаля! А теперь можно отфильтровать нужное.

✔️Фильтрация данных ?
Далее я фильтрую данные по заданным условиям. Проценты не должны превышать определенных значений для каждого срока рассрочки

\# Определение условий фильтрации conditions = { "Срок рассрочки 3 мес.": 5.93, "Срок рассрочки 4 мес.": 6.64, "Срок рассрочки 6 мес.": 7.05 } filtered\_df = processed\_df[processed\_df.apply( lambda row: row['term'] in conditions and row['rate'] <= conditions[row['term']], axis=1)]

?Так как код большой, то я оставлю ссылку на юпитер ноутбук. Тестируйте, модифицируйте.

3 months, 2 weeks ago

Котятки?,
Диаграмма Sankey - мой самый нелюбимый тип диаграмм, так как шаг влево-шаг вправо - и она становится нечитаемой.
При этом при грамотном применении она максимально информативна.
Я искала наиболее удачную методологию её построения, а нашла Клондайк - сайт-ода этой диаграмме.
Внутри: методология, примеры, вдохновение, история, статьи.
Мой любимый раздел - конечно, фейки, как соврать и испортить статистику неудачной диаграммой.
Сайт: https://www.sankey-diagrams.com/
Моя любимая серия постов:
https://www.sankey-diagrams.com/lying-with-sankey-diagrams-5/

Sankey-Diagrams

Sankey Diagrams – A Sankey diagram says more than 1000 pie charts

A blog dedicated to Sankey diagrams. These diagrams visualize material or energy flows with proportional arrow magnitudes. Phineas features sample Sankey diagrams and discusses them.

We recommend to visit

Рассказываю про крипту и инвестиции на понятном языке.

Сотрудничество — @TGowner999

Больше информации о нашей сети: https://t.me/TGownerTOP

Last updated 1 day, 19 hours ago

Утро начинается не с кофе.

Сотрудничество: @evoanna (по всем вопросам, только мне писать)

Last updated 1 month, 3 weeks ago

Канал кто хочет легко заработать в интернете

По поводу рекламы - @pavelWbprice

Last updated 2 months ago