Рассказываю про крипту и инвестиции на понятном языке.
Сотрудничество — @TGowner999
Больше информации о нашей сети: https://t.me/TGownerTOP
Last updated 1 month ago
Утро начинается не с кофе.
Сотрудничество: @evoanna (по всем вопросам, только мне писать)
Канал в реестре: https://clck.ru/3FCQfU
Last updated 5 days, 22 hours ago
Самые любимые рецепты для Вас!
Контакт: @khaitbayev
Доверенные менеджеры тут:
https://t.me/+reWsclRikXIxOTcy
Ссылка для приглашения: https://t.me/+wsrt9bX3G1U3Zjg6
Last updated 1 week, 6 days ago
Алгоритмы и структуры для массивных наборов данных [2023] Меджедович Дж., Тахирович Э.pdf
Стандартные алгоритмы и структуры при применении к крупным распределенным наборам данных могут становиться медленными — или вообще не работать. Правильный подбор алгоритмов, предназначенных для работы с большими данными, экономит время, повышает точность и снижает стоимость обработки.
Книга знакомит с методами обработки и анализа больших распределенных данных. Насыщенное отраслевыми историями и занимательными иллюстрациями, это удобное руководство позволяет легко понять даже сложные концепции. Вы научитесь применять на реальных примерах такие мощные алгоритмы, как фильтры Блума, набросок count-min, HyperLogLog и LSM-деревья, в своих собственных проектах.
Были ещё ответы, что проценты — это часть от целого, и нельзя визуализировать их кругами. Это не так.
Проценты бывают разные — в некоторых случаях они являются частью одного целого, а в некоторых — разных целых (как тут).
При визуализации надо отталкиваться, в первую очередь, от цели.
И цель тут — сравнить числа между собой, бабблы её вполне решают.
И на всякий случай!
Как казаться умным
- Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора
- Просите вернуться на один слайд назад без всякой причины
- Побуждайте всех "сделать шаг назад"
- Повторяйте последнюю фразу инженера, но очень медленно
- Спрашивайте, задаем ли мы правильные вопросы
- Ходите по комнате
- Выйдите и сделайте вид, что получили важный телефонный звонок
- Спрашивайте, не смешиваем ли мы несколько вопросов
- Перебивайте чье-то обновление, а затем дайте им закончить
- В онлайн звонке отправить emoji или reaction, и похвалить спикера
- Спросить про следующие шаги и action plan
- Уточнить сроки (dead line)
- Спросить есть ли у нас OKR и как мы будем их измерить?
- На всякие случай спросить, а результат точно имеет tangible output?
Дополните список!
Книга "Практический анализ временных рядов: прогнозирование со статистикой и машинное обучение"
Котятки?,
У меня была охренительная история, как я пыталась по гайду подрубить Tableau к Mongo. Я рассказывала тут позднюю версию, а чуть дальше у меня была история с максимально печальным концом с SDK.
SDK в большинстве случаев это библиотека/пакет или целая среда, куда вы можете запустить ваших программистов и они напилят (теоретически) вам интеграцию с источником там, где её быть не должно.
Вот тут список BI/построителей с SDK, но он не полный, того же SDK Power Query там нет.
http://www.discoversdk.com/categories/business-intelligence?pn=1&tpo=true
P. S. Когда-то наличие SDK у меня входило в перечень критериев для выбора BI- инструмента. Я была юна и немного тупа, ибо не до конца понимала, что любой кастомный код надо не только писать, но и поддерживать, обвешивать тестами и править баги.
Сейчас, в случае отсутствия коннектора у уже стоящей BI (которую фиг заменишь) к моему редкому источнику, я просто прокидываю данные из источника в ту базенку, где коннектор есть. Да, цепочка через третьи среды это такое себе, и да, слово колхоз мне говорили.
Но с одноразовой историей, как говорится, и excel тебе дашборд нарисует.
discoversdk
Business Intelligence | DiscoverSdk
Top 31 Business Intelligence tools,reviews and details of the best apps online
⚡️Хитрая задачка с работы.
Попросили меня выгрузить всех клиентов, у которых ставка кредита меньше или равно указанных. Должны быть меньше вот этих (как пример, цифры придуманные):
? Срок рассрочки 3 мес.: 5.93%
? Срок рассрочки 4 мес.: 6.64%
? Срок рассрочки 6 мес.: 7.05%
В базе данные хранятся у каждого клиента в параметре value просто как текст:
installment_0_0_3_7,59 Срок рассрочки 3 мес. installment_0_0_4_8,42 Срок рассрочки 4 мес. installment_0_0_6_10,84 Срок рассрочки 6 мес.Сравнить нужно не только ставку, но и соотнести с продолжительностью кредита.
Решение ?
✔️Генерация данных. ? Создадим небольшой датафрейм:
data = [
{
'client\_id': 111,
'value': 'installment\_0\_0\_3\_7,59 Срок рассрочки 3 мес.'
'installment\_0\_0\_4\_8,42 Срок рассрочки 4 мес.'
'installment\_0\_0\_6\_10,84 Срок рассрочки 6 мес.'
},
{
'client\_id': 222,
'value': 'installment\_0\_0\_3\_4,93 Срок рассрочки 3 мес.'
},
{
'client\_id': 333,
'value': 'installment\_0\_0\_4\_5,64 Срок рассрочки 4 мес.'
'installment\_0\_0\_6\_6,05 Срок рассрочки 6 мес.'
},
{
'client\_id': 444,
'value': 'installment\_0\_0\_3\_7,78 Срок рассрочки 3 мес.'
'installment\_0\_0\_6\_9,60 Срок рассрочки 6 мес.'
},
{
'client\_id': 555,
'value': 'installment\_0\_0\_4\_8,57 Срок рассрочки 4 мес.'
'installment\_0\_0\_6\_8 Срок рассрочки 6 мес.'
}
]
\# Создание DataFrame
df = pd.DataFrame(data)
Обработка данных ?*
✔️*** Создаем пустой список для хранения обработанных данных.
processed\_data = []
*✔️*Извлечение данных с помощью iterrows() ?****
Для каждой строки извлекаем client_id, сроки рассрочки и процентные ставки из столбца value. Используем регулярное выражение для поиска всех совпадений в value, которые соответствуют шаблону installment_0_0__.
*?Как работает iterrows() ?* Метод iterrows() проходит по строкам DataFrame и возвращает пары (index, row) для каждой строки. Здесь index - это индекс строки, а row - это Series, представляющая данные строки.
То есть я извлекаю сроки рассрочки и процентные ставки из колонки value и потом добавляю их в новый DataFrame.
```
for index, row in df.iterrows():
client_id = row['client_id']
value = row['value']
\# Извлечение сроков и ставок с помощью регулярного выражения
matches = re.findall(r'installment\_0\_0\_(\d+)\_([\d,\.]+)', value)
for match in matches:
term = f"Срок рассрочки {match[0]} мес."
rate\_str = match[1].replace(',', '.')
rate\_str = re.sub(r'\.$', '', rate\_str)
rate = float(rate\_str)
processed\_data.append({
'client\_id': client\_id,
'rate': rate,
'term': term
})
# Создание нового DataFrame из обработанных данных
processed_df = pd.DataFrame(processed_data)
```
Регулярное выражение для извлечения данных ?*
Разберем *matches = re.findall(r'installment_0_0_(\d+)_([\d,.]+)', value) подробно:
1. Ищет буквальный текст "installment_0_0_" в строке.
(\d+): Находит одну или более цифр и сохраняет их как первую группу захвата (срок кредитования).
Ищет символ подчеркивания _.
4.([\d,.]+): Находит одну или более цифр, запятых или точек и сохраняет их как вторую группу захвата (ставка кредита).
У нас получился датафрейм с колонками client_id, rate и term. Вуаля! А теперь можно отфильтровать нужное.
✔️Фильтрация данных ?
Далее я фильтрую данные по заданным условиям. Проценты не должны превышать определенных значений для каждого срока рассрочки
\# Определение условий фильтрации
conditions = {
"Срок рассрочки 3 мес.": 5.93,
"Срок рассрочки 4 мес.": 6.64,
"Срок рассрочки 6 мес.": 7.05
}
filtered\_df = processed\_df[processed\_df.apply(
lambda row: row['term'] in conditions and row['rate'] <= conditions[row['term']], axis=1)]
?Так как код большой, то я оставлю ссылку на юпитер ноутбук. Тестируйте, модифицируйте.
Котятки?,
Диаграмма Sankey - мой самый нелюбимый тип диаграмм, так как шаг влево-шаг вправо - и она становится нечитаемой.
При этом при грамотном применении она максимально информативна.
Я искала наиболее удачную методологию её построения, а нашла Клондайк - сайт-ода этой диаграмме.
Внутри: методология, примеры, вдохновение, история, статьи.
Мой любимый раздел - конечно, фейки, как соврать и испортить статистику неудачной диаграммой.
Сайт: https://www.sankey-diagrams.com/
Моя любимая серия постов:
https://www.sankey-diagrams.com/lying-with-sankey-diagrams-5/
Sankey-Diagrams
Sankey Diagrams – A Sankey diagram says more than 1000 pie charts
A blog dedicated to Sankey diagrams. These diagrams visualize material or energy flows with proportional arrow magnitudes. Phineas features sample Sankey diagrams and discusses them.
Рассказываю про крипту и инвестиции на понятном языке.
Сотрудничество — @TGowner999
Больше информации о нашей сети: https://t.me/TGownerTOP
Last updated 1 month ago
Утро начинается не с кофе.
Сотрудничество: @evoanna (по всем вопросам, только мне писать)
Канал в реестре: https://clck.ru/3FCQfU
Last updated 5 days, 22 hours ago
Самые любимые рецепты для Вас!
Контакт: @khaitbayev
Доверенные менеджеры тут:
https://t.me/+reWsclRikXIxOTcy
Ссылка для приглашения: https://t.me/+wsrt9bX3G1U3Zjg6
Last updated 1 week, 6 days ago