Пристанище Дата Сайентиста

Description
Канал Рената Алимбекова (@alimbekovkz) про карьеру, применение и обучение Data Science. Веду блог https://alimbekov.com

По вопросам рекламы на канале обращаться к менеджеру: @hey_renataa
Advertising
We recommend to visit
HAYZON
HAYZON
5,835,362 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 1 month, 1 week ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 1 month ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 2 weeks ago

1 month, 1 week ago
Использование компанией ETL и BI-платформ говорит …

Использование компанией ETL и BI-платформ говорит о том, что внутри бизнеса существует достаточно много процессов, данные о которых нужно регулярно собирать и упорядочивать.

Зачастую выгрузка этих данных носит регулярный характер - такие процессы хочется автоматизировать.

Автоматизация процессов в ETL может происходить разными способами — в том числе по расписанию, по требованию, по условию или через API.

👇👇👇
Автоматизация процессов по расписанию оптимизирует обработку данных, заранее определяя время запуска регулярных операций. Например, так можно повысить эффективность:

📉 Ежедневного обновления отчетов. Компании, которые каждый день проводят утренние планерки, должны получать актуальные данные о продажах или состоянии запасов еще до начала совещаний. Для этого можно настроить ежедневное обновление отчетности на 6:00 утра — тогда команда сможет автоматически получать свежую информацию о бизнесе, сэкономив время и человеческие ресурсы на ручном формировании отчетов.

📉 Ночных проверок системы. Для поддержания целостности данных и правильной работы журналов ошибок необходимы...читать далее

P.S. Подписывайся на тг-канал Модус, чтобы знать ещё больше об аналитике и управлении данными🙂

3 months, 1 week ago
[#llm](?q=%23llm) [#blog](?q=%23blog)

#llm #blog

Основные тенденции в развитии рассуждений LLM

Решил вместо трех маленьких постов сюда в телеграм канал сделать один большой пост про  тенденции в развитии рассуждений LLM.

Краткое содержания блогпоста:
- Chain of Thought (CoT) – это техника, которая значительно улучшает производительность в задачах, связанных с математикой и логикой, благодаря добавлению промежуточных шагов рассуждений. CoT может применяться избирательно, что позволяет сохранять вычислительную эффективность.
- Diagram of Thought (DoT) – предлагает новый способ структурирования рассуждений через направленные ациклические графы (DAG). Это позволяет моделям выходить за рамки линейных или древовидных рассуждений, охватывая более сложные и строгие логические выводы.
- Iteration of Thought (IoT) – внедряет динамический процесс корректировки рассуждений через агент внутреннего диалога. В отличие от жёстких процессов CoT и DoT, IoT адаптируется к промежуточным результатам, позволяя моделям точнее уточнять ответы на сложные вопросы.

Ссылка на блог пост

3 months, 2 weeks ago
[#llm](?q=%23llm) [#blog](?q=%23blog)

#llm #blog

Все новое из мира Large Language Model

За последний месяц произошло очень интересных и знаковых событий в мире Large Language Model (LLM).

Собрал все в один пост в своем блоге

Там вы найдете информацию про новые версии Gemini, новую модель DataGemma от Google, супер новинку Llama 3.2 с возможностями Computer Vision

Всем приятного чтения: https://alimbekov.com/%d0%b2%d1%81%d0%b5-%d0%bd%d0%be%d0%b2%d0%be%d0%b5-%d0%b8%d0%b7-%d0%bc%d0%b8%d1%80%d0%b0-large-language-model/

4 months, 3 weeks ago

Pandas для Data Science

Я решил написать небольшой цикл статей для начинающих вкатываться в Data Sciеnce и Machine Learning.

В интернете много курсов по Data Science, я даже о них писал пост. Но в них часто мало дают практические приемы для реальной работы.

В своих статьях я хотел сделать больше акцент на практические приемы и сделать сквозной проект от основы до построения хорошей модели.

В первой статье Pandas для Data Science попытался раскрыть такие темы как:
- основы Python для Pandas
- основы работы с Pandas
- важные техники работы с Pandas, которые пригодятся в построении моделей
- Работа с плохими данными
- Исследование аномалий
- Работа с пропусками

Ссылка на статью

Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering

Pandas для Data Science - Практические советы

Pandas для Data Science - Практические советы, работа с аномалиями, подготовка данных для обучения моделей, работа с пропусками

7 months, 3 weeks ago

Всем привет ?! За несколько последних дней на канале добавилось много новых подписчиков. Рад вас приветствовать на канале.

Немного расскажу о себе. Меня зовут Ренат Алимбеков, я живу и работаю в городе Алматы. С недавних пор работаю в американском стартапе Conformal Group в качестве Research Engineer, но об этом чуть позже будет пост. С остальным моим профессиональным опытом можно ознакомиться в LI (добавляйтесь)

Для всех подписчиков и особенно для тех кто к нам присоединился недавно публикую подборку старых постов. Надеюсь это поможет с навигацией и удобным поиском информации на канале.

Пишете в комментариях о чём было бы интересно почитать.?

??‍? Про курсы и обучение хэштег #course

Как освоить Data Science — личный опыт
Прокачиваемся до computer vision researcher
Как стать Machine Learning Engineer

? Production хэштег #production

Machine learning в продакшн — Flask REST API
BentoML

? Полезное хэштег #полезно

Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Пост в блоге про выбор логирования в Python

? Подборки

Основы Python
Статистический анализ данных
Pandas и А/Б тесты
Сбор и хранение данных

А еще я написал буклеты по подготовке к Data Science интервью:

- Data Science Interview Guide (на англ. языке) по промокоду BLOG скидка 2 $
- Руководство по подготовке к Data Science интервью (на рус. языке) о промокоду BLOG скидка 2 $

9 months ago

Погружение в LLM часть вторая

В первой части мы разобрали практическую часть погружения в LLM.

В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.

Все начинается с первой гпт

Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.

Дальше есть пара интересных пейперов:
- SELF-INSTRUCT
- Information Retrieval with Contrastive Learning

Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:
- скорость обучения
- вычислительные ресурсы
- эффективность памяти

Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.

Ну и на последок:
- Switch Transformers - как база Mixtures of experts
- Mixtral of Experts - как Open Source SOTA
- Llama 2

Всем приятного чтения

We recommend to visit
HAYZON
HAYZON
5,835,362 @hayzonn

لا اله الا الله محمد رسول الله

👤 𝐅𝐨𝐮𝐧𝐝𝐞𝐫: @Tg_Syprion
🗓 ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
Мои каналы: @mazzafam

Last updated 1 month, 1 week ago

Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.

Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support

Last updated 1 month ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month, 2 weeks ago