Статистика и R в науке и аналитике

Description
Привествую всех! Мой канал посвящен интересному в мире статистических методов и фишкам языка R. Также провожу индивидуальные консультации по статистике и R.
По всем вопросам - @lena_astr
Подборка источников по статистике: https://t.me/stats_for_science/73
We recommend to visit
Roxman
Roxman
10,496,004 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 4 days, 20 hours ago

HAYZON
HAYZON
5,764,933 @hayzonn

? How to create capital and increase it using cryptocurrency

? ???????: @Tg_Syprion
? ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ ??? ????: @major
? ?? ????????: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 2 weeks, 2 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago

2 months, 3 weeks ago

Новый курс по tidyverse ? на stepik

В начале мая мы совместно с Blastim и Мишей выпустили мини-курс, посвященный разбору tidyverse, в основном dplyr ?.
Я настояла на том, чтобы курс был бесплатным и пройти его могли все желающие.
Можно проходить в любое время, дедлайнов нет, есть лекционный материал и задания на проверку пройденного. Курс рассчитан как на начинающих, кто только знакомится с R, так и на тех, кто уже знаком с основными функциями R и пакетом dplyr, но желает структурировать информацию. На мой взгляд, получилось достаточно неплохо, думаю дальше продолжать развивать это направление, например уделить время разбору функционального подхода к программированию в R и пакету purrr, а также философии графиков ggplot2. Правда, по последнему кажется, что материалов и так хватает. Но в целом у каждого преподавателя свой стиль подачи материала и акценты на разные ключевые моменты, поэтому я считаю, что чем больше будет источников и курсов - тем лучше.

Записывайтесь на курс, пишите комментарии и отзывы, всех жду!

#R #tidyverse #recommendation

@stats_for_science

3 months, 1 week ago
**Отзыв о конференции Aha**'24 ***?***

Отзыв о конференции Aha'24 ?

Две недели назад (06.06) сходила на конференцию Aha по продуктовой аналитике, про которую писала в прошлый раз.

Вообще я в первый раз посетила именно айти конференцию, по сравнению с научными специфика и формат сильно отличается. Понравилось, что помимо докладов было достаточно много стендовых оффлайн-активностей, викторины, настольные игры и прочее. Неплохо было бы добавить такое на научные конференции для упрощения нетворка, но конечно это маловероятно, да и скорее всего неуместно.
Атмосфера тоже отличается от научных конференций, как будто люди в целом проще и можно было спокойно поговорить со спикерами + нет ощущения, что часть людей присутствует на конференции только для того чтобы отчитаться по грантам.

Было много параллельных секций докладов, из-за чего сразу не получилось послушать все, что хотелось, но можно посмотреть в записи, хотя с ними были небольшие технические проблемы. Понравились доклады про сетевые эффекты в юнит экономике и про размен метрик (как паковать молоко по 0.9 л).

Удалось познакомиться лично и пообщаться с админами телеграм-каналов: Борзило, аналитика на кубах, Не AБы какие тесты и просто с аналитиками из разных компаний (что удивительно, без телеграм каналов).
Очень прикольно было поучаствовать в различных викторинах от яндекса и сбермаркета, где вопросы были примерно как на собеседованиях, но в игровой форме.
Фотографий на конференции особо не делала, прикрепляю выигранный мерч и стикерпаки, которые раздавали все компании со стендами.

В целом для меня самое полезное в конференции — это знакомство и общение с продуктовыми аналитиками и возможность обсудить рабочие и не только вопросы, плюс осталось много непросмотренных докладов, которые собираюсь досмотреть.
Конференцию рекомендую, обязательно съезжу еще, если получится.

#product #analytics

@stats_for_science

4 months, 2 weeks ago
4 months, 3 weeks ago

Пост-знакомство с Еленой, создательницей и ведущей этого канала

Всем привет! В последнее время появилось много новых подписчиков, а общее число перевалило за 2000. Новым подписчикам — добро пожаловать, старым — спасибо, что остаетесь и продолжаете читать.

Этот пост, чтобы обновить информацию о себе, потому что про себя я рассказывала почти два года назад, за это время много что изменилось.

Я решила уйти из биоинформатической аспирантуры и перейти в дата аналитику. На первую работу в этой области устроилась в мае 2023 года, а в настоящий момент уже два месяца работаю в X5 Tech (в направлении аналитики и визуализации), стек SQL (ClickHouse), R, Grafana.

Мне нравится, что в нашей группе получается применить навыки работы в R + использовать самые передовые подходы, например работу в data.table. Задач по статистике пока нет, но мне хватает преподавания и записи ютуб-лекций. Кроме этого, изучаю материалы по продуктовой аналитике, в особенности что касается проведения A/B тестов.

Для перехода в DA понадобилось выучить SQL и научиться работать с дашбордами, а R и python у меня уже были на достаточно хорошем уровне. Если интересно, могу в следующих постах рассказать чуть более подробно про то, насколько сложно было перекатиться в другую область.

По поводу преподавания можно посмотреть обновленную информацию здесь.

На канале собираюсь выкладывать в том числе материалы, посвященные продуктовой аналитике

Статистика и R

Telegram

Статистика и R в науке и аналитике

Привествую всех! Мой канал посвящен интересному в мире статистических методов и фишкам языка R. Также провожу индивидуальные консультации по статистике и R. По всем вопросам - @lena\_astr Подборка источников по статистике: https://t.me/stats\_for\_science/73

**Пост-знакомство с Еленой, создательницей и ведущей этого канала**
5 months, 3 weeks ago

Новое видео про описательные статистики ?

Я после перерыва выпустила первое видео из серии статистики, посмотреть его можно здесь. К сожалению не успела на этих выходных записать продолжение, но чуть позже должна найти время на запись. Немного непривычен формат коротких лекций без общения с аудиторией, психологически проще рассказывать кому-то и в менее сжатой форме. Для ютуб-формата нужно делать материал более концентрированным с четкими границами тем. Думаю, это более удобно для слушателя, но сложнее для лектора.

А какой формат для восприятия более удобен и привычен вам? Короткие 10-15 минутные видео по одной теме или полуторачасовые лекции на более широкий спектр тем? Пишите в комментарии или ставьте реакции: ✍️ за длинные лекции, ? за более короткий ютуб-формат.

#stats #base_stat

YouTube

Statistics 1 - введение в статистику. Описательные статистики

Разбор описательных статистик, мер центральной тенденции и мер изменчивости. Подробнее, почему нужно делить на n-1 в знаменателе здесь: https://www.youtube.com/watch?v=sHRBg6BhKjI Подписывайтесь на телеграм-канал: https://t.me/stats\_for\_science

6 months, 4 weeks ago

Не только tidyverse: материалы по data.table

По работе понадобилось разбираться с data.table, который я игнорировала достаточно долгое время, в силу отсутствия особой необходимости работы с большими объемами данных. На самом деле давно пора было, потому что он реально нужен в арсенале инструментов аналитика данных.

Для быстрого освоения data.table рекомендую материалы (учебник и запись вебинаров) Филиппа Управителева, очень здорово расписано. Также документация по dt написана достаточно лаконично и исчерпывающе (что соответствует dt-подходу в целом).

В целом, в извечном споре tidyverse vs data.table (спор при этом не совсем корректен, так как tidyverse — экосистема пакетов, а data.table один пакет для обработки таблиц) можно не занимать какую-то сторону, а использовать преимущества обоих подходов, подробнее можно почитать у Ильи Шутова на канале R in Action.

Еще вчера вышел перевод Advanced R от Александра Гинько, я уже купила pdf-версию, хочу более внимательно прочитать часть про метапрограммирование, круто, что такие книги появляются на русском языке + можно купить бумажное издание.

#R #tidyverse #data_table

Статистика и R

webinars.rintro.ru

1 Data manipulations | R webinars

1.1 data.table 1.1.1 Операции со строками и колонками, группировка data.table intro pt1 Запись вебинара why data.table? высокая скорость IO / манипуляций (бенчмарки) параллелизация...

7 months, 3 weeks ago

Дорогие подписчики, посты на телеграм-канал возвращаются. Немного выпала из публикаций, в связи с относительно большой преподавательской нагрузкой:

Я все еще провожу репетиторство по основам R и статистики, актуальная стоимость: 2500р в час. А также участвую в проекте Статистика и R для селекционеров (кстати, если кому-то интересно, то еще можно присоединиться).

Еще у Александра Гинько выходит перевод легендарной книги Хэдли Викхама Advanced R, прочитать про перевод можно здесь, а также получить промокод на скидку. Очень здорово, что выходит перевод такой книги, планирую заказать бумажный вариант (в оригинале читала, но на бумаге почитать тоже приятно). От переводчика я ранее читала перевод книги Mastering Shiny, качество перевода очень высокое.

В настоящий момент я больше занимаюсь изучением продуктовой аналитики: продуктовые метрики, A/B тесты и прочие связанные вещи. Собираюсь делиться интересными мыслями на эти темы здесь на канале. От основного фокуса канала, отраженного в названии, не отказываюсь, но хочу немного расширить профиль.

На первый взгляд, продуктовая аналитика может быть вариантом для тех, кто имеет академический бэкграунд и хочет сменить сферу деятельности, но есть проблема, что в большинстве вакансий требуется уже опыт продуктовым аналитиком. Тем не менее, как-то же люди получают опыт, посмотрим. Если тут есть продуктовые аналитики, пожалуйста отметьтесь в комментариях, я бы хотела расспросить про то, как удалось сменить область.

По статистике: я готовлю пост про роль нормального распределения для параметрических статистических тестов, так что оставайтесь на связи, в течение месяца планирую дописать.

Статистика и R

9 months, 2 weeks ago

Один статистик 40 лет проработал в самой успешной биотех компании. Долго, хорошо работал, тимлидом стал.
И была у него всю жизнь одна привычка: каждое утро он открывал левый верхний ящичек стола, заглядывал в него, а потом закрывал на ключик. Когда он ушел на пенсию, сотрудники бросились к столу и вскрыли этот ящик – там лежала старая-старая, потрепанная бумажка, на которой было написано: "p-value это вероятность получить такое же или еще более экстремальное значение тестовой статистики при условии верности нулевой гипотезы"

#fun

@stats_for_science

Telegram

Статистика и R в науке и аналитике

Привествую всех! Мой канал посвящен интересному в мире статистических методов и фишкам языка R. Также провожу индивидуальные консультации по статистике и R. По всем вопросам - @lena\_astr Подборка источников по статистике: https://t.me/stats\_for\_science/73

Один статистик 40 лет проработал в самой успешной биотех компании. Долго, хорошо работал, тимлидом стал.
10 months ago

Поправки на множественное тестирование

Возвращение долгожданных лонгридов по статистике!

На подготовку материала потребовалось достаточно много времени, но думаю получилось очень интересно, читаем пост по ссылке:
https://ubogoeva.github.io/R4Analytics/posts/multiple_testing.html

Если понравилось, обязательно делитесь с друзьями и коллегами, материалов про поправки на русском языке немного, и мне самой в свое время очень бы пригодился подробный разбор.

Также пишите комментарии, какие поправки вы используете в работе, как их выбираете и любые вопросы, дополнения, замечания по посту!

#stats #stat_hard

Статистика и R

ubogoeva.github.io

R4Analytics - Поправки на множественное тестирование

11 months ago

Основные изменения в tidyverse 2.0.0

Совсем недавно (31 октября) вышла новая версия R 4.3.2 и я обнаружила, что на домашнем ноутбуке сижу на версии R уже прошлого года, а значит пора обновиться. К тому же при подготовке лекции по tidyverse обнаружила, что у меня не самая актуальная версия, а ведь еще в марте вышло обновление tidyverse до 2.0.0 версии, о чем мы сегодня поговорим.

Наиболее полно описаны основные изменения в статье Mine Çetinkaya-Rundel "Teaching the tidyverse in 2023", здесь я выделю ключевые моменты.
1) lubridate стал одним из уже 9 пакетов core tidyverse, что для меня довольно удобно, потому что все время нужен для работы с датами и временем.
2) Немного изменился синтаксис функции dplyr::case_when(), теперь значение по умолчанию пишется как .default = , а не TRUE ~ , как было раньше. При этом синтаксис с TRUE все еще работает, что радует, хотя в новых скриптах стоит переходить на новый.
3) Функции if_else() и case_when() перестали быть настолько строгими с пропущенными значениями, так, раньше:

\# previously df |> mutate( x = case\_when( ~ "value 1", ~ "value 2", ~ "value 3", TRUE ~ NA\_character\_ ) )

в случае использования NA в качестве результата выражения, необходимо было прописывать тип пропущенных значений (NA_character_, NA_real_ и тп). Теперь это отменили, что неплохо, хотя мне казалось полезным контролировать тип пропущенных значений. Но если честно, ошибка была непонятная, в случае если не знаешь в чем дело.

4) Появилась возможность прописывать группировку непосредственно в функции summarise() аргументом .by.

\# previously df |> group\_by(x) |> summarize(mean(y))

Это важно, поскольку после group_by() + summarise() датафрейм остается сгруппированным, что может повлиять на дальнейшие расчеты, и иногда необходимо разгруппировать датафрейм. Теперь, если сгруппированный датафрейм не нужен в дальнейшем, то можно написать так:

```
# now, optionally
df |>
summarize(
mean(y),
.by = x
)

```

Звучит неплохо, но связка group_by+summarise уже настолько привычна, что отвыкать придется долго.
В целом, после обновления обратная совместимость сохраняется, порадовало например, что синтаксис с TRUE в case_when() не сломался.

И помимо этого, в телеграме появилась возможность использовать подсветку синтаксиса для чанков с кодом с версии 4.11 для десктопа. Это очень круто, кто еще не сделал, обновите телеграм, код получается супер красивым и отформатированным. Для подсветки синтаксиса используются три бэктика `` и название языка, далее код и три закрывающих бэктика. По умолчанию такое форматирование делаетreprex::reprex()` (про репрекс можно почитать мой пост, который не утратил актуальности).

Также планирую в ближайшие две недели продолжить запись лекций по R, так что обязательно следите за новостями!

Пишите комментарии, заценили ли обновление tidyverse и телеграма, используете ли аргумент .by вместо group_by() и любые вопросы!

#R #tidyverse

www.tidyverse.org

Teaching the tidyverse in 2023 - Tidyverse

Recommendations for teaching the tidyverse in 2023, summarizing package updates most relevant for teaching data science with the tidyverse, particularly to new learners.

**Основные изменения в** `tidyverse 2.0.0`
We recommend to visit
Roxman
Roxman
10,496,004 @roxman

Sharing my thoughts, discussing my projects, and traveling the world.

Contact: @borz

Last updated 4 days, 20 hours ago

HAYZON
HAYZON
5,764,933 @hayzonn

? How to create capital and increase it using cryptocurrency

? ???????: @Tg_Syprion
? ᴀᴅᴠᴇʀᴛɪsɪɴɢ: @SEO_Fam
⭐️ ??? ????: @major
? ?? ????????: @kriptofo @tonfo
@geekstonmedia

Купить рекламу: https://telega.in/c/hayzonn

Last updated 2 weeks, 2 days ago

Канал для поиска исполнителей для разных задач и организации мини конкурсов

Last updated 1 month ago