Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 3 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago
История экспериментов ?****
Всем привет, принес Вам тут интересный артефакт , который накопал в комментариях Linked in , а именно, небольшая статья про историю экспериментов от Рона Кохави ?
В ней не так много страниц , но есть пару интересных моментов которые я для себя открыл , например : первое документально подтвержденное упоминание (по исследованию Рона) экспериментов было еще в ветхом завете в книге Даниэля от 2го века нашей эры (сам кейс прочтёте в статье ?, не буду спойлерить)
В общем , если интересна такая тематика , то милости прошу к чтению ?
Выкатка изменения без АБ теста которая зааффектит 80% юзеров или как я не смог остановить поезд ?, но немного его притормозил
Какое то время назад в продукте дизайнерам стали доверять вести UI изменения самим от начала до конца (от идеи до раскатки на юзеров),без продакт менеджеров от слова совсем , хотели таким образом их подразгрузить и я так понимаю по развивать дизайнеров с точки зрения ownership ну и в целом под разнообразить их жизнь.
В итоге дизайнеры почему то решили игнорировать участие аналитики в процессе разработки и зарелизили два изменения о которых я узнал по факту квартального обзора фичей (стоит правда сказать что изменения произошли в глубинах UI куда доходит 1.5% юзеров ), что меня однозначно возмутило и я получил обещание : «Честн слово больше так не будем»
И вот недавно меня добавляют в канал слаке и говорят : «Мы тут допиливаем дарк мод для приложения, никакие АБ тесты мы решили не делать, скажи какие метрики смотреть, мы сразу выкатим на всех (конкретно в этом случае нет возможности для градюал роллаута)?». Залезая в гугл я узнаю что примерно 60-80% пользователей мобилок юзают дарк мод (темная тема для интерфейса в устройстве и приложения) и мне немного плохеет ? , ибо я понимаю что даже малейшее отклонение (-0.5%) конверсии в заказ это более 60к баксов потерь в год.
Немного переведя дух я начал настаивать на АБ тесте , тип ребят, я понимаю что вы очень уверены в своем крутом перекрасе всего UI, но может хотя бы допустим , что может что то пойти не так ? На что я получил твердый ответ главы разработки : «Все будет норм , я не верю что метрика может упасть из за того что мы перекрасили интерфейс в черный цвет, при этом по дефолту люди будут попадать в дарк если у них так стоит в системных настройках, ничего менять не будем, АБ конкретно в этом кейсе 20 стори поинтов».
Ситуацию еще ухудшал тот факт что мой менеджер и глава продукта (не понимаю как он это мог согласовать?) в котором это все происходило были в отпуске ?️ и недоступны , на месте находился только глава разработки на которого оставили возможность принимать решения.
Так как я не намерен был сдаваться , я вспомнил свое прошлое в финансах и пошел считать деньги , во сколько малейшее падение может стоить компании, получились достаточно серьезные минуса , более ляма баксов в год про худшем сценарии. ?
Поделившись этой информацией с ЛПР, он мне сказал: все равно не верю ? Но мне почему то кажется , что все таки поверил ибо удалось договориться об АБ тесте на Андройде (он в разработке еще) и по дефолту оставить Light mode для IOS , но сделать коммуникацию в приложении типа : «мы сделали дарк мод, если хочешь нажми сюда и мы его включим». Да, это конечно не АБ тест, но проникновение фичи должно подубавить раз в 5 по моим прикидкам , что все таки подсократит наши риски.
У меня в целом остались смешанные чувства после такого кейса,скорее в свою сторону (может стоило эскалировать прям высоко и дожать до АБ), а как вы бы поступили в таком случае ?
Как я объяснил менеджерам почему нельзя останавливать АБ тест когда вздумается ?****
Какое то время назад я проводил обучение по АБ тестам для продакт и функциональных менеджеров в компании.
Цель этого обучения я видел в следующем : рассказать основы про АБ тесты менеджерам , что бы заэлайнить аналитиков и менеджеров в подходе и таким образом облегчить жизнь одной и другой сторонам.
Основная сложность в таких обученьках то что аудитория не обладает достаточными знаниями по стастике и терверу, что бы заряжать им все по научному, а значит нужно все объяснять на пальцах, иначе обратная сторона экрана может заснуть?
Одной из ,на первый взгляд, непонятной для объяснения на пальцах тем для меня оказалась длинна эксперимента.
А именно донести до аудитории ответ на вопрос , почему надо ждать сколько то времени тест и почему нельзя останавливать его когда вздумается ? (Иногда его задают аналитикам)
Что бы ответь на этот вопрос я решил провести интерактив во время лекции: я взял две одинаковые монеты и стал их подкидывать ?. Одну монету подкинул 10 раз и посчитал конверсию в орла , и с другой монетой я поступил так же. Получилось 0.3 для одной монеты и 0.6 для другой.
После чего спросил аудитории , ну что ребят, выкатываем фичу в прод? ?
Да такой подход не покрывает всю сторону вопроса , но зато, в моем случае, впечатлил слушателей и как мне сказала одна коллега , она на всегда запомнила почему не правильно останавливать тесты даже когда ты видишь крутые прокрасы ?
Хороший телеграмм канал по АБ
Всем привет !
Недавно обсуждали с Серёжей Матросовым (Principal Product and Marketing Analyst X5 retail group) mSPRT подход в личке и он вдохновился написать серию постов на тему mSPRT у себя в канале (ссылкана первый пост в серии).
Вообще в целом хотел порекомендовать его канал как отличный ресурс по АБ тестам, в нём Серёжа очень понятно и последовательно рассказывает о темах связанных с экспериментами, которые на первый взгляд кажутся сложными, подписывайтесь ?
Telegram
Не AБы какие тесты
Привет, товарищи статистики! Набросок по одному из способов останавливать тест заранее. Если вы читали пост по подглядыванию в тест, то могли увидеть/предположить, что p-value при верности нулевой гипотезы как будто редко когда последовательно [0.04, 0.039…
Experimentation Library for intermediates ?****Всем привет !
Небольшая предыстория, какое то время назад у меня появилась привычка складывать в saved messages в телеграмм всё что нахожу интересное на просторах интернета ?
И тут я на днях решил подразобрать эту самую вкладку и чуть систематизировать ссылки на полезные ресурсы связанные с экспериментами , которые я ещё либо совсем не читал , но собираюсь, либо ресурсы которые я не хочу потерять.
Конечно я разобрал не всё, а где то последние месяца три, что натаскал, но в итоге у меня получился небольшой документ Notion , в котором собралось разных ссылок на материалы (видео + статьи, пока что всего 33) , как на русском , так и на английском языке. Которые включают в себя следующие разделы :
Platforms - тут ссылки на различные статьи по платформам экспериментов, начиная со старой статьи от Авито , заканчивая **новой платформой Uber
Proxies - тут про выявления прокси метрик
Long term effects estimation - название говорит само за себя ?
Experiment design & analysis -тут всякие статьи про свитчбеки , оценки дисперсии для дельта метода и так далее.
Holdouts - название говорит само за себя ?
Bayesian awareness - проблемы bayesian подхода AA tests - пока что тут всего одна статья про АА тесты , но буду пополнять.
Other** - тут всякая сборная солянка , по типа что и когда использовать : Бандиты или эксперименты ? В общем всё что мне показалось интересным , но не понял куда всунуть.
Хочу сразу сказать, чтосреди ссылок вы не найдёте статьи по типа : как сравнить конверсии при помощи Z-test ? Подборка рассчитана на людей с более менее устаканившимися знаниями в области экспериментовВ дальнейшем , я планирую добавлять туда новые ссылки , о чём буду анонсировать в канале.
Ставьте ? , **если считаете , что этот ресурс может быть полезным для вас
P.S. , приглашаю вас оставлять комментарии со ссылками в документ Notion** , к разделам, если знаете ещё какие либо полезные ресурсы и хотели бы поделиться.
Dmitry's Workspace on Notion
Experimentation Library for intermediates 🔬 by Varsanovich | Notion
Dear viewer, I’d like to share with you my library of resources related to experimentation in tech that aimed on experts who have intermediate knowledge in the topic. This source will be updated on monthly basis.
Эффект новизны в эксперименте (novelty effect) ✨****
Всем , привет!
Давно не писал, меня забрал тервер из MIT, осталось еще 2 месяца, надеюсь доживу?
Но что бы вы меня совсем не теряли, хочу коротко поговорить про эффект новизны в АБ тестах.
Что это такое ??*Эффект новизны это ситуация когда вы запускаете новую фичу в продукте, ваши пользователи замечают это изменение и начинают проявлять интерес , с мыслями : «О, ничего себе какая новая штука появилась , дай потыкаюсь ?***»
В чем тут проблема??****С одной стороны интерес к новой фиче это отличная новость, но с точки зрения эксперимента это скорее проблема чем бенефит. Все потому что такой активный интерес к новой фиче он временный и если включить его в результаты эксперимента , то ваш ожидаемый средний эффект от новой фичи будет завышен (эффект новизны со временем улетучивается)
Как обнаружить? ?️♂️****
Можно в целом наблюдать этот эффект на временных рядах. То есть как только вы выпустили фичу , есть очень высокая активность, но со временем она улетучивается. Скорее всего эффект новизны будет наиболее заметен на частых пользователей вашего продукта и не виден на новых пользователях. Мне кажется что если присутствует такая комбинация, то это самый верный способ сказать что у нас случился эффект новизны в эксперименте.
Как лечить ??⚕️****Самый простой и понятный способ отрезать часть дней из анализа где мы наблюдали эффект новизны. И наверное стоит учитывать вероятность эффекта новизны в дизайне эксперимента (очевидно что не во всех экспериментах но может исходить из исторического опыта), что бы не просесть по MDE (Power).
Небольшая заметка по эффекту новизны от Yuzheng Sun (ex Meta, PhD), тут подробнее и более менее с картинками ?
Statsig
Novelty effects: Everything you need to know
Как я собеседовал ChatGPT?
Из тех из вас кто тут достаточно давно, помнят, что я выкладывал вакансию на Middle Product Analyst к нам в Gett, и так сложилось, что я собеседую кандидатов по секции экспериментов.
Моя часть состоит из домашнего задания (задизайнить и проанализировать АБ тест, с условием что есть затраты на фичу) , ну и на очной встрече от меня требуется почелленджить кандидата по статистике и экспериментам.
В один день мне прилетело домашнее задание от одного кандидата. Открываю я значит ноутбук, а там очень знакомые мне комментарии , под знаком хэш # ,обращающиеся ко мне (# create csv , # add … ), над каждой строчкой кода , думаю , ну здравствуй, дорогой GPT ?
Сразу оговорюсь, что я не против решения задач при помощи ИИ, если получается сократить трудо-затраты и получить валидное решение конечно же.
К сожалению, то что я увидел на выходе, не соответствовало вышестоящим критериям. ?
В дизайне эксперимента ChatGPT использовал формулу расчета размера выборки, но вместо эффектсайза там был % лифта, что как вы понимаете уже сильно увеличило требуемое количество людей для теста и уже перезаложило нас на много времени вперед по длительности эксперимента…
В самом анализе , ChatGPT использовал, на самом деле, верный стат метод и сказал что разница между двумя группами стат значима, и торжественно выдал p-value. Но дело в том что в условном задании были затраты на поддержку фичи, о чем ChatGPT успешно забыл или не понял , или человек который промпт ему писал об этом не сообщил , не знаю в общем ?
Но суть в том что если бы это было в реальности , то с таким слепым анализом (без дов интервала) компания могла вполне попасть на деньги. Поэтому тут тоже считаю что GPT и кандидат не справились.
Зачем я об этом пишу?
Я часто слышу, что с появлением ChatGPT мы можем без понимания предмета или инструмента выполнить нашу задачу ничуть не хуже чем человек у которого есть в этом опыт. Ну вот теперь вы знаете что на простом домашнем задании такой подход не сработал…
Так что если кто то собирается сменить работу и заниматься например продуктовой аналитикой, я все таки призываю поразбираться в статистике , покрайней мере пока ?
Буду рад услышать ваши мнения по этому поводу ?
Свежая статья от Netflix ? про использование Sequential AB testing для тестирования новых версий сборок на пользователях
Я думаю все из вас то там то здесь слышали про использование АБ тестов непосредственно в тестировании новых версий сборок перед раскаткой на всю аудиторию. Так вот , ребята из Netflix выпустили статью где они рассказывают как используют Sequential методы для тестирования новых сборок на своих пользователях. Про дизайн таких экспериментов они пишут больше здесь.
В целом надо ли делать или не делать АБ тесты новых сборок , вопрос спорный и наверное всё таки зависит от многих факторов внутри продукта, зрелость , размер аудитории (Нетфликсу, по их словам, надо пару часов держать такие эксперименты что бы задетектить критические изменения в их метриках например, ну то есть Not a big deal ?).
Но в целом если интересно узнать что-то в этом направлении то в качестве отправной точки мне кажется эти статьи вполне подойдут ?
Medium
Sequential A/B Testing Keeps the World Streaming NetflixPart 1: Continuous Data
Michael Lindon, Chris Sanden, Vache Shirikian, Yanjun Liu, Minal Mishra, Martin Tingley
Architec.Ton is a ecosystem on the TON chain with non-custodial wallet, swap, apps catalog and launchpad.
Main app: @architec_ton_bot
Our Chat: @architec_ton
EU Channel: @architecton_eu
Twitter: x.com/architec_ton
Support: @architecton_support
Last updated 2 weeks, 3 days ago
Канал для поиска исполнителей для разных задач и организации мини конкурсов
Last updated 1 month ago