TG Telegram Group & Channel
Продукторий Владимира Меркушева | United States America (US)
Create: Update:

Разбор кейса 👆 от Андрея Менде

(1) Первое что бросается в глаза при чтении кейса – то что там не упоминается напрямую один из самых главных параметров. Минимальный детектируемый эффект (он жe MDE или MRE). Длительность теста напрямую (но не линейно) зависит от того, какой эффект мы ожидаем от изменения. Поэтому я ожидаю от аналитика не ответ "два часа", а что-то вроде:
- за два часа мы задетектим изменение метрики на 5%
- за день на 1%
- за неделю на 0.5%
Можно построить график этой зависимости и вместе выбрать на этом графике точку, которая соответствует целям эксперимента.

Предположим, что продакт с аналитиком заранее договорились о том какой эффект они ожидают. Хотя на практике такое редко встречается, потому что никто не умеет предсказывать насколько ответит метрика).

(2) Если у вас такой бешеный избыток мощности, то с той ли метрикой вы работаете? Как правило, чем метрика ближе к истинной бизнес ценности, тем у нее меньше чувствительность и опытный продакт-экспериментатор будет выбирать максимально точную метрику, на которую у него хватает трафика.
Круто работать с конверсией, но если трафика пока мало, можно работать с добавлением в корзину или вообще с кликом на предложение. Поэтому большинство продактов работают на грани мощности. Если мощности в избытке – можно посмотреть нет ли более точной и глубокой метрики.

(3) Длительность теста зависит не только от мощности. У большинства бизнесов есть существенные суточные и недельные циклы, что означает что рандомные два часа в какой-то день недели не репрезентативны, выводы сделанные на такой выбоке нельзя экстраполировать на всю аудиторию сервиса. Поэтому в большинстве компаний длительность теста округляют до целой недели в большую сторону.

(4) Изменять соотношение между базой и вариантом и запускать тест на 90/10 имеет смысл только в одном случае: если у вас в тесте могут быть негативные последтсвия, которые видны только с большой задержкой. Представим себе, что наш эксперимент уменьшает конверсию на 5%. Если вы помните, как устроен расчет мощности, то чтобы задетектить это изменение вам нужно N наблюдей. Если вы запустите тест на небольшую долю аудитории, то единственное что вы сделаете – это увеличите время через которое вы этот результат получите. Пострадает ровно такое же количество пользователей! Мощность не зависит от времени, только от количества наблюдений. Поэтому тесты почти всегда стоит запускать 50/50.

Что бы я сделал (если более удачной метрики нет): запустил бы тест на неделю и порадовался. Работать на пределе мощности теста – на самом деле опасно и плохо, этого надо избегать. При избытке мощности сильно снижаются вероятности ошибок всех родов, так что надо радоваться.

Let the statistical power be with you.

Разбор кейса 👆 от Андрея Менде

(1) Первое что бросается в глаза при чтении кейса – то что там не упоминается напрямую один из самых главных параметров. Минимальный детектируемый эффект (он жe MDE или MRE). Длительность теста напрямую (но не линейно) зависит от того, какой эффект мы ожидаем от изменения. Поэтому я ожидаю от аналитика не ответ "два часа", а что-то вроде:
- за два часа мы задетектим изменение метрики на 5%
- за день на 1%
- за неделю на 0.5%
Можно построить график этой зависимости и вместе выбрать на этом графике точку, которая соответствует целям эксперимента.

Предположим, что продакт с аналитиком заранее договорились о том какой эффект они ожидают. Хотя на практике такое редко встречается, потому что никто не умеет предсказывать насколько ответит метрика).

(2) Если у вас такой бешеный избыток мощности, то с той ли метрикой вы работаете? Как правило, чем метрика ближе к истинной бизнес ценности, тем у нее меньше чувствительность и опытный продакт-экспериментатор будет выбирать максимально точную метрику, на которую у него хватает трафика.
Круто работать с конверсией, но если трафика пока мало, можно работать с добавлением в корзину или вообще с кликом на предложение. Поэтому большинство продактов работают на грани мощности. Если мощности в избытке – можно посмотреть нет ли более точной и глубокой метрики.

(3) Длительность теста зависит не только от мощности. У большинства бизнесов есть существенные суточные и недельные циклы, что означает что рандомные два часа в какой-то день недели не репрезентативны, выводы сделанные на такой выбоке нельзя экстраполировать на всю аудиторию сервиса. Поэтому в большинстве компаний длительность теста округляют до целой недели в большую сторону.

(4) Изменять соотношение между базой и вариантом и запускать тест на 90/10 имеет смысл только в одном случае: если у вас в тесте могут быть негативные последтсвия, которые видны только с большой задержкой. Представим себе, что наш эксперимент уменьшает конверсию на 5%. Если вы помните, как устроен расчет мощности, то чтобы задетектить это изменение вам нужно N наблюдей. Если вы запустите тест на небольшую долю аудитории, то единственное что вы сделаете – это увеличите время через которое вы этот результат получите. Пострадает ровно такое же количество пользователей! Мощность не зависит от времени, только от количества наблюдений. Поэтому тесты почти всегда стоит запускать 50/50.

Что бы я сделал (если более удачной метрики нет): запустил бы тест на неделю и порадовался. Работать на пределе мощности теста – на самом деле опасно и плохо, этого надо избегать. При избытке мощности сильно снижаются вероятности ошибок всех родов, так что надо радоваться.

Let the statistical power be with you.


>>Click here to continue<<

Продукторий Владимира Меркушева




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)