AB-тесты сейчас применяет, возможно, каждый второй менеджер продукта, однако далеко не всегда ясно, как же интерпретировать результат теста и какой уровень статистической значимости использовать.
#abtests
Используем слишком высокий уровень статистической значимости - тесты возможных улучшений будут проваливаться, хотя улучшения на самом деле есть. Используем слишком низкий - часто будем получать "подтверждения" ложных улучшений.
Независимо от выбранного уровня знач-ти, принимая решения по рез-там AB-тестов, порой мы будем ошибаться и наносить ущерб бизнесу.Выбирая граничные p-value,мы можем ограничить кол-во ошибок и балансировать м/д пользой от оправданно успешных эксп-тов и ущербом от ошибочно успешных
Перед тем как начать A/B-тест, убедитесь, что:
- на результаты не влияют аномалии и выбросы в генеральной совокупности;
- инструмент «деления» трафика работает безошибочно;
- данные отправляются в системы аналитики корректно.
Простой способ найти размер выборки для теста — рассчитать в онлайн-калькуляторе:
- evanmiller.org/ab-testing/sam…
- optimizely.com/sample-size-ca…
- vwo.com/tools/ab-test-…
Эти сервисы хороши для оценки мин. необх. объёма выборки, на котором будет заметно изменение показателя, если оно есть.
Что почитать:
Книжка Вассермана All of Statistics, в ней в достаточном для использования уровне разбирается много стат. методов и подходов, границы применимости, объясняется, как они работают. При этом не уводит в ненужные детали. Короче, она классная)
springer.com/gp/book/978038…
Валентина Казачкова