🔥

Тред (Валентина Казачкова)


AB-тесты сейчас применяет, возможно, каждый второй менеджер продукта, однако далеко не всегда ясно, как же интерпретировать результат теста и какой уровень статистической значимости использовать. #abtests
notion image

Используем слишком высокий уровень статистической значимости - тесты возможных улучшений будут проваливаться, хотя улучшения на самом деле есть. Используем слишком низкий - часто будем получать "подтверждения" ложных улучшений.

Независимо от выбранного уровня знач-ти, принимая решения по рез-там AB-тестов, порой мы будем ошибаться и наносить ущерб бизнесу.Выбирая граничные p-value,мы можем ограничить кол-во ошибок и балансировать м/д пользой от оправданно успешных эксп-тов и ущербом от ошибочно успешных

Перед тем как начать A/B-тест, убедитесь, что: - на результаты не влияют аномалии и выбросы в генеральной совокупности; - инструмент «деления» трафика работает безошибочно; - данные отправляются в системы аналитики корректно.

Простой способ найти размер выборки для теста — рассчитать в онлайн-калькуляторе: - evanmiller.org/ab-testing/sam… - optimizely.com/sample-size-ca… - vwo.com/tools/ab-test-… Эти сервисы хороши для оценки мин. необх. объёма выборки, на котором будет заметно изменение показателя, если оно есть.

Что почитать: Книжка Вассермана All of Statistics, в ней в достаточном для использования уровне разбирается много стат. методов и подходов, границы применимости, объясняется, как они работают. При этом не уводит в ненужные детали. Короче, она классная) springer.com/gp/book/978038…

Валентина КазачковаВалентина Казачкова