Appearance
Размер выборки и статистическая мощность
Как планировать эксперименты, чтобы получить надежные результаты.
Что такое размер выборки
Размер выборки — это количество пользователей (или других единиц рандомизации), которое нужно включить в эксперимент. Слишком маленькая выборка не даст статистически значимых результатов, даже если эффект есть.
Правильный размер выборки зависит от четырех параметров: базового значения метрики, ожидаемого изменения, статистической мощности и уровня значимости.
Статистическая мощность
Статистическая мощность (power) — это вероятность обнаружить эффект, если он действительно существует. Обычно устанавливается на уровне 80%.
Если мощность 80%, это значит: при наличии реального эффекта вы обнаружите его в 80% случаев. В остальных 20% случаев результат может быть не значимым из-за случайности (ложноотрицательный результат).
Ожидаемое изменение (MDE)
Минимальный детектируемый эффект (MDE) — это минимальное изменение метрики, которое вы хотите обнаружить. Чем меньше ожидаемое изменение, тем больше нужна выборка.
Например, обнаружить изменение конверсии на 1% сложнее (требует больше пользователей), чем на 10%. Поэтому важно реалистично оценивать, какой эффект вы ожидаете.
Уровень значимости (Alpha)
Уровень значимости (alpha) — это допустимая вероятность ложного срабатывания (ложноположительного результата). Обычно устанавливается на уровне 5% (0.05).
Это означает: если эффекта на самом деле нет, в 5% случаев тест ошибочно покажет, что он есть. Снижение alpha (например, до 1%) требует большей выборки.
AB-Labz Library