Анализ результатов
Интерпретация статистики и принятие решений на основе данных экспериментов.
Что показывает анализ
После запуска анализа система рассчитывает результаты для каждой метрики.
Для A/B тестов (2 группы):
- Эффект (Δ) — абсолютное и относительное изменение между группами
- Доверительный интервал (CI Low, CI Up) — диапазон возможных значений эффекта
- P-value — статистическая значимость различия
- Обработка — примененная трансформация данных (например, log)
Для A/B/C+ тестов (3+ группы):
- Global p-value — общая значимость различий между всеми группами для каждой метрики
- Попарные сравнения — детальное сравнение каждой пары групп (0-1, 0-2, 1-2) с p-value и доверительными интервалами
Результаты отображаются в таблицах, разделенных по типам метрик: Conversion, Numeric, Ratio.
Методы анализа
Система автоматически подбирает оптимальные статистические методы для каждого типа эксперимента и типа метрики.
Принцип подбора: Для каждой комбинации (тип эксперимента + тип метрики) используется иерархия методов — от простых (например, z-тест для пропорций) до более сложных (например, Welch ANOVA + Games-Howell). Система выбирает наиболее подходящий метод на основе характеристик данных: размера выборки, распределения, дисперсий.
Типы экспериментов:
- A/B тест (2 группы) — классические методы сравнения двух выборок
- A/B/C+ тест (3+ группы) — методы множественных сравнений с поправкой на множественное тестирование
Типы метрик:
- Conversion — бинарные метрики используют методы для пропорций
- Numeric — числовые метрики используют методы для непрерывных величин
- Ratio — составные метрики используют Delta Method или линеаризацию для корректного учёта вариативности числителя и знаменателя
Ресемплирование для малых выборок
Для экспериментов с небольшой выборкой (< 20 000 пользователей) система может использовать Монте-Карло ресемплирование. Этот метод создаёт тысячи симулированных выборок из исходных данных для более надёжной оценки статистических показателей.
Преимущества:
- Более точные доверительные интервалы на малых выборках
- Не требует предположений о нормальности
- Учитывает реальную структуру данных
Ресемплирование можно включить или отключить в настройках анализа. По умолчанию оно активируется автоматически при выборке менее 20 000 пользователей.
Настройки анализа
Перед запуском анализа можно настроить:
- Уровень значимости (α) — порог для p-value (по умолчанию 0.05)
- Ресемплирование — включить/отключить для малых выборок
- Показывать доверительные интервалы — отображение CI в результатах
- Коррекция FDR — применять коррекцию Benjamini-Hochberg к ключевым метрикам для защиты от "случайных" значимых результатов при анализе семейства метрик (подробнее см. FDR-коррекция)
Как читать результаты
P-value и статистическая значимость
P < α (выделено зелёным): Результат статистически значим — разница между группами скорее всего не случайна. Можно доверять выводам.
P ≥ α (серый): Результат не значим — нет достаточных доказательств, что изменение имело эффект. Возможно, нужна большая выборка, или эффект отсутствует.
Важно: P-value показывает надежность результата, но не говорит о размере или важности эффекта. Уровень значимости α настраивается перед анализом.
Доверительный интервал (CI)
Диапазон значений, в который с заданной вероятностью (например, 95% при α = 0.05) попадает истинный эффект.
Интервал не включает 0: Эффект статистически значим. Например, CI = [+2.1%, +5.3%] — все значения положительные.
Интервал включает 0: Эффект не значим. Например, CI = [-1.2%, +3.5%] — возможны как положительные, так и отрицательные значения.
Ширина интервала:
- Узкий интервал = высокая точность оценки
- Широкий интервал = низкая точность, возможно недостаточная выборка
Относительное изменение
Процентное изменение относительно контрольной группы.
Пример: Контроль = 5%, Тест = 5.5%, Изменение = +10% (не +0.5%!)
Всегда смотрите на относительное изменение вместе с абсолютным и доверительным интервалом для полной картины.
Создание ratio-метрик
Если в файле есть две numeric-метрики (например, revenue и orders), можно создать ratio-метрику прямо в интерфейсе анализа.
Процесс:
- Перейдите на вкладку Ratio
- Нажмите "Добавить ratio-метрику"
- Выберите числитель (например,
revenue) - Выберите знаменатель (например,
orders) - Укажите название (например,
average_order_value)
Система рассчитает метрику с правильной статистикой, учитывающей вариативность обеих составляющих.
Примеры ratio-метрик:
revenue / orders— средний чек заказаclicks / impressions— CTRrevenue / sessions— доход на сессию
Принятие решений
Успех:
- Эффект положительный
- Статистически значим (p-value меньше выбранного уровня α)
- Достаточен с бизнес-точки зрения
Провал:
- Эффект отсутствует или отрицательный
- Или недостаточен для оправдания ресурсов
Неоднозначно:
- Эффект близок к границе значимости
- Противоречивые результаты по разным метрикам
- Нужны дополнительные исследования
Всегда учитывайте не только статистику, но и бизнес-контекст, стоимость внедрения и риски.
