Skip to content

Анализ результатов

Интерпретация статистики и принятие решений на основе данных экспериментов.

Что показывает анализ

После запуска анализа система рассчитывает результаты для каждой метрики.

Для A/B тестов (2 группы):

  • Эффект (Δ) — абсолютное и относительное изменение между группами
  • Доверительный интервал (CI Low, CI Up) — диапазон возможных значений эффекта
  • P-value — статистическая значимость различия
  • Обработка — примененная трансформация данных (например, log)

Для A/B/C+ тестов (3+ группы):

  • Global p-value — общая значимость различий между всеми группами для каждой метрики
  • Попарные сравнения — детальное сравнение каждой пары групп (0-1, 0-2, 1-2) с p-value и доверительными интервалами

Результаты отображаются в таблицах, разделенных по типам метрик: Conversion, Numeric, Ratio.

Методы анализа

Система автоматически подбирает оптимальные статистические методы для каждого типа эксперимента и типа метрики.

Принцип подбора: Для каждой комбинации (тип эксперимента + тип метрики) используется иерархия методов — от простых (например, z-тест для пропорций) до более сложных (например, Welch ANOVA + Games-Howell). Система выбирает наиболее подходящий метод на основе характеристик данных: размера выборки, распределения, дисперсий.

Типы экспериментов:

  • A/B тест (2 группы) — классические методы сравнения двух выборок
  • A/B/C+ тест (3+ группы) — методы множественных сравнений с поправкой на множественное тестирование

Типы метрик:

  • Conversion — бинарные метрики используют методы для пропорций
  • Numeric — числовые метрики используют методы для непрерывных величин
  • Ratio — составные метрики используют Delta Method или линеаризацию для корректного учёта вариативности числителя и знаменателя

Ресемплирование для малых выборок

Для экспериментов с небольшой выборкой (< 20 000 пользователей) система может использовать Монте-Карло ресемплирование. Этот метод создаёт тысячи симулированных выборок из исходных данных для более надёжной оценки статистических показателей.

Преимущества:

  • Более точные доверительные интервалы на малых выборках
  • Не требует предположений о нормальности
  • Учитывает реальную структуру данных

Ресемплирование можно включить или отключить в настройках анализа. По умолчанию оно активируется автоматически при выборке менее 20 000 пользователей.

Настройки анализа

Перед запуском анализа можно настроить:

  • Уровень значимости (α) — порог для p-value (по умолчанию 0.05)
  • Ресемплирование — включить/отключить для малых выборок
  • Показывать доверительные интервалы — отображение CI в результатах
  • Коррекция FDR — применять коррекцию Benjamini-Hochberg к ключевым метрикам для защиты от "случайных" значимых результатов при анализе семейства метрик (подробнее см. FDR-коррекция)

Как читать результаты

P-value и статистическая значимость

P < α (выделено зелёным): Результат статистически значим — разница между группами скорее всего не случайна. Можно доверять выводам.

P ≥ α (серый): Результат не значим — нет достаточных доказательств, что изменение имело эффект. Возможно, нужна большая выборка, или эффект отсутствует.

Важно: P-value показывает надежность результата, но не говорит о размере или важности эффекта. Уровень значимости α настраивается перед анализом.

Доверительный интервал (CI)

Диапазон значений, в который с заданной вероятностью (например, 95% при α = 0.05) попадает истинный эффект.

Интервал не включает 0: Эффект статистически значим. Например, CI = [+2.1%, +5.3%] — все значения положительные.

Интервал включает 0: Эффект не значим. Например, CI = [-1.2%, +3.5%] — возможны как положительные, так и отрицательные значения.

Ширина интервала:

  • Узкий интервал = высокая точность оценки
  • Широкий интервал = низкая точность, возможно недостаточная выборка

Относительное изменение

Процентное изменение относительно контрольной группы.

Пример: Контроль = 5%, Тест = 5.5%, Изменение = +10% (не +0.5%!)

Всегда смотрите на относительное изменение вместе с абсолютным и доверительным интервалом для полной картины.

Создание ratio-метрик

Если в файле есть две numeric-метрики (например, revenue и orders), можно создать ratio-метрику прямо в интерфейсе анализа.

Процесс:

  1. Перейдите на вкладку Ratio
  2. Нажмите "Добавить ratio-метрику"
  3. Выберите числитель (например, revenue)
  4. Выберите знаменатель (например, orders)
  5. Укажите название (например, average_order_value)

Система рассчитает метрику с правильной статистикой, учитывающей вариативность обеих составляющих.

Примеры ratio-метрик:

  • revenue / orders — средний чек заказа
  • clicks / impressions — CTR
  • revenue / sessions — доход на сессию

Принятие решений

Успех:

  • Эффект положительный
  • Статистически значим (p-value меньше выбранного уровня α)
  • Достаточен с бизнес-точки зрения

Провал:

  • Эффект отсутствует или отрицательный
  • Или недостаточен для оправдания ресурсов

Неоднозначно:

  • Эффект близок к границе значимости
  • Противоречивые результаты по разным метрикам
  • Нужны дополнительные исследования

Всегда учитывайте не только статистику, но и бизнес-контекст, стоимость внедрения и риски.

AB-Labz - Лаборатория продуктовых экспериментов