Skip to content
On this page

Таблица A/B/C+ теста

Результаты анализа множественных вариантов (3 и более групп). Состоит из двух таблиц: глобальной проверки и попарных сравнений.

Таблица 1: Global P-value

Первая таблица показывает глобальную проверку: есть ли хотя бы одно различие между всеми группами.

Структура

МетрикаGlobal p-value
purchase_conversion0.0023
revenue_per_user0.1450

Что показывает Global P-value

Это результат общего статистического теста (например, Chi-squared для conversion или ANOVA для numeric метрик), который проверяет нулевую гипотезу: все группы одинаковы.

Если Global p-value < 0.05:

  • Есть статистически значимые различия между группами
  • Переходите к попарным сравнениям, чтобы найти, какие именно варианты отличаются

Если Global p-value ≥ 0.05:

  • Нет уверенности, что группы различаются
  • Попарные сравнения не имеют смысла

Важно: Global p-value не говорит, какой вариант лучше. Для этого используйте попарные сравнения.

Таблица 2: Pairwise Comparisons (попарные сравнения)

Вторая таблица показывает все возможные пары вариантов и их различия.

Структура

Для каждой пары вариантов (например, 0 vs 1, 0 vs 2, 1 vs 2) показывается отдельная подтаблица с метриками.

Колонки:

МетрикаЭффект (Δ)CI LowCI UpP-valueP(win)
purchase_conversion+1.80 ( +18.00% )+0.90+2.700.001295.3%

Variant 1 vs Variant 2

Заголовок показывает, какие варианты сравниваются. Например, "Variant 0 vs Variant 1" — сравнение контрольной группы (0) с первым тестовым вариантом (1).

Эффект (Δ)

Разница между вариантами. Формат аналогичен A/B тесту: абсолютное (относительное %).

Знак эффекта:

  • Положительный (+) → Variant 2 лучше Variant 1
  • Отрицательный (−) → Variant 2 хуже Variant 1

CI Low / CI Up

Доверительный интервал разницы (95%). Интерпретация та же, что в A/B тесте.

P-value (с поправкой на множественные сравнения)

Критично: При множественных сравнениях система автоматически применяет FDR коррекцию (False Discovery Rate), чтобы снизить вероятность ложных срабатываний.

Без коррекции: если делать 10 сравнений при α=0.05, вероятность хотя бы одного ложного срабатывания ~40%.

С коррекцией: вероятность ложного срабатывания остается на уровне 5%.

Порог: p < 0.05 (уже с учетом коррекции).

P(win)

Доступно только для Bootstrap анализа.

Вероятность того, что один вариант лучше другого. Интерпретация та же, что в A/B тесте.

Принятие решений при множественных вариантах

Шаг 1: Проверьте Global P-value

Если он не значим — нет смысла копаться в попарных сравнениях. Результат: все варианты примерно одинаковы.

Шаг 2: Найдите лучший вариант

Посмотрите на попарные сравнения. Вариант, который статистически значимо лучше всех остальных, — кандидат на внедрение.

Пример:

  • Variant 1 vs Variant 0: p = 0.002 (значим, +20%)
  • Variant 2 vs Variant 0: p = 0.150 (не значим)
  • Variant 2 vs Variant 1: p = 0.080 (не значим)

Вывод: Variant 1 явно лучше контроля, а Variant 2 не показал преимущества. Внедряем Variant 1.

Шаг 3: Учитывайте практическую значимость

Даже если все варианты статистически лучше контроля, выбирайте тот, у которого наибольший эффект при сопоставимых затратах на внедрение.

Частые ошибки

Ошибка 1: Игнорирование Global P-value Не начинайте анализ с попарных сравнений. Если Global p-value не значим, попарные различия могут быть случайными.

Ошибка 2: Множественное сравнение "вручную" Не делайте много A/B тестов вместо одного A/B/C теста. Это увеличивает вероятность ложных срабатываний.

Ошибка 3: Выбор "лучшего" без учета CI Вариант с наибольшим эффектом может иметь широкий CI, что означает низкую надежность оценки. Смотрите на CI, а не только на точечную оценку.

AB-Labz - Лаборатория продуктовых экспериментов