Appearance
Таблица A/B/C+ теста
Результаты анализа множественных вариантов (3 и более групп). Состоит из двух таблиц: глобальной проверки и попарных сравнений.
Таблица 1: Global P-value
Первая таблица показывает глобальную проверку: есть ли хотя бы одно различие между всеми группами.
Структура
| Метрика | Global p-value |
|---|---|
| purchase_conversion | 0.0023 |
| revenue_per_user | 0.1450 |
Что показывает Global P-value
Это результат общего статистического теста (например, Chi-squared для conversion или ANOVA для numeric метрик), который проверяет нулевую гипотезу: все группы одинаковы.
Если Global p-value < 0.05:
- Есть статистически значимые различия между группами
- Переходите к попарным сравнениям, чтобы найти, какие именно варианты отличаются
Если Global p-value ≥ 0.05:
- Нет уверенности, что группы различаются
- Попарные сравнения не имеют смысла
Важно: Global p-value не говорит, какой вариант лучше. Для этого используйте попарные сравнения.
Таблица 2: Pairwise Comparisons (попарные сравнения)
Вторая таблица показывает все возможные пары вариантов и их различия.
Структура
Для каждой пары вариантов (например, 0 vs 1, 0 vs 2, 1 vs 2) показывается отдельная подтаблица с метриками.
Колонки:
| Метрика | Эффект (Δ) | CI Low | CI Up | P-value | P(win) |
|---|---|---|---|---|---|
| purchase_conversion | +1.80 ( +18.00% ) | +0.90 | +2.70 | 0.0012 | 95.3% |
Variant 1 vs Variant 2
Заголовок показывает, какие варианты сравниваются. Например, "Variant 0 vs Variant 1" — сравнение контрольной группы (0) с первым тестовым вариантом (1).
Эффект (Δ)
Разница между вариантами. Формат аналогичен A/B тесту: абсолютное (относительное %).
Знак эффекта:
- Положительный (+) → Variant 2 лучше Variant 1
- Отрицательный (−) → Variant 2 хуже Variant 1
CI Low / CI Up
Доверительный интервал разницы (95%). Интерпретация та же, что в A/B тесте.
P-value (с поправкой на множественные сравнения)
Критично: При множественных сравнениях система автоматически применяет FDR коррекцию (False Discovery Rate), чтобы снизить вероятность ложных срабатываний.
Без коррекции: если делать 10 сравнений при α=0.05, вероятность хотя бы одного ложного срабатывания ~40%.
С коррекцией: вероятность ложного срабатывания остается на уровне 5%.
Порог: p < 0.05 (уже с учетом коррекции).
P(win)
Доступно только для Bootstrap анализа.
Вероятность того, что один вариант лучше другого. Интерпретация та же, что в A/B тесте.
Принятие решений при множественных вариантах
Шаг 1: Проверьте Global P-value
Если он не значим — нет смысла копаться в попарных сравнениях. Результат: все варианты примерно одинаковы.
Шаг 2: Найдите лучший вариант
Посмотрите на попарные сравнения. Вариант, который статистически значимо лучше всех остальных, — кандидат на внедрение.
Пример:
- Variant 1 vs Variant 0: p = 0.002 (значим, +20%)
- Variant 2 vs Variant 0: p = 0.150 (не значим)
- Variant 2 vs Variant 1: p = 0.080 (не значим)
Вывод: Variant 1 явно лучше контроля, а Variant 2 не показал преимущества. Внедряем Variant 1.
Шаг 3: Учитывайте практическую значимость
Даже если все варианты статистически лучше контроля, выбирайте тот, у которого наибольший эффект при сопоставимых затратах на внедрение.
Частые ошибки
Ошибка 1: Игнорирование Global P-value Не начинайте анализ с попарных сравнений. Если Global p-value не значим, попарные различия могут быть случайными.
Ошибка 2: Множественное сравнение "вручную" Не делайте много A/B тестов вместо одного A/B/C теста. Это увеличивает вероятность ложных срабатываний.
Ошибка 3: Выбор "лучшего" без учета CI Вариант с наибольшим эффектом может иметь широкий CI, что означает низкую надежность оценки. Смотрите на CI, а не только на точечную оценку.
AB-Labz Library