Appearance
Препроцессинг данных
Перед статистическим анализом AB-Labz Workbench автоматически обрабатывает данные для повышения точности результатов.
Зачем нужен препроцессинг
В реальных данных экспериментов часто встречаются:
- Выбросы - экстремальные значения (например, заказ на $10,000 при среднем чеке $50)
- Асимметрия - данные сильно смещены в одну сторону (например, большинство заказов на $20-50, но есть единичные на $1000+)
- Шум - случайные аномалии, которые искажают картину
Без обработки такие данные могут привести к ложным выводам: один покупатель с огромным чеком может "перевесить" сотни обычных пользователей.
Как работает анализ
Система проводит многоступенчатый анализ распределения каждой метрики перед выбором метода обработки.
Характеристики распределения
Измерение формы:
- Skewness (асимметрия) - определяет направление и силу "скоса" данных
- Kurtosis (эксцесс) - оценивает "тяжесть хвостов" распределения и вероятность экстремальных значений
- Модальность - проверяет наличие нескольких "пиков" в данных (бимодальное или мультимодальное распределение)
Анализ разброса:
- IQR (межквартильный размах) - основная мера разброса данных между 25% и 75% перцентилями
- CV (коэффициент вариации) - относительная мера изменчивости, показывает разброс относительно среднего значения
- Стандартное отклонение - абсолютная мера разброса данных
Детекция выбросов:
- Количество выбросов за 3IQR - экстремальные значения, выходящие далеко за границы нормы
- Количество выбросов за 1.5IQR - стандартный метод выявления аномалий
- Процент экстремальных значений - доля данных, требующих особого внимания
Дополнительные проверки:
- Наличие нулевых и отрицательных значений
- Плотность распределения в разных диапазонах
- Соотношение медианы и среднего (индикатор асимметрии)
На основе всей совокупности этих характеристик система принимает решение о наиболее подходящем методе преобразования.
Методы преобразования
Логарифмирование
При сильной асимметрии распределения, тяжелых хвостах и высоком эксцессе система применяет логарифмическое преобразование. Логарифм "сжимает" большие числа сильнее маленьких, приводя данные к более симметричному виду.
Например, значения [10, 15, 20, 500, 1000] превращаются в [2.3, 2.7, 3.0, 6.2, 6.9] - теперь экстремальные значения не доминируют над остальными. Это делает статистические тесты более корректными и надежными.
Чистка по 3IQR
Когда обнаруживается большое количество экстремальных выбросов и аномальных точек в хвостах распределения, система обрезает значения за пределами нормального диапазона.
Например, если в данных [50, 55, 60, 65, 9999] последнее значение явно аномальное, оно заменяется на верхнюю границу нормы (например, 200). Так экстремальные аномалии не влияют на результаты, но данные не теряются.
Винзоризация 5%
При умеренных выбросах и повышенной вариативности данных применяется более мягкий метод. Система заменяет 5% самых больших и 5% самых маленьких значений на ближайшие "нормальные".
Для данных [1, 5, 10, 15, 20, 25, 30, 1000, 2000] крайние значения становятся [10, 10, 10, 15, 20, 25, 30, 30, 30]. Это снижает влияние выбросов, сохраняя общую структуру распределения.
Винзоризация 1%
Это метод по умолчанию для относительно стабильных распределений с минимальными отклонениями. Заменяется только 1% крайних значений с каждой стороны - базовая защита от редких аномалий, которая почти не затрагивает данные.
Для ratio метрик
Для метрик типа "выручка на пользователя" система дополнительно применяет линеаризацию:
Линеаризованная метрика = Числитель - θ × Знаменатель
где θ - соотношение в контрольной группе.
Зачем: Ratio метрики имеют сложное распределение (деление создает дополнительную асимметрию). Линеаризация позволяет корректно применять статистические тесты.
Автоматический выбор
Вам не нужно выбирать метод вручную - система анализирует каждую метрику и применяет оптимальное преобразование. Информация о примененном методе отображается в результатах анализа.
AB-Labz Library