Skip to content
On this page

Препроцессинг данных

Перед статистическим анализом AB-Labz Workbench автоматически обрабатывает данные для повышения точности результатов.

Зачем нужен препроцессинг

В реальных данных экспериментов часто встречаются:

  • Выбросы - экстремальные значения (например, заказ на $10,000 при среднем чеке $50)
  • Асимметрия - данные сильно смещены в одну сторону (например, большинство заказов на $20-50, но есть единичные на $1000+)
  • Шум - случайные аномалии, которые искажают картину

Без обработки такие данные могут привести к ложным выводам: один покупатель с огромным чеком может "перевесить" сотни обычных пользователей.

Как работает анализ

Система проводит многоступенчатый анализ распределения каждой метрики перед выбором метода обработки.

Характеристики распределения

Измерение формы:

  • Skewness (асимметрия) - определяет направление и силу "скоса" данных
  • Kurtosis (эксцесс) - оценивает "тяжесть хвостов" распределения и вероятность экстремальных значений
  • Модальность - проверяет наличие нескольких "пиков" в данных (бимодальное или мультимодальное распределение)

Анализ разброса:

  • IQR (межквартильный размах) - основная мера разброса данных между 25% и 75% перцентилями
  • CV (коэффициент вариации) - относительная мера изменчивости, показывает разброс относительно среднего значения
  • Стандартное отклонение - абсолютная мера разброса данных

Детекция выбросов:

  • Количество выбросов за 3IQR - экстремальные значения, выходящие далеко за границы нормы
  • Количество выбросов за 1.5IQR - стандартный метод выявления аномалий
  • Процент экстремальных значений - доля данных, требующих особого внимания

Дополнительные проверки:

  • Наличие нулевых и отрицательных значений
  • Плотность распределения в разных диапазонах
  • Соотношение медианы и среднего (индикатор асимметрии)

На основе всей совокупности этих характеристик система принимает решение о наиболее подходящем методе преобразования.

Методы преобразования

Логарифмирование

При сильной асимметрии распределения, тяжелых хвостах и высоком эксцессе система применяет логарифмическое преобразование. Логарифм "сжимает" большие числа сильнее маленьких, приводя данные к более симметричному виду.

Например, значения [10, 15, 20, 500, 1000] превращаются в [2.3, 2.7, 3.0, 6.2, 6.9] - теперь экстремальные значения не доминируют над остальными. Это делает статистические тесты более корректными и надежными.

Чистка по 3IQR

Когда обнаруживается большое количество экстремальных выбросов и аномальных точек в хвостах распределения, система обрезает значения за пределами нормального диапазона.

Например, если в данных [50, 55, 60, 65, 9999] последнее значение явно аномальное, оно заменяется на верхнюю границу нормы (например, 200). Так экстремальные аномалии не влияют на результаты, но данные не теряются.

Винзоризация 5%

При умеренных выбросах и повышенной вариативности данных применяется более мягкий метод. Система заменяет 5% самых больших и 5% самых маленьких значений на ближайшие "нормальные".

Для данных [1, 5, 10, 15, 20, 25, 30, 1000, 2000] крайние значения становятся [10, 10, 10, 15, 20, 25, 30, 30, 30]. Это снижает влияние выбросов, сохраняя общую структуру распределения.

Винзоризация 1%

Это метод по умолчанию для относительно стабильных распределений с минимальными отклонениями. Заменяется только 1% крайних значений с каждой стороны - базовая защита от редких аномалий, которая почти не затрагивает данные.

Для ratio метрик

Для метрик типа "выручка на пользователя" система дополнительно применяет линеаризацию:

Линеаризованная метрика = Числитель - θ × Знаменатель

где θ - соотношение в контрольной группе.

Зачем: Ratio метрики имеют сложное распределение (деление создает дополнительную асимметрию). Линеаризация позволяет корректно применять статистические тесты.

Автоматический выбор

Вам не нужно выбирать метод вручную - система анализирует каждую метрику и применяет оптимальное преобразование. Информация о примененном методе отображается в результатах анализа.

AB-Labz - Лаборатория продуктовых экспериментов