- Регистрация
- 12.04.17
- Сообщения
- 19.095
- Реакции
- 107
- Репутация
- 0
Радует, когда на диаграмме кроме новых созвездий находится нечто похожее на зависимость. В таком случае мы строим модель, которая хорошо объясняет связь между двумя переменными. Но исследователь должен понимать не только, как работать с данными, но и какая история из реального мира за ними лежит. В противном случае легко сделать ошибку. Расскажу о парадоксе Симпсона — одном из самых опасных примеров обманчивых данных, который может перевернуть связь с ног на голову.
Посмотрим на две условные переменные X и Y. Построив диаграмму, мы увидим облако, явно вытянутое из левого нижнего угла в правый верхний, как на рисунке выше. В такую картинку идеально вписывается линейная регрессия, которая с относительно низкой ошибкой поможет нам предсказать значения: чем больше X, тем больше Y. Задача выполнена. На первый взгляд.
Более опытный коллега порекомендует нам добавить на диаграмму разбиение по когортам: например, по странам. Последовав его совету, мы увидим, что связь действительно есть, но она диаметрально противоположная — в рамках отдельно взятой страны чем больше X, тем меньше Y.
Пример 1: половая дискриминация в Беркли
Самый известный пример парадокса Симпсона в реальном мире — это неразбериха с половой дискриминацией при приеме в университет Беркли в 1973 году. Среди исследователей ходит байка о том, что университет даже судили, однако в интернете не найти убедительных свидетельств судебного разбирательства.
Так выглядит статистика приема университета за 1973 год:
Разница значительная. Слишком большая, чтобы быть случайной.
Однако если разбить данные по факультетам, картина меняется. Исследователи выяснили, что причина разницы в том, что женщины подавали заявки на направления с более жестким конкурсом. К тому же было обнаружено, что 6 из 85 факультетов имели дискриминацию в пользу женщин, и только 4 — против.
Разница возникает исключительно из-за разницы в размерах выборок и размере конкурса между факультетами. Покажу на примере двух факультетов.
Оба факультета принимают одинаковые доли женщин и мужчин. Однако поскольку абсолютное количество мужчин было больше на факультете с более высоким процентом принятых, если объединить данные, получится, что в целом процент поступления мужчин выше.
Пример 2: несбалансированный A/B эксперимент
Представьте, что вы проводите A/B эксперимент для повышения конверсии вашего лендинга. Эксперимент проводится два дня, но в первый день сломался распределитель посетителей, и вариант B получил больше посетителей. Во второй день эта проблема была устранена. В результате получились следующие цифры:
Посмотрим на две условные переменные X и Y. Построив диаграмму, мы увидим облако, явно вытянутое из левого нижнего угла в правый верхний, как на рисунке выше. В такую картинку идеально вписывается линейная регрессия, которая с относительно низкой ошибкой поможет нам предсказать значения: чем больше X, тем больше Y. Задача выполнена. На первый взгляд.
Более опытный коллега порекомендует нам добавить на диаграмму разбиение по когортам: например, по странам. Последовав его совету, мы увидим, что связь действительно есть, но она диаметрально противоположная — в рамках отдельно взятой страны чем больше X, тем меньше Y.
Пример 1: половая дискриминация в Беркли
Самый известный пример парадокса Симпсона в реальном мире — это неразбериха с половой дискриминацией при приеме в университет Беркли в 1973 году. Среди исследователей ходит байка о том, что университет даже судили, однако в интернете не найти убедительных свидетельств судебного разбирательства.
Так выглядит статистика приема университета за 1973 год:
Пол | Заявки | Принято |
Мужчины | 8442 | 3738 (44%) |
Женщины | 4321 | 1494 (35%) |
Однако если разбить данные по факультетам, картина меняется. Исследователи выяснили, что причина разницы в том, что женщины подавали заявки на направления с более жестким конкурсом. К тому же было обнаружено, что 6 из 85 факультетов имели дискриминацию в пользу женщин, и только 4 — против.
Разница возникает исключительно из-за разницы в размерах выборок и размере конкурса между факультетами. Покажу на примере двух факультетов.
Фаультет | Пол | Заявки | Принято |
A | Мужчины | 400 | 200 (50%) |
A | Женщины | 200 | 100 (50%) |
B | Мужчины | 150 | 50 (33%) |
B | Женщины | 450 | 150 (33%) |
Итого | Мужчины | 550 | 250 (45%) |
Итого | Женщины | 650 | 250 (38%) |
Пример 2: несбалансированный A/B эксперимент
Представьте, что вы проводите A/B эксперимент для повышения конверсии вашего лендинга. Эксперимент проводится два дня, но в первый день сломался распределитель посетителей, и вариант B получил больше посетителей. Во второй день эта проблема была устранена. В результате получились следующие цифры:
A | B |



