Как сравнить количественный показатель, например, уровень гемоглобина в крови, в двух группах?
Зависит от того, как сформулирован наш исследовательский вопрос:
1️⃣ Если нас интересует, различаются ли средние значения уровня гемоглобина - используем параметрические t-критерий Стьюдента или Уэлча.
2️⃣ Если хотим сделать вывод о том, что в одной из групп более вероятны либо более высокие, либо более низкие значения, чем в другой, - используем непараметрический критерий Уилкоксона-Манна-Уитни (или просто Манна-Уитни, далее я буду называть его критерий WMW).
Как мы знаем, второй вариант используется во многих исследованиях. В этом случае нас не беспокоит информативность средних значений, отклонение распределения от нормального или наличие выбросов.
Однако, решительно применяя критерий WMW для разных показателей, авторы редко вспоминают о том, что он вообще-то имеет существенное ограничение: корректность оценки гарантируется только при равных дисперсиях сравниваемых групп! То есть вариабельность признака и форма распределения в группах должны быть одинаковыми. А поскольку такое на практике встречается нечасто, значит во многих случаях WMW-тест может давать неверные p-значения.
Насколько неверные? Например, в https://community.jmp.com/kvoqx44227/attachments/kvoqx44227/jmp-wish-list/4279/2/Brunner-Munzel_2000.pdf WMW-критерий тестировался в следующих ситуациях:
🔺 2 нормальных распределения с разными дисперсиями,
🔺 уни- и бимодальное распределения,
🔺 2 симметричных распределения с разными дисперсиями,
🔺 2 распределения с разными дисперсиями и разнонаправленной асимметрией.
В результате вместо фактической вероятности ошибки I рода α=0.05, были получены оценки от 0.028 до 0.122!
Что же делать? Как поступить, если при сравнении групп мы не уверены в равенстве дисперсий?
Вспомним критерий Уэлча - модифицированный t-критерий Стьюдента, который позволяет корректно сравнивать средние значения в группах с разными дисперсиями. Вот такую же модификацию критерия WMW выполнили и описали в 2000 году https://community.jmp.com/kvoqx44227/attachments/kvoqx44227/jmp-wish-list/4279/2/Brunner-Munzel_2000.pdf И получили метод, который в описанной выше симуляции при α=0.05 давал оценки частоты ошибок I рода от 0.046 до 0.057. Согласитесь, это значительно более точные оценки по сравнению с критерием WMW.
По данным другой https://pubmed.ncbi.nlm.nih.gov/34050436/), в случае сравнения групп с разными дисперсиями при заданной α=0.05 критерий Бруннера-Мюнцеля показал частоту ошибок I рода в диапазоне от 0.049 до 0.057. Диапазон для критерия WMW был значительно шире, оценки «размазались» от 0.02 до 0.085.
И ещё в одной https://arxiv.org/pdf/2208.01231) при сравнении 2 групп с нормальным распределением, но разными дисперсиями (σ1/σ2=5), при заданной α=0.05 оценки частоты ошибок I рода составили:
🔸 для критерия WMW от 0.004 до 0.174,
🔸 для критерия Бруннера-Мюнцеля от 0.035 до 0.052.
А если дисперсии одинаковые?
По данным https://pubmed.ncbi.nlm.nih.gov/34050436/ критерий WMW оказался немного более точным, чем критерий Бруннера-Мюнцеля. Но и в этом случае последний показал оценки частоты ошибок I рода с погрешностью, не превышающей 0.01. По данным https://arxiv.org/pdf/2208.01231 оба теста дали вполне надежные оценки:
🔸 критерий WMW - от 0.043 до 0.053,
🔸 критерий Бруннера-Мюнцеля - от 0.048 до 0.053.
Подытожим.
Критерий Бруннера-Мюнцеля тестирует нулевую гипотезу: вероятности того, что случайно взятое значение из одной группы будет выше, чем случайно взятое значение из другой группы, для обеих групп равны. И позволяет достаточно точно оценить вероятность ошибочного отклонения этой нулевой гипотезы (т.е. получить корректные p-значения) в случаях как равных, так и разных дисперсий.