Статистика + ® | бібліотека | Які гіпотези можна перевіряти за допомогою двохвибіркового критерію Вілкоксона

Орлов А.І. Які гіпотези можна перевіряти за допомогою двохвибіркового критерію Вілкоксона? - Журнал «Заводська лабораторія». 1999. Т.65. No.1. С.51-55.

Які гіпотези можна перевіряти за допомогою двохвибіркового критерію Вілкоксона?

А.І.Орлов [1]

Встановлено, що двухвиборочний критерій Вілкоксона (Манна-Уїтні) призначений для перевірки гіпотези H0: P (X <Y) = 1/2, де X - випадкова величина, розподілена як елементи першої вибірки, а Y - другий. Розібрані три приклади.

У прикладній математичній статистиці часто розглядають імовірнісну модель двох незалежних вибірок числових результатів спостережень. Перша вибірка описується набором m випадкових величин X1, X2, ..., Xm, що мають одну і ту ж функцію розподілу F (x), а друга вибірка - набором n випадкових величин Y1, Y2, ..., Yn, що мають одну і ту ж функцію розподілу G (x), причому всі ці m + n випадкових величин X1, X2, ..., Xm, Y1, Y2, ..., Yn незалежні в сукупності. Без обмеження спільності можна вважати, що m # n, в іншому випадку вибірки можна поміняти місцями. Зазвичай передбачається, що функції F (x) і G (x) неперервні і строго зростають. З безперервності цих функцій слід, що з імовірністю 1 всі m + n результатів спостережень різні. У реальних статистичних даних іноді зустрічаються збіги, але сам факт їх наявності - свідчення порушень передумов щойно описаної базової математичної моделі.
Статистика S двохвибіркового критерію Вілкоксона визначається наступним чином. Всі елементи об'єднаної вибірки X1, X2, ..., Xm, Y1, Y2, ..., Yn упорядковуються в порядку зростання. Елементи першої вибірки X1, X2, ..., Xm займають у загальному варіаційному ряду місця з номерами R1, R2, ..., Rm, іншими словами, мають ранги R1, R2, ..., Rm. Тоді S = R1 + R2 + ... + Rm.
Статистика U Манна-Уітні визначається як число пар (Xi, Yj) таких, що Xi <Yj, серед всіх mn пар, в яких перший елемент - з першої вибірки, а другий - з другої. Як відомо [1, с.160], U = mn + m (m + 1) / 2 - S .Оскільки S і U лінійно пов'язані, то часто говорять про критерії Вілкоксона (Манна-Уїтні). Не будемо обговорювати тут питання історії і термінології, що відносяться до S і U.
Критерій Вілкоксона - один з найвідоміших інструментів непараметричної статистики (поряд зі статистиками типу Колмогорова-Смирнова і коефіцієнтами рангової кореляції). Властивостями цього критерію і таблицями його критичних значень приділяється місце у багатьох монографіях по математичної і прикладної статистики (див., Наприклад, [1-3]).
Однак в літературі є й неточні твердження щодо можливостей критерію Вілкоксона. Так, одні вважають, що з його допомогою можна виявити різницю між функціями розподілу F (x) і G (x). На думку інших, цей критерій націлений на перевірку рівності медіан розподілів, відповідних вибірках. І те, і інше, строго кажучи, невірно. Ця стаття написана, щоб внести ясність в дане питання.
Посилання на публікації з неточними і помилковими твердженнями не наводимо з кількох причин. По-перше, таких публікацій занадто багато. По-друге, деякі з них після виключення помилок представляють цінність для практично працюючого статистика. По-третє, навіщо створювати рекламу поганим книгам. І т.п.
Введемо деякі позначення. Нехай F-1 (t) - функція, обернена до функції розподілу F (x). Вона визначена на відрізку [0; 1]. Покладемо L (t) = G (F-1 (t)). Оскільки F (x) неперервна і строго зростає, то F-1 (t) і L (t) мають ті ж властивості. Важливу роль в подальшому викладі буде грати величина a = P (X <Y). Як неважко показати,


Як неважко показати,

введемо також введемо також

Тоді математичні очікування і дисперсії статистик Вілкоксона і Манна-Уїтні згідно [1, с.160] виражаються через введені величини:


E (U) = mna,
E (S) = mn + m (m + 1) / 2 - E (U) = mn (1 a) + m (m + 1) / 2,
D (S) = D (U) = mn [(n - 1) b2 + (m - 1) g2 + a (1 -a)]. (1)

Коли обсяги обох вибірок безмежно ростуть, розподілу статистик Вілкоксона і Манна-Уїтні є асимптотично нормальними (див., Наприклад, [1, гл.5 і 6]) з параметрами, що задаються формулами (1).

Якщо вибірки повністю однорідні, тобто їх функції розподілу збігаються, справедлива гіпотезаH0:
F (x) = G (x) при всіх x, (2)

то L (t) = t і a = 1/2.

Підставляючи у формули (1), отримуємо, що
E (S) = m (m + n + 1) / 2, D (S) = mn (m + n + 1) / 12 (3).

Отже, розподіл нормованої і центрованої статистики Вілкоксона
T = (S - m (m + n + 1) / 2) (mn (m + n + 1) / 12) - 1/2 (4)
при зростанні обсягів вибірок наближається до стандартного нормального розподілу (з математичним очікуванням 0 і дисперсією 1).

З асимптотичної нормальності статистики Т слід, що правило прийняття рішення для критерію Вілкоксона виглядає так:

- якщо | T | < - якщо | T |  <   то гіпотеза (2) однорідності (тотожності) функцій розподілів приймається на рівні значущості α то гіпотеза (2) однорідності (тотожності) функцій розподілів приймається на рівні значущості α

- якщо ж | T | > - якщо ж |  T |  >   то гіпотеза (2) однорідності (тотожності) функцій розподілів відхиляється на рівні значущості α то гіпотеза (2) однорідності (тотожності) функцій розподілів відхиляється на рівні значущості α.

У прикладній статистиці найбільш часто застосовується рівень значимості α = 0,05. Тоді значення модуля статистики Т Вілкоксона треба порівнювати з граничним значенням У прикладній статистиці найбільш часто застосовується рівень значимості α = 0,05

Правила прийняття рішень і таблиця критичних значень для критерію Вілкоксона будуються в припущенні справедливості гіпотези повної однорідності, описуваної формулою (2). А що буде, якщо ця гіпотеза неправильна? Іншими словами, яка потужність критерію Вілкоксона?

Нехай обсяги вибірок досить великі, так що можна користуватися асимптотичної нормальністю статистики Вілкоксона. Тоді відповідно до формулами (1) статистика T буде асимптотично нормальна з параметрами
E (T) = (12mn) 1/2 (1/2 - a) (m + n + 1) - 1/2,
D (T) = 12 [(n - 1) b2 + (m - 1) g2 + a (1 -a)] (m + n + 1) - 1. (5)

З формул (5) видно велике значення гіпотези H01: a = P (X <Y) = 1/2. (6)

Якщо ця гіпотеза неправильна, то, оскільки m <n, справедлива оцінка
| M (T) | > (12m n (2n + 1) - 1) 1/2 | 1/2 - a | , А тому | M (T) | безмежно зростає при зростанні обсягів вибірок. У той же час, посколькуто
D (T) <12 [(n - 1) + (m - 1) + 1/4] (m + n + 1) - 1 <12. (7)

Отже, ймовірність відхилення гіпотези H01, коли вона невірна, тобто потужність критерію Вілкоксона як критерію перевірки гіпотези (6), прагне до 1 при зростанні обсягів вибірок, тобто критерій Вілкоксона є заможним для цієї гіпотези при альтернатівеАH01:
a = P (X <Y) е 1/2. (8).

Якщо ж гіпотеза (6) вірна, то статистика T асимптотично нормальна з математичним очікуванням 0 і дисперсією, яка визначається формулою
D (T) = 12 [(n - 1) b2 + (m - 1) g2 + 1/4] (m + n + 1) - 1. (9)

Гіпотеза (6) є складною, дисперсія (9), як показують наведені нижче приклади, в залежності від значень b2 і g2 може бути як більше 1, так і менше 1, але відповідно до нерівності (7) ніколи не перевершує 12.

Наведемо приклад двох функцій розподілу F (x) і G (x) таких, що гіпотеза (6) виконана, а гіпотеза (2) - немає. оскільки
a = P (X <Y) = ∫ F (x) dG (x), 1 - a = P (Y <X) = ∫ G (x) dF (x) (10),
і a = 1/2 в разі справедливості гіпотези (2), то для виконання умови (6) необхідно і достатньо, щоб
∫ (F (x) - G (x)) dF (x) = 0 (11),
а тому природно як F (x) розглянути функцію рівномірного розподілу на інтервалі (-1; 1). Тоді формула (11) переходить в умову
∫ (F (x) - G (x)) dF (x) = - 1/2 ∫ (G (x) - (x + 1) / 2) dx = 0 (11).

Ця умова виконується, якщо функція (G (x) - (x + 1) / 2) є непарною.

Приклад 1.
Нехай функції розподілу F (x) і G (x) зосереджені на інтервалі (-1; 1), на якому F (x) = (x + 1) / 2, G (x) = (x + 1 + 1 / p sin px) / 2.
тоді
x = F-1 (t) = 2t - 1, L (t) = G (F-1 (t)) = (2 t + 1 / p sin p (2t - 1)) / 2 = t + 1 / 2p sin p (2t - 1).

Умова (11) виконано, оскільки функція (G (x) - (x + 1) / 2) є непарною. Отже, a = 1/2. Почнемо з обчислення
g2 = ∫ t2 dL (t) - 1/4 = ∫ t2 d (t + 1 / 2p sin p (2t - 1)) - 1/4.
оскільки
d (t + 1 / 2p sin p (2t - 1)) = (1 + cos p (2t - 1)) dt,
то g2 = ∫ t2 (1 + cos p (2t - 1)) dt - 1/4 = 1/12 + ∫ t2 cos p (2t - 1) dt.
За допомогою заміни змінних t = (x +1) / 2 отримуємо, що
∫ t2cos p (2t - 1) dt = 1/8 (∫ x2cos px dx + 2 ∫ x cos px dx + ∫ cos px dx).

У правій частині останнього рівності стоять табличні інтеграли [4, с.71] .Проведя відповідні обчислення, отримуємо, що в правій частині стоїть 1/8 (- 4 / p2) = - 1 / (2 p2).
отже,
g2 = 1/12 - 1 / (2 p2) = 0,032672733 ...
Перейдемо до b2. Оскільки b2 = ∫ L2 (t) dt- 1/4 = ∫ (t + 1 / 2p sin p (2t - 1)) 2 dt- 1/4, то
b2 = 1/12 + 1 / p ∫ (t sin p (2t - 1)) dt + (1 / 2p) 2 ∫ sin2 p (2t - 1) dt.
За допомогою заміни змінних t = (x + 1) / 2 переходимо до табличних інтегралів [4, с.65]:
b2 = 1/12 + (4p) -1 ∫ x sin pxdx + (4p) -1 ∫ sin px dx + (8p2) -1 ∫ sin2px dx.
Провівши необхідні обчислення, отримуємо, що
b2 = 1/12 + (4p) -1 (- 2 / p) +0+ (8p2) -1 = 1/12 - 3 (8p2) -1 = 0,045337893 ...

Отже, для розглянутих функцій розподілу нормована і центрована статистика Вілкоксона (див. Формулу (4)) асимптотично нормальна з математичним очікуванням 0 і дисперсією (див. Формулу (9))
D (T) = (0,544 n + 0,392 m + 2,064) (m + n + 1) - 1.

Як легко бачити, дисперсія завжди менше 1. Це означає, що в даному випадку гіпотеза повної однорідності (2) при перевірці за допомогою критерію Вілкоксона буде прийматися частіше, ніж якщо вона насправді вірна.

На наш погляд, це означає, що критерій Вілкоксона не можна вважати критерієм для перевірки гіпотези (2) при альтернативі загального виду. Він не завжди дозволяє перевірити однорідність - не при всіх альтернативах. Точно так же критерії типу хі-квадрат не можна вважати критеріями перевірки гіпотез згоди і однорідності - вони дозволяють виявити не всі відмінності, оскільки деякі "краде" угруповання. Обговоримо тепер, чи дійсно критерій Вілкоксона націлений на перевірку рівності медіан розподілів, відповідних вибірках.

Приклад 2.

Побудуємо сімейство пар функцій розподілу F (x) і G (x) таких, що їх медіани різні, але для F (x) і G (x) виконана гіпотеза (6).
Нехай розподілу зосереджені на інтервалі (0; 1), і на ньому G (x) = x, а F (x) має кусочно-лінійний графік з вершинами в в точках (0; 0), (l, 1/2), (d, 3/4), (1; 1). отже,
F (x) = 0 при x <0;
F (x) = x / (2 l) на [0; l);
F (x) = 1/2 + (x - l) / (4 d - 4 l) на [l; d);
F (x) = 3/4 + (x - d) / (4 - 4 d) на [d; 1];
F (x) = 1 при x> 1.

Очевидно, що медіана F (x) дорівнює l, а медіана G (x) дорівнює 1/2.

Згідно співвідношенню (9) для виконання гіпотези (6) досить визначити d як функцію l, d = d (l), з умови ∫ F (x) dx = 1/2.
Обчислення дають d = d (l) = 3 (1 - l) / 2.
З огляду на, що d лежить між l і 1, не співпадає ні з тим, ні з іншим, отримуємо обмеження на l, а саме, 1/3 <l <3/5.

Отже, побудовано шукане сімейство пар функцій розподілу.

Приклад 3.

Нехай, як і в прикладі 2, розподілу зосереджені на інтервалі (0; 1), і на ньому F (x) = x, а G (x) - функція розподілу, зосередженого в двох точках - b і 1, тобто G (x) = 0 при x, що не перевищує b; G (x) = h на (b; 1]; G (x) = 1 при x> 1. З такою функцією G (x) легко проводити розрахунки. Однак вона не задовольняє прийнятим вище умовам безперервності і суворого зростання. В той же час легко бачити, що вона є граничною (збіжність в кожній точці відрізка [0; 1]) для послідовності функцій розподілу, що задовольняють цим умовам, а розподіл статистики Вілкоксона для пари функцій розподілу прикладу 3 є граничним для послідовності відповідних розподілів статистики Вілкоксона, отриманих в розглянутих словиях безперервності і суворого зростання.

Умова P (X <Y) = 1/2 виконано, якщо h = (1 - b) -1 / 2 (при b з відрізка [0; 1/2]). Оскільки h> 1/2 при позитивному b, то очевидно, що медіана G (x) дорівнює b, в той час як медіана F (x) дорівнює 1/2. Значить, при b = 1/2 медіани збігаються, при всіх інших позитивних b - різні.
При b = 0 медіаною G (x) є будь-яка точка з відрізка [0; 1].

Легко підрахувати, що в умовах прикладу 3
b2 = b (1 b) -1 / 4, g2 = (1 2b) / 4.
Отже, розподіл нормованої і центрованої статистики Вілкоксона буде асимптотично нормальним з математичним очікуванням 0 і дисперсією
D (T) = 3 [(n-1) b (1 b) -1 + (m-1) (1-2b) + 1] (m + n + 1) - 1.

Проаналізуємо величину D (T) в залежності від параметра b і обсягів вибірок m і n. При досить великих m і n
D (T) = 3 wb (1 - b) -1 + 3 (1 - w) (1 - 2 b),
з точністю до величин порядку (m + n) -1, де w = n / (m + n). Значить, D (T) - лінійна функція від w, а тому досягає екстремальних значень на кордонах інтервалу зміни w, тобто при w = 0 і w = 1.
У першому випадку, при b (1-b) -1 <1-2b, мінімум дорівнює 3b (1-b) -1 (при w = 1), а максимум дорівнює 3 (1 - 2b) (при w = 0) .
У другому випадку, при b (1-b) -1> 1-2b, максимум дорівнює 3b (1-b) -1 (при w = 1), а мінімум дорівнює 3 (1 - 2b) (при w = 0) . Якщо ж b (1-b) -1 = 1-2b, а це рівність справедливо при b = b0 = 1 - 2-1 / 2 = 0,293, то D (T) = 3 (21/2 - 1) = 1 , 2426 ... при всіх w з відрізка [0; 1].

Перший з описаних вище випадків має бути при b <b0, при цьому мінімум D (T) зростає від 0 (при b = 0, w = 1 - граничний випадок) до 3 (21/2 - 1) (при b = b0, w - будь-якому), а максимум зменшується від 3 (при b = 0, w = 0 - граничний випадок) до 3 (21/2 - 1) (при b = b0, w - будь-якому). Другий випадок відноситься до b з інтервалу (b0; 1/2]. При цьому мінімум убуває від наведеного вище значення для b = b0 до 0 (при b = 1/2, w = 0 - граничний випадок), а максимум зростає від того ж значення при b = b0 до 3 (при b = 1/2, w = 0).

Таким чином, D (T) може приймати всі значення з інтервалу (0; 3) в залежності від значень b і w. Якщо D (T) <1, то при застосуванні критерію Вілкоксона до вибірок з розглянутими функціями розподілу гіпотеза однорідності (2) буде прийматися частіше (при відповідних значеннях b і w - з імовірністю, як завгодно близькою до 1), ніж якби вона самому справі була вірна. Якщо 1 <D (T) <3, то гіпотеза (2) також приймається досить часто. Так, якщо рівень значимості критерію Вілкоксона дорівнює 0,05, то (асимптотична) критична область цього критерію має вигляд {T: UTU $ 1,96}. Якщо - найгірший випадок - D (T) = 3, то гіпотеза (2) приймається з імовірністю 0,7422.

При перевірці гіпотези однорідності ми розглянули різні види нульових і альтернативних гіпотез - гіпотезу (2) і її заперечення в якості альтернативи, гіпотезу (6) і її заперечення, гіпотези про рівність або відмінність медіан. У теоретичних роботах з математичної статистики люблять гіпотезу зсуву, в якій альтернативою гіпотезі (2) є гіпотеза H1:
F (x) = G (x + r) при всіх x і деякому r, відмінним від 0. (12)
Якщо вірна альтернативна гіпотеза H1, то ймовірність P (X <Y) відмінна від 1/2, і критерій Вілкоксона є заможним. У деяких прикладних постановках гіпотеза (12) представляється природною. Наприклад, якщо одним і тим же приладом проводяться дві серії вимірювань двох значень деякої величини (фізичної, хімічної і т.п.). При цьому функція розподілу G (x) описує похибки вимірювання одного значення, а G (x + r) - іншого (всупереч поширеній помилці, добре відомо, що розподіл похибок вимірювань, як правило, не є нормальним - див. Про це консультацію [5 ]). Однак в більшості прикладних постановок немає ніяких підстав вважати, що відсутність однорідності завжди виражається таким однозначним чином, як випливає з формули (12). Тому ми, розглядаючи в статті [6] проблему вибору статистичного критерію для перевірки однорідності, прийшли до висновку про необхідність використання критеріїв, заможних проти будь-якого відхилення від гіпотези однорідності (2), перш за все критеріїв Смирнова і типу омега-квадрат (Лемана-Розенблатта) .

Чому ж математики так люблять гіпотезу зсуву (12)? Та тому, що вона дає можливість доводити глибокі математичні результати, наприклад, асимптотичну оптимальності критеріїв, як це продемонстровано в монографії Я.Ю.Нікітіна [7]. На жаль, з точки зору прикладної статистики це нагадує пошук ключів під ліхтарем, де світло, а не там, де вони втрачені. Втім, нові методи зазвичай спочатку розробляються в лабораторії і тільки потім переносяться на виробництво.

Відзначимо ще одна обставина. Часто говорять (в Відповідно до класичного підходу математичної статистики), що не можна перевіряти нульові гіпотези без розгляду альтернативних. Однак при практичному аналізі даних найчастіше повністю ясна формулювання тієї гіпотези, яку бажано перевірити (наприклад, гіпотези повної однорідності - см. Формулу (2)), в той час як формулювання альтернативної гіпотези не очевидна (чи то це гіпотеза про невірність рівності (2) хоча б для одного значення x, то це альтернатива (8), то чи - альтернатива зсуву (12), і т.д.). У таких випадках доцільно "обернути" завдання - виходячи з статистичного критерію знайти альтернативи, щодо яких він заможний. Саме це і зроблено в цій статті для критерію Вілкоксона.

література

  1. Гайок Я., Шідак З. Теорія рангових критеріїв. - М .: Наука, 1971. - 376 с.
  2. Большев Л.Н., Смирнов Н.В. Таблиці математичної статистики. - М .: ВЦ АН СРСР, 1968. - 474 с.
  3. Холлендер М., Вулф Д.А. Непараметричні методи статистики. - М .: Фінанси і статистика, 1983. - 518 с.
  4. Смілянський М.Л. Таблиці невизначених інтегралів. - М .: ГІФМЛ, 1961. - 108 с.
  5. Орлов А.І. / Заводська лабораторія. 1991. Т.57. № 7. С.64-66.
  6. Орлов А.І. / Вісник Академії медичних наук СРСР. 1987. №2. С.88-94.
  7. Нікітін Я.Ю. Асимптотична ефективність непараметричних критеріїв. - М .: Наука, 1995. - 240 с.
[1]

Міжвузівський центр економічної освіти Міносвіти РФ (при МГІЕМ), Москва, Росія

Які гіпотези можна перевіряти за допомогою двохвибіркового критерію Вілкоксона?
А що буде, якщо ця гіпотеза неправильна?
Іншими словами, яка потужність критерію Вілкоксона?
Чому ж математики так люблять гіпотезу зсуву (12)?