Критерий Купера-001
В.В. Заляжных

Критерий согласия Купера чаще всего используется со статистикой

рисунок st12-1                         (1)

или

рисунок st12-2                         (2)

Здесь

рисунок st12-3,

рисунок st12-4,

n - объём выборки, хi - элементы выборки в вариационном ряду, F(хi) – значения теоретической функции распределения.

Если рассчитанная по выборке статистика критерия больше, чем соответствующая процентная точка (табличное значение), проверяемую гипотезу отвергают.

В статье "Критерий Купера. Повышение мощности" показано, что модифицированный критерий Купера (будем называть его «критерий Купера-001») со статистикой

рисунок st12-19                        (3)

при объёме выборки 100 имеет более высокую мощность при проверке простой гипотезы о нормальном распределении, чем исходный критерий. При модификации статистики (2) критерий Купера – 001 имеет статистику

рисунок st13-3                        (4)

При этом процентные точки для статистик (3) и (4) будут различны. Но значения мощностей по одним и тем же парам нулевой и альтернативной гипотез одинаковы.

В данной статье приведены процентные точки и мощности критерия Купера-001 для простой гипотезы. Значения процентных точек и мощностей находили методом статистического компьютерного моделирования в MS Excel. Моделировали 2 млн. выборок, что при доверительной вероятности 0,99 даёт погрешность при определении уровней значимости не более 0,00091 [1].

Процентные точки для статистики (4) при различных объёмах выборки n и уровнях значимости α приведены в табл.1. Значения округлены до пятого десятичного знака. Абсолютная ошибка округления процентных точек при этом не превышает 0,000005. Относительная ошибка округления уровня значимости в диапазоне 0,001..0,999 при этом, как показывают расчеты, максимальна при уровне значимости 0,001, и не превышает 1%. Т.е. при округлении уровень значимости 0,001 может измениться в пределах 0,00099…0,00101, что вполне приемлемо. Расчётные значения критерия необходимо также округлять как минимум до пятого десятичного знака.

Таблица 1. Процентные точки критерия Купера-001 для статистики (4) при простой гипотезе.
α Объём выборки n
10 1215 2030 50 100300 50010002000
0,999 1,93841 1,93923 1,94097 1,941951,94377 1,94618 1,949611,953761,95554 1,957371,95857
0,99 1,95971 1,96035 1,96158 1,962641,96418 1,96603 1,967861,96948 1,96987 1,97021 1,97057
0,95 1,97283 1,97331 1,97394 1,974591,97537 1,97601 1,976571,97718 1,97739 1,97757 1,97772
0,90 1,97719 1,97775 1,97789 1,978291,97874 1,97914 1,979531,98001 1,98017 1,98031 1,98042
0,8 1,98077 1,98095 1,98120 1,98146 1,98177 1,98209 1,98243 1,98281 1,98292 1,98304 1,98312
0,7 1,98281 1,98296 1,98317 1,98339 1,98367 1,98395 1,98426 1,98459 1,98469 1,98480 1,98487
0,6 1,98438 1,98453 1,98471 1,98492 1,98519 1,98545 1,98574 1,98604 1,98613 1,98623 1,98630
0,5 1,98579 1,98592 1,98609 1,98630 1,98655 1,98681 1,98708 1,98736 1,98744 1,98753 1,98760
0,4 1,98714 1,98727 1,98744 1,98764 1,98788 1,98813 1,98838 1,98865 1,98872 1,98880 1,98886
0,3 1,98853 1,98868 1,98885 1,98904 1,98928 1,98951 1,98974 1,98999 1,99006 1,99014 1,99019
0,2 1,99013 1,99028 1,99045 1,99063 1,99087 1,99108 1,99130 1,99153 1,99160 1,99167 1,99173
0,15 1,99109 1,99124 1,99141 1,99159 1,99182 1,99202 1,99224 1,99247 1,99252 1,99260 1,99265
0,1 1,99227 1,99242 1,99259 1,99277 1,99299 1,99320 1,99340 1,99362 1,99367 1,99374 1,99379
0,05 1,99395 1,99411 1,99428 1,99446 1,99469 1,99489 1,99508 1,99529 1,99534 1,99540 1,99544
0,01 1,99689 1,99706 1,99725 1,99745 1,99767 1,99786 1,99807 1,99827 1,99831 1,99837 1,99840
0,001 1,99981 2,00003 2,00029 2,00047 2,00075 2,00091 2,00113 2,00134 2,00139 2,00142 2,00144
Примечание: Деление значений из табл.1 на нормирующий коэффициент n0,005 даёт процентные точки для статистики (3).

Ввиду уменьшения различий в значениях процентных точек с ростом объёма выборки можно предполагать, что критерий Купера-001 имеет предельную функцию распределения. Но при этом нет оснований считать значения процентных точек при объёме выборки 2000 достаточно близкими к предельным.

Если в таблице 1 не приведён имеющийся у экспериментатора объём выборки, приближённо процентные точки можно оценить по соседним значениям – как при проверке нулевой гипотезы при допустимом уровне значимости, так и при определении достигаемого уровня значимости. Более точно определить процентные точки и достигаемый уровень значимости в этом случае можно статистическим компьютерным моделированием. Кроме того, при проверке нулевой гипотезы с наиболее часто применяемыми допустимыми уровнями значимости, для определения процентных точек можно воспользоваться аппроксимирующими уравнениями:

При уровне значимости 0,01:
1,228*n-2,5 - 1,09*n-2 + 0,349*n-1,5 - 0,0523*n-1 - 0,00108*n-0,5 + 1,998446

При уровне значимости 0,05:
0,16*n-2,5 - 0,1203*n-2 + 0,0314*n-1,5 - 0,0057*n-1 - 0,00412*n-0,5 + 1,995538

При уровне значимости 0,1:
= - 0,05*n-2,5 + 0,068*n-2 - 0,033*n-1,5 + 0,0055484*n-1 - 0,005288*n-0,5 + 1,993904

Рассчитанные по этим уравнениям процентные точки при округлении до пятого десятичного знака отличаются от приведённых в табл.1 на 0 или 0,00001.

Мощность критерия Купера-001 при проверке простой гипотезы Н0 норм (нормальное распределение) против гипотезы Н1 лог (логистическое распределение) приведены в табл.2. Подробнее эти гипотезы описаны в статье "Критерий Купера. Повышение мощности".

Таблица 2. Мощность критерия Купера-001 при проверке простой гипотезы Н0 норм (нормальное распределение) против гипотезы Н1 лог (логистическое)
α Объём выборки n
10 2050100300 5002000
0,15 0,178 0,190 0,227 0,2880,501 0,663 0,991
0,10 0,123 0,133 0,165 0,2190,422 0,590 0,985
0,05 0,065 0,073 0,096 0,1370,310 0,474 0,971
0,01 0,015 0,018 0,027 0,0450,140 0,262 0,913

Сравнение мощности критерия Купера-001 при проверке простой гипотезы Н0 норм (нормальное распределение) против гипотезы Н1 лог (логистическое распределение) с приведёнными в [2] и [3] мощностями других общих критериев согласия показывает, что критерий Купера-001 по мощности уступает критерию Жанга Zc, а также критерию Пирсона хи-квадрат при асимптотически оптимальном группировании и выборе оптимального числа интервалов, по всем приведённым в таблицах значениям. По сравнеию с критериями Крамера-Мизева-Смирнова (омега-квадрат), Колмогорова и Андерсона-Дарлинга критерий Купера-001 имеет более высокую мощность по всем приведённым в таблицах значениям.

Мощность критерия Купера-001 по сравнению с другими критериями в относительных процентах показана в табл.3 Проценты округлены до целых значений.

Таблица 3. Мощность критерия Купера-001 по сравнению с другими критериями в относительных процентах при проверке простой гипотезы Н0 норм (нормальное распределение) против гипотезы Н1 лог (логистическое распределение)
α Объём выборки n
10 2050100300 5002000
Купер-001 ... Купер
0,15 109 109 109 107104 102 100
0,10 112 112 111 110107 104 100
0,05 114 118 117 116111 107 100
0,01 125 129 135 129124 117 101
Купер-001 ... Ватсон
0,15 109 109 106 10499 98 100
0,10 111 111 108 105100 98 99
0,05 114 111 112 109103 99 99
0,01 125 129 123 122109 105 98
Купер-001 ... Жанг Zk
0,15 105 98 92 9295 96 99
0,10 107 99 93 9397 98 99
0,05 108 101 94 95102 103 100
0,01 100 100 93 96110 117 105
Купер-001 ... Жанг Za
0,15 87 78 76 8086 88 99
0,10 86 76 75 8087 87 99
0,05 87 75 74 8291 89 97
0,01 94 82 79 94109 101 94

Из табл. 3 видно, что мощность критерия Купера-001 больше или равна мощности критерия Купера по всем рассчитанным значениям. По сравнению с критерием Ватсона критерий Купера-001 мощнее при сранительно небольших объёмах выборок, и лишь немного уступает при больших объёмах выборок. По сравнению с критерием Жанга Zk различия в основном незначительны. Критерий Жанга Za в большинстве точек заметно мощнее критерия Купера-001.

Пример. Компьютерным моделированием были получены 10 случайных выборок различных объёмов n из нормальных распределений с различными математическими ожиданиями M и генеральными среднеквадратическими отклонениями σ. Для каждой выборки рассчитывали достигаемый уровень значимости p-value по нескольким критериям согласия при проверке простой гипотезы о принадлежности выборки к нормально распределённой случайной величине с параметрами M и σ. Для критерия Купера-001 значения p-value определяли методом статистического компьтерного моделирования, для остальных критериев - по уравнениям предельных функций распредеелния критериев или по таблицам этих функций. Результаты приведены в табл. 4.

Таблица 4. Достигаемые уровни значимости для выборок, смоделированных из нормально распределённых случайных величин, при проверке простых гипотез о принадлежности выборок к этим случайным величинам.
Критерии Показатели выборок n
М = 0
σ = 1
n=100
М = 0
σ = 1
n=100
М = 1
σ = 3
n=100
М = 2
σ = 0,5
n=100
М = 1
σ = 2
n=100
М = 0
σ = 1
n=300
М = 0
σ = 1
n=300
М = 1
σ = 3
n=300
М = 0
σ = 1
n=500
М = 1
σ = 3
n=500
Колмогорова 0,337 0,208 0,824 0,3000,481 0,231 0,6700,4480,1730,113
Омега-квадрат 0,314 0,297 0,636 0,4340,360 0,345 0,5960,5900,1880,246
Андерсона-Дарлинга 0,382 0,350 0,738 0,5160,456 0,323 0,7050,5100,2000,320
Купера 0,787 0,064 0,495 0,4850,522 0,051 0,8710,8040,2310,182
Ватсона 0,640 0,142 0,374 0,2810,335 0,098 0,8030,7140,0980,155
Купера-001 0,966 0,036 0,290 0,2900,428 0,025 0,8330,9100,3100,338

Из табл. 4 прослеживается некоторая тенденция: использованные критерии согласия можно разделить на две группы по определённой близости достигаемых уровней значимости. В первую группу входят критерии Колмогорова, омега-квадрат и Андерсона-Дарлинга. Во вторую - Купера, Ватсона и Купера-001.

       ЛИТЕРАТУРА
1. Постовалов С. Н. Применение компьютерного моделирования для расширения прикладных возможностей классических методов проверки статистических гипотез : диссертация ... доктора технических наук : 05.13.17 / Постовалов Сергей Николаевич; [Место защиты: Новосибирский государственный технический университет]. - Новосибирск, 2014. - 279 с. : 19 ил.
2. Лемешко Б.Ю. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход: монография / Б.Ю. Лемешко, С.Б. Лемешко, Н.С. Постовалов, Е.В. Чимитова.- Новосибирск: Изд-во НГТУ, 2011. – 888 с.
3. Лемешко Б.Ю. О применении и мощности непараметрических критериев согласия Купера, Ватсона и Жанга / Б.Ю. Лемешко, А.А. Горбунова // Измерительная техника. 2013, № 5. – С. 3-9. 4. Лемешко Непараметрические критерии согласия.

        Далее     Содержание

© В.В. Заляжных
При использовании материалов прямая индексируемая ссылка на сайт обязательна