Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Непараметрические критерии согласия

Руководство по применению
Покупка
Основная коллекция
Артикул: 288500.07.01
Доступ онлайн
от 244 ₽
В корзину
В монографии рассматриваются вопросы применения непараметрических критериев согласия (Колмогорова, Купера, Крамера - Мизеса - Смирнова, Ватсона, Андерсона - Дарлинга, Жанга) при проверке простых и сложных гипотез. В приложении приводятся таблицы, содержащие процентные точки и модели распределений статистик, необходимые для корректного использования критериев при проверке простых и, главное, различных сложных гипотез. По сравнению с первым изданием больше внимания уделено вопросам применения критериев в нестандартных условиях приложений, в частности для анализа выборок большого объема. Показано, что в приложениях свойства критериев могут существенно изменяться вследствие наличия ошибок округления, и это необходимо учитывать при формировании статистических выводов. Следование рекомендациям при анализе данных обеспечит корректность статистических выводов и повысит их обоснованность. Рассчитана на специалистов, в той или иной мере сталкивающихся в своей деятельности с вопросами статистического анализа данных, обработкой результатов экспериментов, применением статистических методов для анализа различных аспектов и тенденций окружающей действительности. Будет полезна инженерам, научным сотрудникам, специалистам различного профиля (медикам, биологам, социологам, экономистам и др.), преподавателям вузов, аспирантам и студентам.
Тематика:
ББК:
УДК:
ОКСО:
ГРНТИ:
Лемешко, Б. Ю. Непараметрические критерии согласия. Руководство по применению : монография / Б.Ю. Лемешко. — 2-е изд., перераб. и доп. — Москва : ИНФРА-М, 2024. — 201 с. — (Научная мысль). — DOI 10.12737/2058731. - ISBN 978-5-16-018942-0. - Текст : электронный. - URL: https://znanium.com/catalog/product/2058731 (дата обращения: 03.06.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.

НАУЧНАЯ МЫСЛЬ
СЕРИЯ ОСНОВАНА В 2008 ГОДУ




Б.Ю. ЛЕМЕШКО




                НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СОГЛАСИЯ РУКОВОДСТВО ПО ПРИМЕНЕНИЮ




МОНОГРАФИЯ
2-е издание, переработанное и дополненное


znanium.com
электронно-библиотечная система

Москва ИНФРА-М 2024
УДК 519.23(075.4)
ББК 22.172
     Л44

    Рецензенты:                                                                  
    Попов А.А., доктор технических наук, профессор, профессор ка-                
    федры теоретической и прикладной информатики Новосибиского                   
    государственного технического университета;                                  
    Селезнев В.А., доктор физико-математических наук, профессор,                 
    заведующий кафедрой инженерной математики Новосибиского госу-                
    дарственного технического университета                                       
    Лемешко Б.Ю.                                                                 
Л44 Непараметрические критерии согласия. Руководство по примене-                 
    нию : монография / Б.Ю. Лемешко. --- 2-е изд., перераб. и доп. --- Москва :  
    ИНФРА-М, 2024. --- 201 с. --- (Научная мысль). --- DOI 10.12737/2058731.     
    ISBN 978-5-16-018942-0 (print)                                               
    ISBN 978-5-16-111773-6 (online)                                              
    В монографии рассматриваются вопросы применения непараметрических            
    критериев согласия (Колмогорова, Купера, Крамера - Мизеса - Смирнова, Ват-   
    сона, Андерсона - Дарлинга, Жанга) при проверке простых и сложных гипотез.   
    В приложении приводятся таблицы, содержащие процентные точки и моде-         
    ли распределений статистик, необходимые для корректного использования кри-   
    териев при проверке простых и, главное, различных сложных гипотез.           
    По сравнению с первым изданием больше внимания уделено вопросам при-         
    менения критериев в нестандартных условиях приложений, в частности для ана-  
    лиза выборок большого объема.                                                
    Показано, что в приложениях свойства критериев могут существенно изме-       
    няться вследствие наличия ошибок округления, и это необходимо учитывать      
    при формировании статистических выводов.                                     
    Следование рекомендациям при анализе данных обеспечит корректность           
    статистических выводов и повысит их обоснованность.                          
    Рассчитана на специалистов, в той или иной мере сталкивающихся в своей       
    деятельности с вопросами статистического анализа данных, обработкой резуль-  
    татов экспериментов, применением статистических методов для анализа раз-     
    личных аспектов и тенденций окружающей действительности. Будет полезна       
    инженерам, научным сотрудникам, специалистам различного профиля (меди-       
    кам, биологам, социологам, экономистам и др.), преподавателям вузов, аспиран-
    там и студентам.                                                             

УДК 519.23(075.4)
ББК 22.172



                                             Данная книга доступна в цветном исполнении в электронно-библиотечной системе Znanium



ISBN 978-5-16-018942-0 (print)
ISBN 978-5-16-111773-6 (online)

© Лемешко Б.Ю., 2014
© Лемешко Б.Ю., 2023,



с изменениями
Оглавление

Предисловие ко второму изданию............................5
Предисловие к первому изданию.............................6
1. Введение...............................................8
2. Непараметрические критерии согласия при проверке простых гипотез...........................................13
  2.1. Критерий Колмогорова..............................13
  2.2. Критерий Смирнова................................ 14
  2.3. Критерий Крамера-Мизеса-Смирнова..................15
  2.4. Критерий Андерсона-Дарлинга...................... 17
  2.5. Критерий Купера.................................. 17
  2.6. Критерий Ватсона................................. 19
  2.7. Критерии Жанга....................................22
  2.8. Проверка простых гипотез..........................23
    2.8.1. Порядок проверки простой гипотезы..............23
    2.8.2. Проверка простой гипотезы по критерию Колмогорова 24
    2.8.3. Проверка простой гипотезы по критерию Смирнова.24
    2.8.4. Проверка простой гипотезы по критерию Крамера-Мизеса-
    Смирнова ............................................24
    2.8.5. Проверка простой гипотезы по критерию Андерсона-
    Дарлинга ............................................25
    2.8.6. Проверка простой гипотезы по критерию Купера..25
    2.8.7. Проверка простой гипотезы по критерию Ватсона.26
    2.8.8. Проверка простой гипотезы по критериям Жанга...26
3. Непараметрические критерии согласия при проверке сложных гипотез...........................................28
  3.1. Факторы, влияющие на распределения статистик критериев при проверке сложных гипотез................................28
  3.2. Методы оценивания параметров распределений и зависимость от них распределений статистик критериев................29
  3.3. Зависимость распределений статистик непараметрических критериев от вида закона................................32
  3.4. Зависимость распределений статистик непараметрических критериев от числа и типа оцениваемых параметров.......33
  3.5. Зависимость распределений статистик непараметрических критериев от конкретных значений параметра..............36
  3.6. Выводы.............................................44

3
4. Проверка сложных гипотез...............................46
  4.1. Порядок проверки сложной гипотезы..................46
  4.2. Перечень распределений, для которых регламентирована проверка сложных гипотез..............................48
  4.3. Примеры применения критериев согласия при простых и сложных гипотезах...................................55
  4.4. Некоторые замечания к применению.................72
    4.4.1. О мощности критериев.........................72
    4.4.2. О типичных ошибках применения................74
5. О решении проблем проверки сложных гипотез...........77
  5.1. Развитие ситуации................................77
  5.2. Методика компьютерного анализа статистических закономерностей.......................................79
  5.3. Интерактивный подход к проверке гипотез в нестандартных условиях..............................................82
6. Ошибки округления и свойства критериев...............86
  6.1. Применение критериев при больших выборках........86
    6.1.1. Проблемы анализа больших выборок.............86
    6.1.2. Об оценивании параметров.....................88
    6.1.3. Является ли именно большой объём выборки причиной некорректности выводов?.............................90
    6.1.4. Изменение распределений статистик под влиянием ошибок округления..........................................96
  6.2. Применение критериев при влиянии ошибок округления.98
    6.2.1. Влияние ошибок округления на распределения статистик критериев...........................................98
    6.2.2. Проверка нормальности при наличии округлений...104
    6.2.3. Заключительные замечания о влиянии ошибок округления на свойства критериев.................................110
    6.2.4. Реализация применения критериев согласия в нестандартных условиях...........................................113
7. Заключение..........................................120
Библиографический список...............................122
Приложение A. Таблицы распределений статистик непараметрических критериев согласия при простых и сложных гипотезах....................................132

4
Предисловие ко второму изданию
   С момента первого издания [102] прошло не так уж много времени, но ситуация существенным образом изменилась, так как, в некоторой степени неожиданно, на передний план в задачах применения множества критериев проверки статистических гипотез выдвинулась проблема наличия округлений в рядах измерений, осуществляемых в различных сферах человеческой деятельности.
   Опасения того, что присутствие ошибок округления может отражаться на выводах по результатам статистического анализа, высказывались давно. В том числе приводились конкретные примеры, подтверждающие изменение свойств некоторых критериев под влиянием ошибок округления. В настоящее время, когда в силу естественных причин резко возрос интерес к анализу больших объёмов информации, проблема изменения свойств критериев под влиянием ошибок округления выдвинулась на первый план.
   В рамках международной конференции “Analytical and Computational Methods in Probability Theory and its Applications (ACMPT-2017)” проводилось заседание круглого стола, посвящённого использованию статистических методов для анализа Big Data. В своём выступлении автор высказал мнение, что проблема многих неудач с применением классических критериев проверки гипотез для анализа больших выборок связана именно с наличием ошибок округления. Ряд подтверждающих примеров в практике автора ранее имел место.
   Под впечатлением упомянутого обсуждения в работе [89] нами исследовались изменения распределений статистик критериев согласия с ростом объёмов выборок в зависимости от величины ошибок округления. Результаты подтвердили все высказанные предположения. А дальнейшие исследования [84, 85, 24, 103, 91, 92, 94] показали, что проблема влияния ошибок округления на распределения статистик применяемых критериев проверки статистических гипотез имеет место не только при больших выборках, и её нельзя недооценивать.
Б.Ю. Лемешко
Май 2023

5
Предисловие к первому изданию
   История применения непараметрических критериев согласия насчитывает ровно 80 лет, начиная с работы А.Н. Колмогорова [ 21], после которой был предложен еще ряд непараметрических критериев, ставших классическими, статистики которых обладают замечатель -ным свойством “свободы от распределения” при проверке простых гипотез. Это свойство предопределило широкое использование этих критериев в приложениях при решении задач статистического анализа.
   Через 20 с небольшим лет стало известно о проблеме [ 20]. Если по анализируемой выборке оцениваются параметры закона распреде -ления вероятностей, а затем по ней же проверяется согласие с данным законом с применением непараметрического критерия, то свойство “свободы от распределения” статистики этого критерия теряется. Распределения статистик непараметрических критериев со -гласия при проверке сложных гипотез оказываются совсем другими, нежели при проверке простых, и нельзя использовать классические результаты.
   С тех пор математическая статистика в своем развитии ушла далеко вперед, а проблема применения непараметрических критериев согласия при проверке сложных гипотез осталась.
   При этом множество специалистов, имеющих отношение к математической статистике и применению методов статистического анализа, условно можно разбить на два подмножества. К первому отнести специалистов в области математической статистики, которые знают о проблеме применения непараметрических критериев согласия при проверке сложных гипотез, но поглощенные своими задачами, не занимаясь анализом данных в приложениях, не используют эти критерии в своей деятельности. К другому подмножеству, которое несравненно больше, отнести тех, кто не знает об этой проблеме, но в своей практической деятельности, сталкиваясь с необходимостью статистического анализа результатов экспериментальных исследований, применяет непараметрические критерии согласия. При этом применяет, как правило, в условиях

6
проверки сложных гипотез, опираясь на классические результаты, а, следовательно, не корректно. Эти два подмножества специалистов практически не пересекаются. Более того, складывается ощущение, что доля первого подмножества относительно сокращается и это связано с тем, что в университетских курсах математической статистики о проблеме не упоминается.
   17 лет назад, когда нам стала известно о существовании этой проблемы и степени её решения, мы относились ко второму подмножеству, к той его части, которая не понимала, почему оценивая параметры и применяя непараметрические критерии согласия, мы никак не учитываем этого факта при принятии решения о результатах проверки гипотезы. Было откровением, что проблема давно известна, но далека от разрешения.
   Тогда, используя свои возможности и методы статистического моделирования, мы убедились, что можно строить приближенные модели, которые с достаточной точностью описывают распределения статистик критериев согласия при проверке различных сложных гипотез. На базе этих результатов были подготовлены рекомендации [118], а затем рекомендации по стандартизации Р 50.1.037-2002 [136]. Готовя рекомендации по стандартизации [136], мы очень надеялись, что следование им позволит снизить уровень некорректного применения критериев в приложениях. Ожидания не очень оправдались, но надежда остается.
   Данное руководство, которое на базе последующих исследований существенно уточняет и расширяет прежние результаты, призвано заменить рекомендации по стандартизации [136].
   Я очень признателен своим ученикам и коллегам (Постовалову С.Н., Чимитовой Е.В., Лемешко С.Б., Волковой В.М., Рогожникову А.П., Горбуновой А.А.), сделавшим много для исследования распределений статистик критериев в условиях нарушения стандартных предположений и вносящим вклад в развитие компьютерных технологий исследования статистических закономерностей.
Б.Ю. Лемешко
Январь 2014

7
1. Введение


   Целью первичной обработки экспериментальных наблюдений обычно является выбор закона распределения, наиболее хорошо описывающего случайную величину, выборку которой наблюдают. Насколько хорошо наблюдаемая выборка описывается теоретическим законом, проверяют с помощью различных критериев согласия. Цель проверки гипотезы о согласии опытного распределения с теоретическим - это стремление удостовериться в том, что данная модель теоретического закона не противоречит наблюдаемым данным, и использование ее не приведет к существенным ошибкам при вероятностных расчетах. Некорректное использование критериев согласия может приводить к необоснованному принятию (чаще всего) или необоснованному отклонению проверяемой гипотезы.
   Проверка статистических гипотез о согласии эмпирических данных с теоретическим законом распределения обычно осуществляется с применением критериев типа %² или непараметрических критериев.
   В данном руководстве говорится только о применении непараметрических критериев согласия, в частности, о применении критериев Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, Купера, Ватсона, Жанга. К сожалению, практика применения такого рода критериев в приложениях богата большим числом примеров некорректного использования. Нередко с такими примерами можно столкнуться в литературных источниках учебного характера. Наиболее распространенные ошибки применения связаны с использованием классических результатов, имеющих место при проверке простых гипотез, для ситуаций, соответствующих проверке сложных гипотез [88, 31].
   При проверке согласия различают простые и сложные гипотезы. Простая проверяемая гипотеза имеет вид H₀ : F(x) = F(x, 0), где F (x, 0) - функция распределения вероятностей, с которой проверяют согласие наблюдаемой выборки, а 0 - известное значение параметра (скалярного или векторного).

8
   Сложная проверяемая гипотеза имеет вид H₀: F(х) е {F(х, 0), 0 е ©}, где 0 - область определения параметра 0 .
   Следует отметить, что если процесс вычисления оценки 0 скалярного или векторного параметра закона не опирается на ту же самую выборку, по которой проверяют гипотезу о согласии, то алгоритм применения критерия согласия при проверке сложной гипотезы не отличается от проверки простой гипотезы.
   Проблемы возникают, если при проверке сложной гипотезы оценку 0 параметра распределения вычисляют по той же самой выборке, по которой проверяют согласие. Далее, говоря о проверке сложных гипотез, мы, как правило, будем предполагать, что оценка параметра 0 вычисляется по той же выборке.
   Очевидно, что на практике при обработке результатов измерений с проблемой проверки сложных гипотез чаще всего сталкиваются именно в такой ситуации, поскольку сначала оценивают по выборке параметры модели, чтобы лучше подогнать ее к наблюдаемым данным, а потом проверяют адекватность полученной модели.
   Схема проверки гипотезы заключается в следующем.
   В соответствии с применяемым критерием согласия вычисляют

значение выборки F(х, 0о) практике G (5|Яо)
гипотезы

.!
S статистики критерия S как некоторой функции от и теоретического закона распределения с плотностью [или F(х, 0) при сложной гипотезе]. Для используемых на критериев асимптотические (предельные) распределения соответствующих статистик при условии истинности H о обычно известны. Как правило, для ситуаций проверки

простых и сложных гипотез эти распределения различаются.
   В ситуации проверки простых гипотез предельные распределения статистик классических непараметрических критериев согласия известны и не зависят от вида наблюдаемого закона распределения и, в частности, от его параметров. Говорят, что эти критерии являются «свободными от распределения». Это достоинство предопределило широкое использование данных критериев в различных приложениях.
   Далее в принятой практике статистического анализа обычно
<*
полученное значение статистики S сравнивают с критическим

9
значением Sа при заданном уровне значимости а . Нулевую гипотезу
               ОТ „ Z . .
отвергают, если S > Sа (рис. 1.1).


Рис. 1.1. Плотность распределения статистики при справедливости гипотезы H 0

   Критическое значение Sа, определяемое в случае одномерной

статистики из уравнения от
a=J g(s\H0)ds = 1 -G(Sa|H0),              (1.1)
                     S a
где g (s|H0) - условная плотность распределения статистики, обычно берут из соответствующей статистической таблицы или вычисляют.
   Больше информации о степени согласия можно почерпнуть из «достигаемого уровня значимости»: величины вероятности возможного превышения полученного значения статистики при истинности нулевой гипотезы от
Pv = P{S > S} =J g(s\H0)ds = 1 - G(S |H0).     (1.2)
                           S *

Именно эта вероятность позволяет судить о том, насколько хорошо выборка согласуется с теоретическим распределением, так как по


10
существу представляет собой вероятность истинности нулевой гипотезы (рис. 1.2). Гипотезу о согласии не отвергают, если P{ S > S *} >а.


Рис. 1.2. Плотность распределения статистики при справедливости гипотезы H о и достигаемый уровень значимости

    Задачи оценивания параметров и проверки гипотез опираются на выборки независимых случайных величин. Случайность самой выборки предопределяет, что возможны и ошибки в результатах статистических выводов. С результатами проверки гипотез связывают ошибки двух видов: ошибка первого рода состоит в том, что отклоняют гипотезу Hо, когда она верна; ошибка второго рода состоит в том, что принимают гипотезу Hо, в то время как справедлива конкурирующая гипотеза H1. Уровень значимости а задает вероятность ошибки первого рода. Обычно в критериях согласия не рассматривают конкретную конкурирующую гипотезу. И тогда можно считать, что конкурирующая гипотеза имеет вид H1 F(x) Ф F(x, Оо).
    Если же гипотеза H1 задана и имеет, например, вид H^ : F(x) = F1(x, О1), то задание величины а для используемого кри

11
терия проверки гипотез определяет и вероятность ошибки второго рода р
Sа
P=J g(s\Hi)ds.                       (1.3)
0
    На рис. 1.3 g(s | Hо) отображает плотность распределения статистики S при справедливости проверяемой гипотезы Hо, а g(s | Hi) - плотность распределения при справедливости Hi (при некотором объёме выборок n).

Рис. 1.3. Плотности распределения статистики при справедливости гипотез Hо и H₁

   Мощность критерия представляет собой величину 1 — 0 . Очевидно, что чем выше мощность используемого критерия при заданном значении а, тем лучше он различает гипотезы Hо и Hi. Особенно важно, чтобы этот критерий хорошо различал близкие конкурирующие гипотезы. Графически требование максимальной мощности критерия означает, что на рис. 1.3 плотности g(s | Hо) и g(s | Hi) должны быть максимально «раздвинуты».

12
Доступ онлайн
от 244 ₽
В корзину