Колмогоров тест - Смирнофф (К-С)

Преглед садржаја:

Колмогоров тест - Смирнофф (К-С)
Колмогоров тест - Смирнофф (К-С)
Anonim

Тест Колмогоров-Смирнофф (К-С) је непараметарски тест који има за циљ да утврди да ли фреквенција два различита скупа података прати исту расподелу око њихове средње вредности.

Другим речима, тест Колмогоров-Смирнофф (К-С) је тест који се прилагођава облику података и користи се за проверу да ли два различита узорка следе исту расподелу.

Зашто је то непараметарски тест?

Лепота „непараметарске“ карактеристике је у томе што се уклапа у податке и, сходно томе, у дистрибуције које могу пратити фреквенцију података. Поред тога, ова функција нас штеди од потребе да претпостављамо априори какву дистрибуцију прати узорак.

Значај К-С теста

Колико пута смо добили два узорка и израчунали Пеарсонов коефицијент корелације без два размишљања? Другим речима, ако желимо да видимо линеарни однос између два скупа података, било би поштено израчунати корелацију, зар не?

Овај одбитак био би тачан ако дистрибуције два узорка следе нормалну расподелу. Коефицијент корелације претпоставља да су расподеле нормалне, ако прескочимо ову претпоставку, резултат коефицијента корелације је погрешан. За тестове хипотеза и интервале поузданости такође претпостављамо да се популација дистрибуира нормалном расподелом.

Као и сви тестови хипотеза који укључују статистику, важно је да имамо велику количину података да бисмо имали статистички значајне резултате. Погрешно можемо одбити нулту хипотезу јер је узорак мали. Даље, такође је важно да овај узорак има неке екстремне случајеве (оутлиерс, на енглеском језику) ради постизања конзистентности резултата теста.

Поступак испитивања

Поступак следећих корака.

Хипотеза

Први корак биће провера да ли оба узорка имају исту дистрибуцију. Да бисмо то урадили, спроводимо тест хипотезе претпостављајући да оба узорка имају исту дистрибуцију у односу на алтернативну хипотезу да су различити.

Статистички

Радимо са кумулативним функцијама расподеле два узорка, Ф.1(к) и Ф.2(Икс):

Не паничите! Горњу формулу анализирамо мирно:

  • Важан део формуле је знак разлике (-). Тражимо вертикалне разлике у расподелама. Дакле, одузећемо обе кумулативне функције расподеле.
  • Тхе оператор "мак". Занима нас да пронађемо највећу или максималну разлику како бисмо видели колико две дистрибуције могу бити различите.
  • Тхе апсолутна вредност. Користимо апсолутну вредност тако да редослед оператора не мења резултат. Другим речима, није важно који Ф (к) има негативни предзнак:

Критична вредност

За велике узорке постоји апроксимација критичне вредности за К-С која зависи од нивоа значајности (%):

Где1 и н2 су величина узорка за узорак Ф.1(к) и Ф.2(к) респективно.

Неке израчунате критичне вредности:

Правило одбијања

Апликација

Врло често желимо да тестирамо да ли се две дистрибуције међусобно довољно разликују када желимо да изградимо сценарије предвиђања (радимо са два узорка) или када желимо да проценимо која дистрибуција најбоље одговара подацима (радимо само са једним узорком).