Оутлиер - шта је то, дефиниција и концепт

Преглед садржаја:

Anonim

Изузетак је абнормално и екстремно посматрање у статистичком узорку или временској серији података које потенцијално могу утицати на процену његових параметара.

Једноставнијим речима, одступање би било запажање у узорку или временска серија података која није у складу са осталим. Замислите, на пример, да меримо висину ученика у одељењу.

Замислимо узорак од 10 ученика. Висина сваког је следећа:

Узорак 1
УченикВисина у метрима
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Просечна висина разреда била би 1,73. Ако узмемо у обзир максималну висину (1,85) и минималну висину (1,62) и растојање између њих и средње вредности, видећемо да је 0,113, односно 0,117. Као што видимо, средња вредност је приближно у средини интервала и могла би се сматрати прилично добром проценом.

Изузетан ефекат

Сада размислимо о још једном узорку од 10 ученика, чија је висина следећа:

Узорак 1
УченикВисина у метрима
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

У овом случају, просечна висина разреда била би 1,81. Ако сада погледамо максималну висину (2,20) и минималну висину (1,62) и удаљеност између њих и средње вредности, видећемо да је 0,39, односно 0,18. У овом случају средња вредност више није приближно у средини распона.

Ефекат 2 најекстремнија запажања (2.18 и 2.20) проузроковао је да се аритметичка средина помери ка максималној вредности расподеле.

Овим примером видимо ефекат који имају одступања и како могу искривити израчунавање просека.

Како открити изузетке?

Како исправити ефекат одступања

У ситуацијама попут ове у којима постоје абнормалне вредности које се битно разликују од осталих, медијана је боља процена да се зна у ком тренутку је концентрисан већи број посматрања.

У случају обе расподеле и пошто имамо паран број вредности, за израчунавање медијане не можемо узети тачно вредност која преполовљава расподелу. Са којим бисмо након редоследа вредности од најниже до највише узели пето и шесто запажање (обе остављају по 4 посматрања са сваке стране), а медијану бисмо израчунали на следећи начин:

Пример 1:

1,75+1,72/2 = 1,73

Пример 2:

1,79+1,71/2 = 1,75

Као што видимо, у узорку број 1, с обзиром да нема одступања или абнормалних запажања, медијана је 1,73 и поклапа се са средњом вредношћу. Супротно томе, за узорак 2, средња вредност је 1,75. Као што видимо, ова вредност је даље од средње висине, која је износила 1,81, и даје нам већу оцену тачке квалитета да бисмо приближно знали у којој тачки је концентрисан већи број посматрања.

Процена поена