Статистички узорак је подскуп података који припада популацији података. Статистички гледано, мора се састојати од одређеног броја запажања која адекватно представљају укупне податке.
Статистика је као грана математике одговорна за прикупљање података, њихово наручивање и анализу. Другим речима, када желимо да проучимо одређени феномен, окрећемо се статистици. Добар пример феномена који проучава статистика је просечна плата грађана неке земље
У том смислу, из разлога времена и трошкова, не можемо прикупити све податке. Та свеукупност података је оно што се назива популацијом података или једноставно популацијом.
Зашто радите са статистичким узорцима?
Да бисмо објаснили зашто се користи статистички узорак уместо укупне популације, посегнућемо за горенаведеним примером.
Претпоставимо да желимо да проучимо било који феномен. У нашем случају, овај феномен је просечна плата грађана неке земље. Популацију података чине сви радници у земљи. Наравно, из разлога времена и трошкова било би немогуће питати сваког радника колика му је годишња зарада. Требало би дуго или би нам требало пуно ресурса.
У овом тренутку се појављује концепт статистичког узорка. Уместо да питамо милионе радника у некој земљи или региону, ми прикупљамо само малу количину података. На пример, питали смо 100.000 људи. Овај задатак је и даље сложен, али много је повољније тражити 100.000 људи него 30 милиона.
Ова мала количина података мора бити репрезентативна. Односно, мора адекватно да представља становништво. Ако се 100.000 људи које смо питали концентрира у богатим четвртима, добићемо податке који нису репрезентативни. Просечна плата била би много већа него што заиста јесте.
Карактеристике репрезентативног статистичког узорка
Ако желите добро истражити, квалитет статистичког узорка је од кључне важности. Бескорисно је изводити најсложенију статистичку метрику са најсофистициранијим моделима ако је статистички узорак пристрасан. Односно, ако узорак није репрезентативан.
Приликом добијања репрезентативног узорка постоје одређени аспекти које истраживач мора унапред знати. Међу тим аспектима су карактеристике репрезентативног узорка. Карактеристике репрезентативног узорка су следеће:
- Довољно велика величина: Када радимо са узорцима, обично радимо са количином података која је мања од популације. Међутим, да би статистички узорак био репрезентативан, он мора бити довољно велик да би се могао сматрати репрезентативним. На пример, ако се наша популација састоји од 10 милиона података, а ми одаберемо 10, тешко је да она буде репрезентативна. Наравно, већи узорак није увек репрезентативнији.
- Случајност: Избор података из статистичког узорка мора бити случајан. Односно, мора бити потпуно случајно. Ако уместо да то учинимо насумично, извршимо планирани поступак одабира података, уводимо пристрасност у прикупљању података. Стога, да бисмо избегли пристрасност узорка и, према томе, да бисмо га учинили репрезентативним узорком, морамо извршити случајни одабир.
Статистички закључак
Једном добијени имамо репрезентативни узорак, онда је неопходно закључити одређене метрике. Често нас занима сазнање одређене мере променљиве. У почетном примеру, променљива би била плата грађана неке земље. У том смислу, метрика коју желимо да анализирамо је просечна плата грађана неке земље.
Другим речима, имамо популацију података коју чине сви радници у Мексику. Од ове популације добијамо променљиву, односно годишњу зараду. Користећи одговарајуће технике добијамо репрезентативни узорак. И коначно, након што имамо сет података са којим можемо радити, користимо технике статистичког закључивања за израчунавање средње зараде.
Наравно, када имамо скуп података, могли бисмо закључити и о другим мерама. На пример, како се расподељује зарада, који проценат радника је испод одређене зараде или колика је разлика у платама.
Пример статистичког узорка
Претпоставимо да желимо да спроведемо студију о просечном трошку колумбијских породица у месецу јануару. За ово имамо две могућности:
- Унесите банковне рачуне свих породица у Колумбији
- Питајте репрезентативни број људи
Прва опција није одржива из неколико разлога. Прво, да се породице неће одрећи својих података, а друго да ни ми не бисмо могли ићи у породицу ако породица гледа податке. Углавном зато што становништво Колумбије износи близу 50 милиона. У међувремену, друга је могућност прикупљања статистичког узорка.
Оно што ћемо урадити, следећи горе поменуте карактеристике, биће питати 100.000 породица. То је донекле компликовано, али много лакше него тражити 50 милиона Колумбијаца. Разлика је знатна. Тако ћемо на основу тог узорка од 100.000 породица покушати да израчунамо просечне издатке породица у јануару.
Издвојени подаци биће мање или више поуздани према низу метрика које се узимају у обзир у статистичким истраживањима. Наравно, ове врсте метрике су напредније и зато их овде нећемо разматрати.