Кластер анализа - шта је то, дефиниција и концепт

Кластер анализа је скуп мултиваријантних статистичких техника којима је циљ групирање низа случајева или појединаца у кластере или кластере.

Стога је кластер анализа врста статистичког груписања. Циљ је да подаци у сваком кластеру буду што сличнији једни другима и што различитији у односу на остале групе. То се може урадити и са променљивим.

Трансформација података у кластер анализи

Један од проблема са којим се сусрећемо када групишемо податке је тај што се подаци понекад налазе у различитим мерним јединицама. Из тог разлога мора се извршити корак анализе кластера који омогућава груписање.

Најчешћи метод је стандардизација. Ово се користи за трансформисање података тако да имају сличне мерне јединице. Морају се узети у обзир два правила, бинарне променљиве нису стандардизоване и, ако су категоричне, постају бинарне (присуство / одсуство).

Методе у кластер анализи

Постоји много метода за извођење кластер анализе, али на Ецономи-Вики.цом, следећи принцип једноставности који нас карактерише, видећемо најрелевантније на шематски начин.

Хијерархијске методе

Прва класификација биле би хијерархијске или нехијерархијске методе. Некадашњи појединци групишу у хијерархијске фазе (отуда и њихово име). На тај начин само један објекат истовремено мења групу, а остатак остаје на истом месту.

Они су пак класификовани на:

Агломеративне методе

Састоји се од груписања појединаца у мање кластере сваки пут. Полази од броја група који је једнак броју случајева и смањује се.

Најпознатија су:

  • Метода најближег комшије: У овом случају користите алгоритам за груписање података. Оно што тражите је минимална удаљеност између најближих појединаца. Веома је осетљив на податке који могу да изазову такозвану „буку“. Метода најудаљенијег суседа је слична.
  • Просечна метода између група: Оно што чини је да израчуна средњу вредност растојања између појединаца у групи и једне од њих посебно. Веома је корисно смањити такозвану „буку“.
  • Вард-ова метода: Оно што ради је додавање квадрата одступања између сваког појединца и средње вредности његовог кластера, како би се избегао губитак информација. Једна је од најпознатијих и има предности методе засноване на средњој вредности, али већој моћи дискриминације.

Дисоцијативне методе

У овом случају, оно што радите је подела. Почиње једним кластером, а поделе се предлажу на основу низа захтева.

Најчешћи су:

  • Просек међу групама, најближи сусед и најудаљенији сусед: Ове три методе су сличне претходном случају, али користећи дисоцијативну методу. Односно, овога пута оно што радимо је одвојено, а не групно.
  • Метода Центроид: Широко се користи у проблемима оптимизације локације. Користите ову врсту анализе да бисте пронашли најпогодније.

Нехијерархијске методе

У овом случају почињу са унапред подешеним решењем. Ово је полазна тачка за кластер анализу. На тај начин се групе унапред успостављају и сваки случај ће бити смештен у једну од њих, у зависности од његових карактеристика. Заузврат, можемо их поделити у друге подгрупе.

  • Методе прерасподјеле: Најрелевантније су центроид методе, као што су к-средства. Они медиоиди, попут ПАМ-а. Или онај динамичних облака.
  • Директне методе: Најважније је кластеровање блокова, које се широко користи у рударству података.
  • Редуктивне методе: Они су засновани на факторској анализи.
  • Методе претраге густине: С једне стране постојали би типолошки приступи, као што је модална анализа. С друге стране, имамо оне вероватноћа, попут Вукове.

Примери кластер анализе

Погледајмо, коначно, неке примере апликација за кластер анализу.

  • Замислимо да имамо групу земаља које желимо да групишемо на основу одређених макроекономских променљивих, попут инфлације или незапослености. Ову врсту анализе можемо користити да бисмо направили хомогене групе, на пример, више или мање развијене земље.
  • Други пример би могао бити низ потрошача са одређеним социодемографским карактеристикама. Идеја је створити групе са сличним појединцима, а оне се, пак, веома разликују једна од друге.
  • Али поред економије, кластер анализа је корисна и у другим наукама. На пример, у биологији, да би се класификовале врсте или у геологији, да се то учини са минералима.

Ви ће помоћи развој сајта, дељење страницу са пријатељима

wave wave wave wave wave