Klasteru analīze ir statistikas paņēmiens, ko izmanto, lai noteiktu, kā dažādas vienības, piemēram, cilvēkus, grupas vai sabiedrības, var sagrupēt to kopīgo īpašību dēļ. Pazīstams arī kā klasterizācija, tas ir izpētes datu analīzes rīks, kura mērķis ir sašķirot dažādus objektus grupās tādā veidā, ka pieder tai pašai grupai, viņiem ir maksimāla asociācijas pakāpe, un, ja viņi nepieder vienai un tai pašai grupai, viņu asociācijas pakāpe ir minimāls. Atšķirībā no dažiem citiem statistikas metodes, struktūrām, kas tiek atklātas, veicot klasteru analīzi, nav nepieciešams skaidrojums vai interpretācija - tā atklāj datu struktūru, nepaskaidrojot, kāpēc tās pastāv.
Kas ir klasterizācija?
Klasterizācija pastāv gandrīz visos mūsu ikdienas dzīves aspektos. Ņem, piemēram, preces pārtikas preču veikalā. Vienādās vai tuvumā esošās vietās vienmēr tiek parādīti dažāda veida priekšmeti - gaļa, dārzeņi, soda, labība, papīra izstrādājumi utt. Pētnieki bieži vēlas rīkoties tāpat kā ar datiem un objektus vai subjektus sagrupēt klasteros, kuriem ir jēga.
Lai ņemtu piemēru no sociālajām zinātnēm, pieņemsim, ka mēs skatāmies uz valstīm un vēlamies tās grupēt klasteros, pamatojoties uz tādām īpašībām kā darba dalīšana, militārie spēki, tehnoloģijas vai izglītoti iedzīvotāji. Mēs redzētu, ka Lielbritānijai, Japānai, Francijai, Vācijai un Amerikas Savienotajām Valstīm ir līdzīgas pazīmes un tās būtu kopas. Arī Uganda, Nikaragva un Pakistāna tiktu grupētas citā klasterī, jo tām ir atšķirīgs raksturlielumu kopums, tostarp zems labklājības līmenis, vienkāršāka darba dalīšana, relatīvi nestabilas un nedemokrātiskas politiskās institūcijas un zema tehnoloģiskā līmeņa attīstību.
Klasteru analīzi parasti izmanto izpētes izpētes posmā, kad pētnieka tāda nav iepriekš izdomātas hipotēzes. Parasti tā nav vienīgā izmantotā statistikas metode, bet tā tiek veikta projekta sākumposmā, lai palīdzētu vadīt pārējo analīzi. Šī iemesla dēļ nozīmīguma pārbaude parasti nav ne būtiska, ne piemērota.
Ir vairāki dažādi klasteru analīzes veidi. Divas visbiežāk izmantotās ir K-līdzekļu klasterēšana un hierarhiskā klasterēšana.
K nozīmē kopu
K-līdzekļu klasterizēšana traktē datos novērojumus kā objektus, kuriem ir vietas un attālumi viens no otra (ņemiet vērā, ka klasterizācijā izmantotie attālumi bieži neatspoguļo telpiskos attālumus). Tas sadala objektus K savstarpēji izslēdzošās kopās tā, lai katrā klasterī esošie objekti būtu kā pēc iespējas tuvāk viens otram un vienlaikus pēc iespējas tālāk no objektiem citās kopās. Pēc tam katru kopu raksturo tā vidējais vai centra punkts.
Hierarhiskā klasterizācija
Hierarhiskā klasterizācija ir veids, kā vienlaikus izpētīt datu grupējumus dažādos mērogos un attālumos. Tas tiek darīts, izveidojot klastera koku ar dažādiem līmeņiem. Atšķirībā no K-veida klasterizācijas koks nav atsevišķs klasteru kopums. Drīzāk koks ir daudzlīmeņu hierarhija, kurā viena līmeņa kopas tiek apvienotas kā kopas nākamajā augstākā līmenī. Izmantotais algoritms sākas ar katru gadījumu vai mainīgo atsevišķā klasterī un pēc tam apvieno klasterus, līdz paliek tikai viens. Tas ļauj pētniekam izlemt, kāds klasterizācijas līmenis ir vispiemērotākais viņa vai viņas pētījumam.
Klasteru analīzes veikšana
Lielākā daļa statistikas programmatūras programmas var veikt klasteru analīzi. SPSS atlasiet analizēt no izvēlnes, pēc tam klasificēt un klasteru analīze. SAS proc klasteris var izmantot funkciju.
Atjaunināja Nicki Lisa Cole, Ph.