Dažreiz skaitliskie dati tiek iegūti pa pāriem. Varbūt a paleontologs mēra augšstilba kaula (kājas kaula) un apakšstilba (rokas kaula) garumu piecās vienas dinozauru sugas fosilijās. Varētu būt jēga apsvērt rokas garumu atsevišķi no kājas garuma un aprēķināt tādas lietas kā vidējais vai standarta novirze. Bet ko tad, ja pētniekam ir interese uzzināt, vai starp šiem diviem mērījumiem ir saistība? Nepietiek tikai apskatīt rokas atsevišķi no kājām. Tā vietā paleontologam vajadzētu savienot kaulu garumu katram skeletam un izmantot laukumu statistika pazīstams kā korelācija.
Kas ir korelācija? Iepriekš minētajā piemērā pieņemsim, ka pētnieks izpētīja datus un sasniedza ne pārāk pārsteidzošos Rezultātā dinozauru fosilijām ar garākām rokām bija arī garākas kājas, un fosilijām ar īsākām rokām īsākas kājas. Datu sadalījums parādīja, ka visi datu punkti bija sagrupēti taisnas līnijas tuvumā. Pēc tam pētnieks teiktu, ka pastāv spēcīgas tiešās attiecības, vai korelācija, starp fosilo roku kaulu un kāju kauliem. Lai pateiktu, cik spēcīga ir korelācija, ir vajadzīgs vēl nedaudz darba.
Korelācija un izkliedes diagrammas
Tā kā katrs datu punkts apzīmē divus skaitļus, divdimensiju izkliedes diagramma ir lielisks palīgs datu vizualizācijā. Pieņemsim, ka mums patiesībā ir dinozauru dati, un piecām fosilijām ir šādi mērījumi:
- Ciskas kauls 50 cm, apakšstilbs 41 cm
- Ciskas kauls 57 cm, apakšstilbs 61 cm
- Ciskas kauls 61 cm, humerus 71 cm
- Ciskas kauls 66 cm, apakšstilbs 70 cm
- Ciskas kauls 75 cm, apakšstilbs 82 cm
Datu sadalījums ar augšstilba kaula izmēru horizontālā virzienā un apakšstilba mērījumu vertikālā virzienā rada iepriekš minēto grafiku. Katrs punkts apzīmē viena skeleta izmērus. Piemēram, kreisajā apakšējā stūrī esošais punkts atbilst 1. skeletam. Punkts augšējā labajā stūrī ir 5. skelets.
Protams, izskatās, ka mēs varētu novilkt taisnu līniju, kas būtu ļoti tuvu visiem punktiem. Bet kā mēs droši varam pateikt? Tuvība ir aculiecinieka acīs. Kā mēs zinām, ka mūsu "tuvuma" definīcijas sakrīt ar kādu citu? Vai ir kāds veids, kā mēs varētu noteikt šo tuvību?
Korelācijas koeficients
Lai objektīvi izmērītu, cik tuvu dati atrodas taisnā līnijā, tiek izmantots korelācijas koeficients. korelācijas koeficients, parasti apzīmē r, ir reālais skaitlis no -1 līdz 1. Vērtība r mēra korelācijas stiprumu, pamatojoties uz formulu, novēršot jebkādu subjektivitāti procesā. Interpretējot. Vērtību, ir jāpatur prātā vairākas vadlīnijas r.
- Ja r = 0, tad punkti ir pilnīga kļūda, absolūti nepastāvot taisnu attiecību starp datiem.
- Ja r = -1 vai r = 1, tad visi datu punkti perfekti sakrīt ar līniju.
- Ja r ir vērtība, kas nav šīs galējības, tad rezultāts ir mazāk nekā perfekts taisnas līnijas pielāgojums. Reālās pasaules datu kopās tas ir visizplatītākais rezultāts.
- Ja r ir pozitīvs, tad līnija palielinās ar a pozitīvs slīpums. Ja r ir negatīva, tad līnija iet uz leju ar negatīvu slīpumu.
Korelācijas koeficienta aprēķins
Korelācijas koeficienta formula r ir sarežģīts, kā redzams šeit. Formulas sastāvdaļas ir abu skaitlisko datu kopu vidējie lielumi un standartnovirzes, kā arī datu punktu skaits. Lielākajai daļai praktisko pielietojumu r ir apnicīgi aprēķināt ar roku. Ja mūsu dati ir ievadīti kalkulatora vai izklājlapu programmā ar statistiskās komandas, tad aprēķināšanai parasti ir iebūvēta funkcija r.
Korelācijas ierobežojumi
Lai gan korelācija ir spēcīgs rīks, tās izmantošanai ir daži ierobežojumi:
- Korelācija mums pilnībā neizsaka visu par datiem. Līdzekļi un standarta novirzes joprojām ir svarīgi.
- Datus var raksturot ar līkni, kas ir sarežģītāka nekā taisna līnija, bet tas netiks parādīts, aprēķinot r.
- Ārējās vērtības spēcīgi ietekmē korelācijas koeficientu. Ja savos datos redzam novirzes, mums vajadzētu būt uzmanīgiem attiecībā uz to, kādus secinājumus mēs izdarām no vērtības r.
- Tikai tāpēc, ka divas datu kopas ir savstarpēji saistītas, tas nenozīmē, ka viena ir cēlonis no otras puses.