Atšķirības starp korelāciju un cēloņsakarībām

Kādu dienu pusdienās kāda jauna sieviete ēda lielu bļodu saldējuma, un kāds mācībspēks piegāja pie viņas un sacīja: “Labāk esiet uzmanīgs, tur ir augsts statistikaskorelācija starp saldējumu un noslīkšanu. ” Viņai, iespējams, bija jāskatās viņam neskaidrs izskats, jo viņš izstrādāja vēl dažus. “Dienas, kurās visvairāk pārdots saldējums, arī noslīkst visvairāk cilvēku.”

Kad viņa bija pabeidzusi manu saldējumu, abi kolēģi pārrunāja faktu, ka tikai tāpēc, ka viens mainīgais ir statistiski saistīts ar citu, tas nenozīmē, ka viens ir otra iemesls. Dažreiz fonā slēpjas mainīgs lielums. Šajā gadījumā datos slēpjas gada diena. Karstās vasaras dienās tiek pārdots vairāk saldējuma nekā sniegotās ziemās. Vasarā peld vairāk cilvēku, tāpēc vasarā vairāk noslīkst nekā ziemā.

Sargieties no svārstīgajiem mainīgajiem

Iepriekš minētā anekdote ir lielisks piemērs tam, kas pazīstams kā slēpjošais mainīgais. Kā norāda nosaukums, slēpjošais mainīgais var būt nenotverams un grūti pamanāms. Kad mēs atklājam, ka divas skaitlisko datu kopas ir cieši saistītas, mums vienmēr vajadzētu jautāt: “Vai varētu būt kaut kas cits, kas izraisa šīs attiecības?”

instagram viewer

Šie ir spēcīgas korelācijas piemēri, ko izraisa slēpjošs mainīgais:

  • Vidējais datoru skaits uz vienu cilvēku valstī un vidējais dzīves ilgums.
  • Ugunsdzēsēju skaits pie ugunsgrēka un ugunsgrēka radītie postījumi.
  • Pamatskolas skolēna augums un viņa lasīšanas līmenis.

Visos šajos gadījumos sakarība starp mainīgajiem lielumiem ir ļoti spēcīga. Parasti to apzīmē ar korelācijas koeficients kuras vērtība ir tuvu 1 vai -1. Nav svarīgi, cik tuvu šis korelācijas koeficients ir 1 vai -1, šī statistika nevar parādīt, ka viens mainīgais ir otra mainīgā iemesls.

Aizmugurējo mainīgo noteikšana

Pēc būtības slēpjošos mainīgos ir grūti atklāt. Viena no stratēģijām, ja tāda ir pieejama, ir pārbaudīt, kas laika gaitā notiek ar datiem. Tas var atklāt sezonālās tendences, piemēram, saldējuma piemēru, kas kļūst aizēnota, kad dati tiek salikti kopā. Vēl viena metode ir aplūkot novirzes un mēģiniet noteikt, kas viņus atšķir no citiem datiem. Dažreiz tas sniedz norādi par to, kas notiek aizkulisēs. Labākais rīcības veids ir būt proaktīvam; jautājumu pieņēmumus un dizaina eksperimentus uzmanīgi.

Kāpēc tas ir svarīgi?

Atklāšanas scenārijā pieņemsim, ka labsirdīgs, bet statistiski neinformēts kongresa dalībnieks ierosināja aizliegt visu saldējumu, lai novērstu noslīkšanu. Šāds likumprojekts radītu neērtības lieliem iedzīvotāju slāņiem, piespiestu vairākus uzņēmumus bankrotēt un likvidētu tūkstošiem darba vietu, jo valsts saldējuma nozare tiktu slēgta. Neskatoties uz labākajiem nodomiem, šis likumprojekts nesamazinās noslīkušo nāves gadījumu skaitu.

Ja šis piemērs šķiet mazliet par tālu, ņemiet vērā sekojošo, kas faktiski notika. 1900. gadu sākumā ārsti pamanīja, ka daži zīdaiņi mierīgi mirst miegā no uztvertajām elpošanas problēmām. To sauca par gultiņas nāvi, un tagad to sauc par SIDS. Viena no SIDS mirušo cilvēku autopsijām bija palielināta aizkrūts dziedzeris - krūšu dziedzeris. Pēc palielinātu aizkrūts dziedzera dziedzeru korelācijas SIDS zīdaiņiem ārsti pieņēma, ka neparasti liels aizkrūts dziedzeris izraisīja nepareizu elpošanu un nāvi.

Piedāvātais risinājums bija aizkrūts dziedzera saraušana ar lielu radiācijas intensitāti vai dziedzera pilnīga noņemšana. Šajās procedūrās bija augsts mirstības līmenis un tas izraisīja vēl vairāk nāves gadījumu. Skumji ir tas, ka šīs operācijas nebija jāveic. Turpmākie pētījumi parādīja, ka šie ārsti ir kļūdījušies pieņēmumos un ka aizkrūts dziedzeris nav atbildīgs par SIDS.

Korelācija nenozīmē cēloņsakarību

Iepriekšminētajam vajadzētu likt mums ieturēt pauzi, kad mēs domājam, ka statistikas dati tiek izmantoti, lai pamatotu tādas lietas kā medicīniskās shēmas, tiesību aktus un izglītības priekšlikumus. Ir svarīgi, lai datu interpretācijā tiktu ieguldīts labs darbs, it īpaši, ja rezultāti, kas saistīti ar korelāciju, ietekmēs citu cilvēku dzīvi.

Kad kāds paziņo: “Pētījumi rāda, ka A ir B cēlonis un daži statistikas dati to dublē,” esiet gatavi atbilde: “korelācija nenozīmē cēloņsakarību”. Vienmēr esiet uzmanīgs, kas slēpjas zem dati.

instagram story viewer