Kas ir Simpsona paradokss statistikā?

A paradokss ir paziņojums vai parādība, kas uz virsmas šķiet pretrunīga. Paradoksi palīdz atklāt patiesību zem tā, kas šķiet absurds. Statistikas jomā Simpsona paradokss parāda, kāda veida problēmas rodas, apvienojot datus no vairākām grupām.

Ar visiem datiem mums jābūt piesardzīgiem. No kurienes tas nāca? Kā tas tika iegūts? Un ko tas patiesībā saka? Tie visi ir labi jautājumi, kas mums būtu jāuzdod, iepazīstinot ar datiem. Ļoti pārsteidzošais Simpsona paradoksa gadījums mums parāda, ka dažreiz tas, ko šķiet dati saka, patiesībā nav.

Paradoksa pārskats

Pieņemsim, ka mēs novērojam vairākas grupas un nodibinām attiecības vai korelācija katrai no šīm grupām. Simpsona paradokss saka, ka, apvienojot visas grupas kopā un aplūkojot datus apkopotā veidā, korelācija, ko mēs pamanījām iepriekš, var mainīt sevi. Visbiežāk tas notiek tāpēc, ka slēpjas mainīgie, kas nav ņemti vērā, bet dažreiz tas ir saistīts ar datu skaitliskajām vērtībām.

Piemērs

Lai mazliet vairāk izprastu Simpsona paradoksu, apskatīsim šo piemēru. Noteiktā slimnīcā strādā divi ķirurgi. Ķirurgs A operē 100 pacientiem, un 95 izdzīvo. Ķirurgs B operē 80 pacientiem un 72 izdzīvo. Mēs apsveram iespēju veikt operāciju šajā slimnīcā, un ir svarīgi pārdzīvot šo operāciju. Mēs vēlamies izvēlēties labāko no diviem ķirurgiem.

instagram viewer

Mēs aplūkojam datus un izmantojam tos, lai aprēķinātu, kāds procents ķirurga A pacientu izdzīvoja pēc operācijas, un salīdzinām to ar ķirurga B pacientu izdzīvošanas līmeni.

  • 95 pacienti no 100 izdzīvoja ar ķirurgu A, tātad 95/100 = 95% no viņiem izdzīvoja.
  • 72 pacienti no 80 izdzīvoja ar ķirurgu B, tāpēc 72/80 = 90% no viņiem izdzīvoja.

Kādu ķirurgu pēc šīs analīzes vajadzētu izvēlēties, lai mūs ārstētu? Varētu šķist, ka ķirurgs A ir drošākā likme. Bet vai tā ir patiesība?

Ko darīt, ja mēs veiktu datu papildu izpēti un atklātu, ka sākotnēji slimnīca ir apsvērusi divus dažādus operāciju veidus, bet pēc tam visus datus apvienoja, lai ziņotu par katru no tiem ķirurgi. Ne visas operācijas ir vienādas, dažas tika uzskatītas par paaugstināta riska ārkārtas operācijām, bet citas bija ierastāka rakstura, kas bija paredzēta iepriekš.

No 100 pacientiem, kurus ārstēja ķirurgs A, 50 bija augsts risks, no kuriem trīs nomira. Pārējie 50 tika uzskatīti par ikdienišķiem, un no tiem 2 nomira. Tas nozīmē, ka parastās operācijas gadījumā pacienta, kuru ārstē ķirurgs A, izdzīvošanas koeficients ir 48/50 = 96%.

Tagad mēs rūpīgāk aplūkojam ķirurga B datus un secinām, ka no 80 pacientiem 40 bija augsts risks, no kuriem septiņi nomira. Pārējie 40 bija ierasti un tikai viens nomira. Tas nozīmē, ka pacientam ir ķirurģiskas B ķirurģiskas operācijas izdzīvošanas koeficients 39/40 = 97,5%.

Tagad kurš ķirurgs šķiet labāks? Ja jūsu operācijai jābūt kārtējai, tad ķirurgs B patiesībā ir labāks ķirurgs. Ja skatāmies uz visām ķirurgu veiktajām operācijām, A ir labāka. Tas ir diezgan pretintuitīvs. Šajā gadījumā operācijas veida slēptais mainīgais ietekmē ķirurgu apvienotos datus.

Simpsona paradoksa vēsture

Simpsona paradokss ir nosaukts pēc Eduarda Simpsona, kurš pirmo reizi aprakstīja šo paradoksu 1951. gada rakstā “Mijiedarbības interpretācija ārkārtas tabulās” no Karaliskās statistikas biedrības žurnāls. Pērsons un Jūle katrs novēroja līdzīgu paradoksu pusgadsimtu agrāk nekā Simpsons, tāpēc Simpsona paradoksu dažreiz dēvē arī par Simpsona-Jūles efektu.

Ir daudz dažādu paradoksa pielietojumu tik dažādās jomās kā sporta statistika un dati par bezdarbu. Katru reizi, kad dati tiek apkopoti, uzmanieties, lai parādītos šis paradokss.

instagram story viewer