Ārējās vērtības ir datu vērtības, kas ievērojami atšķiras no lielākās daļas datu kopas. Šīs vērtības ir ārpus vispārējās tendences, kas pastāv datos. Rūpīga datu kopuma pārbaude, lai meklētu novirzes, rada zināmas grūtības. Lai gan ir viegli redzēt, iespējams, izmantojot stemplot, ka dažas vērtības atšķiras no pārējiem datiem, cik atšķirīga ir vērtība, kas jāuzskata par ārēju? Mēs apskatīsim īpašu mērījumu, kas mums parādīs objektīvu standartu tam, kas veido novirzi.
Starpkvartilu diapazons
starpkvartilu diapazons ir tas, ko mēs varam izmantot, lai noteiktu, vai galējā vērtība patiešām ir novirze. Starpkvartilu diapazons ir balstīts uz daļu no piecu ciparu kopsavilkums datu kopas, proti, pirmā un trešā ceturtdaļa. Starpkvartilu diapazona aprēķins ietver vienu aritmētisko operāciju. Viss, kas mums jādara, lai atrastu starpkvartilu diapazonu, ir pirmās ceturtās daļas atņemšana no trešās kvartiles. Iegūtā atšķirība norāda, cik liela ir mūsu datu vidējā puse.
Noviržu noteikšana
Reizinot starpkvartilu diapazonu (IQR) ar 1,5, mēs varēsim noteikt, vai noteikta vērtība ir novirze. Ja no pirmās ceturtdaļas atņemsim 1,5 x IQR, visas datu vērtības, kas ir mazākas par šo skaitli, tiek uzskatītas par novirzēm. Līdzīgi, ja trešajai kvartilei pievienojam 1,5 x IQR, visas datu vērtības, kas ir lielākas par šo skaitli, tiek uzskatītas par novirzēm.
Spēcīgas novirzes
Daži novirzes parāda ārkārtēju novirzi no pārējās datu kopas. Šajos gadījumos mēs varam spert soļus no augšas, mainot tikai to skaitli, kuru reizinām ar IQR, un definējam noteikta veida ārējās vērtības. Ja no pirmās ceturtdaļas atņemsim 3,0 x IQR, jebkuru punktu, kas atrodas zem šī skaitļa, sauc par spēcīgu novirzi. Tādā pašā veidā 3,0 x IQR pievienošana trešajai kvartilei ļauj mums noteikt spēcīgas novirzes, aplūkojot punktus, kas ir lielāki par šo skaitli.
Vājas novirzes
Papildus spēcīgajiem pārspīlējumiem ir arī cita kategorija. Ja datu vērtība ir pārspīlēta, bet ne spēcīga, tad mēs sakām, ka vērtība ir vāja. Mēs apskatīsim šos jēdzienus, izpētot dažus piemērus.
1. piemērs
Pirmkārt, pieņemsim, ka mums ir {1, 2, 2, 3, 3, 4, 5, 5, 9} datu kopa. Skaitlis 9 noteikti izskatās, ka tas varētu būt novirze. Tā ir daudz lielāka par jebkuru citu vērtību no pārējā komplekta. Lai objektīvi noteiktu, vai 9 ir novirze, mēs izmantojam iepriekšminētās metodes. Pirmā kvartila ir 2 un trešā kvartile ir 5, kas nozīmē, ka starpkvartilu diapazons ir 3. Mēs reizinām starpkvartilu diapazonu ar 1,5, iegūstot 4,5, un pēc tam pievienojam šo numuru trešajai kvartilei. Rezultāts 9,5 ir lielāks par jebkuru no mūsu datu vērtībām. Tāpēc nav noviržu.
2. piemērs
Tagad mēs skatāmies uz to pašu datu kopu kā iepriekš, izņemot to, ka lielākā vērtība ir 10, nevis 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Pirmā kvartila, trešā kvartile un starpkvartilu diapazons ir identiski 1. piemēram. Kad trešajai kvartilei pievienojam 1,5 x IQR = 4,5, summa ir 9,5. Tā kā 10 ir lielāks par 9,5, to uzskata par ārēju.
Vai 10 ir stipri vai vāji ārēji? Lai to izdarītu, mums jāaplūko 3 x IQR = 9. Kad trešajai kvartilei pievienojam 9, mēs iegūstam summu 14. Tā kā 10 nav lielāks par 14, tas nav spēcīgs novirze. Tādējādi mēs secinām, ka 10 ir vājš pārsvars.
Nezināmo faktoru identificēšanas iemesli
Mums vienmēr jāmeklē novirzes. Dažreiz tos izraisa kļūda. Citreiz novirzes norāda uz iepriekš nezināmas parādības klātbūtni. Cits iemesls, kāpēc mums jābūt rūpīgiem, pārbaudot novirzes, ir visu iemeslu dēļ aprakstošā statistika kas ir jutīgi pret novirzēm. Vidējais, standarta novirze un korelācijas koeficients pāra dati ir tikai daži no šiem statistikas veidiem.