Kvantiļu izpratne: definīcijas un pielietojums

Kopsavilkuma statistika, piemēram, mediāna, pirmā un trešā kvartile ir pozīcijas mērījumi. Tas notiek tāpēc, ka šie skaitļi norāda, kur atrodas noteikta datu izplatīšanas proporcija. Piemēram, mediāna ir pētāmo datu vidējā pozīcija. Pusei datu ir mazākas vērtības nekā vidējai vērtībai. Tāpat 25% datu vērtības ir mazākas par pirmo kvartili un 75% datu ir mazākas nekā trešajā kvartilē.

Šo jēdzienu var vispārināt. Viens veids, kā to izdarīt, ir apsvērt procentīles. 90. procentilis norāda punktu, kurā 90% datu datu vērtības ir mazākas par šo skaitli. Vispārīgāk runājot lppth procentile ir skaitlis n par kuru lpp% datu ir mazāki par n.

Nepārtraukti izlases mainīgie

Lai gan vidējās, pirmās un trīs ceturtās kārtas secības statistiku parasti ievada a iestatot ar diskrētu datu kopu, šo statistiku var definēt arī nepārtrauktai nejaušībai mainīgs. Tā kā mēs strādājam ar nepārtrauktu izplatīšanu, mēs izmantojam integrālu. lppth procentile ir skaitlis n tāds, ka:

∫_-₶ⁿf ( x ) dx = lpp/100.

Šeit f ( x ) ir varbūtības blīvuma funkcija. Tādējādi mēs varam iegūt jebkuru procentīli, kuru vēlamies a

instagram viewer

nepārtraukts izplatīšana.

Kvantiļi

Papildu vispārinājums ir atzīmēt, ka mūsu pasūtījumu statistika sadala sadalījumu, ar kuru mēs strādājam. Mediāna dalītu datu kopumu uz pusēm, un nepārtrauktā sadalījuma vidējā jeb 50. procentile sadalījumu sadalītu uz pusēm platības ziņā. Pirmā kvartile, mediāna un trešajā kvartilī mūsu dati tiek sadalīti četros gabalos ar vienādu skaitu katrā. Mēs varam izmantot iepriekšminēto integrāli, lai iegūtu 25., 50. un 75. procentiļus un nepārtrauktu sadalījumu sadalītu četrās vienāda laukuma daļās.

Mēs varam vispārināt šo procedūru. Jautājumam, ar kuru mēs varam sākt, ir dots dabiskais skaitlis n, kā mēs varam sadalīt mainīgā sadalījumu n vienāda lieluma gabali? Tas tieši attiecas uz kvantitāšu ideju.

n datu kopas kvanti tiek atrasti aptuveni, sarindojot datus secībā un pēc tam sadalot šo vērtējumu pa n - 1 punkts ar vienādu atstatumu intervālā.

Ja mums ir varbūtības blīvuma funkcija nepārtrauktam nejaušam mainīgajam, mēs izmantojam iepriekšminēto integrālu, lai atrastu kvantus. Priekš n kvantāti, mēs vēlamies:

Pirmajiem ir 1 /n no sadalījuma laukuma pa kreisi no tā.
Otrais ir 2 /n no sadalījuma laukuma pa kreisi no tā.
rth ir r/n no sadalījuma laukuma pa kreisi no tā.
Pēdējais, kam ir (n - 1)/n no sadalījuma laukuma pa kreisi no tā.

Mēs to redzam jebkuram naturālajam skaitlim n, n kvantitātes atbilst 100r/nth procentiles, kur r var būt jebkurš naturāls skaitlis no 1 līdz n - 1.

Parastās karantīnas

Atsevišķi kvantu veidi tiek izmantoti pietiekami bieži, lai tiem būtu konkrēti nosaukumi. Zemāk ir saraksts ar šiem:

2 kvantili sauc par mediānu
3 kvantus sauc par terciļiem
Četras kvantitātes sauc par kvartilēm
5 kvantus sauc par kvintēm
Sešas kvantitātes sauc par sekstilām
7 kvantus sauc par septiles
8 kvantus sauc par oktiliem
10 kvantus sauc par deciliem
12 kvantus sauc par duodeciļiem
20 kvanti tiek saukti par vigintiļiem
100 kvantitātes sauc par procentilēm
1000 kvantus sauc par perililēm

Protams, ir arī citi kvantāti, kas nav uzskaitīti iepriekš minētajā sarakstā. Daudzas reizes izmantotā īpašā kvantitāte sakrīt ar nepārtrauktā parauga lielumu izplatīšana.

Karantīnas lietošana

Papildus datu kopas atrašanās vietas noteikšanai kvantitātes ir noderīgas arī citos veidos. Pieņemsim, ka mums ir vienkārša izlases veida izlase no populācijas, un populācijas sadalījums nav zināms. Lai palīdzētu noteikt, vai modelis, piemēram, parastais sadalījums vai Weibull sadalījums, ir piemērots populācijai, no kuras mēs atlasījāmies, mēs varam aplūkot mūsu datu un modeļa kvantitātes.

Saskaņojot kvantitātes no mūsu parauga datiem ar konkrētā kvantām varbūtības sadalījums, rezultāts ir pāra datu kolekcija. Mēs šos datus izkārtojam dalītajā diagrammā, kas pazīstama kā kvantilis-kvantitatīvais grafiks vai q-q grafiks. Ja iegūtais izkliedes plāns ir aptuveni lineārs, tad modelis ir piemērots mūsu datiem.