Kopsavilkuma statistika, piemēram, mediāna, pirmā un trešā kvartile ir pozīcijas mērījumi. Tas notiek tāpēc, ka šie skaitļi norāda, kur atrodas noteikta datu izplatīšanas proporcija. Piemēram, mediāna ir pētāmo datu vidējā pozīcija. Pusei datu ir mazākas vērtības nekā vidējai vērtībai. Tāpat 25% datu vērtības ir mazākas par pirmo kvartili un 75% datu ir mazākas nekā trešajā kvartilē.
Šo jēdzienu var vispārināt. Viens veids, kā to izdarīt, ir apsvērt procentīles. 90. procentilis norāda punktu, kurā 90% datu datu vērtības ir mazākas par šo skaitli. Vispārīgāk runājot lppth procentile ir skaitlis n par kuru lpp% datu ir mazāki par n.
Nepārtraukti izlases mainīgie
Lai gan vidējās, pirmās un trīs ceturtās kārtas secības statistiku parasti ievada a iestatot ar diskrētu datu kopu, šo statistiku var definēt arī nepārtrauktai nejaušībai mainīgs. Tā kā mēs strādājam ar nepārtrauktu izplatīšanu, mēs izmantojam integrālu. lppth procentile ir skaitlis n tāds, ka:
∫-₶nf ( x ) dx = lpp/100.
Šeit f ( x ) ir varbūtības blīvuma funkcija. Tādējādi mēs varam iegūt jebkuru procentīli, kuru vēlamies a
nepārtraukts izplatīšana.Kvantiļi
Papildu vispārinājums ir atzīmēt, ka mūsu pasūtījumu statistika sadala sadalījumu, ar kuru mēs strādājam. Mediāna dalītu datu kopumu uz pusēm, un nepārtrauktā sadalījuma vidējā jeb 50. procentile sadalījumu sadalītu uz pusēm platības ziņā. Pirmā kvartile, mediāna un trešajā kvartilī mūsu dati tiek sadalīti četros gabalos ar vienādu skaitu katrā. Mēs varam izmantot iepriekšminēto integrāli, lai iegūtu 25., 50. un 75. procentiļus un nepārtrauktu sadalījumu sadalītu četrās vienāda laukuma daļās.
Mēs varam vispārināt šo procedūru. Jautājumam, ar kuru mēs varam sākt, ir dots dabiskais skaitlis n, kā mēs varam sadalīt mainīgā sadalījumu n vienāda lieluma gabali? Tas tieši attiecas uz kvantitāšu ideju.
n datu kopas kvanti tiek atrasti aptuveni, sarindojot datus secībā un pēc tam sadalot šo vērtējumu pa n - 1 punkts ar vienādu atstatumu intervālā.
Ja mums ir varbūtības blīvuma funkcija nepārtrauktam nejaušam mainīgajam, mēs izmantojam iepriekšminēto integrālu, lai atrastu kvantus. Priekš n kvantāti, mēs vēlamies:
- Pirmajiem ir 1 /n no sadalījuma laukuma pa kreisi no tā.
- Otrais ir 2 /n no sadalījuma laukuma pa kreisi no tā.
- rth ir r/n no sadalījuma laukuma pa kreisi no tā.
- Pēdējais, kam ir (n - 1)/n no sadalījuma laukuma pa kreisi no tā.
Mēs to redzam jebkuram naturālajam skaitlim n, n kvantitātes atbilst 100r/nth procentiles, kur r var būt jebkurš naturāls skaitlis no 1 līdz n - 1.
Parastās karantīnas
Atsevišķi kvantu veidi tiek izmantoti pietiekami bieži, lai tiem būtu konkrēti nosaukumi. Zemāk ir saraksts ar šiem:
- 2 kvantili sauc par mediānu
- 3 kvantus sauc par terciļiem
- Četras kvantitātes sauc par kvartilēm
- 5 kvantus sauc par kvintēm
- Sešas kvantitātes sauc par sekstilām
- 7 kvantus sauc par septiles
- 8 kvantus sauc par oktiliem
- 10 kvantus sauc par deciliem
- 12 kvantus sauc par duodeciļiem
- 20 kvanti tiek saukti par vigintiļiem
- 100 kvantitātes sauc par procentilēm
- 1000 kvantus sauc par perililēm
Protams, ir arī citi kvantāti, kas nav uzskaitīti iepriekš minētajā sarakstā. Daudzas reizes izmantotā īpašā kvantitāte sakrīt ar nepārtrauktā parauga lielumu izplatīšana.
Karantīnas lietošana
Papildus datu kopas atrašanās vietas noteikšanai kvantitātes ir noderīgas arī citos veidos. Pieņemsim, ka mums ir vienkārša izlases veida izlase no populācijas, un populācijas sadalījums nav zināms. Lai palīdzētu noteikt, vai modelis, piemēram, parastais sadalījums vai Weibull sadalījums, ir piemērots populācijai, no kuras mēs atlasījāmies, mēs varam aplūkot mūsu datu un modeļa kvantitātes.
Saskaņojot kvantitātes no mūsu parauga datiem ar konkrētā kvantām varbūtības sadalījums, rezultāts ir pāra datu kolekcija. Mēs šos datus izkārtojam dalītajā diagrammā, kas pazīstama kā kvantilis-kvantitatīvais grafiks vai q-q grafiks. Ja iegūtais izkliedes plāns ir aptuveni lineārs, tad modelis ir piemērots mūsu datiem.