Bootstrapping piemērs statistikā

Bootstrapping ir spēcīgs statistikas paņēmiens. Tas ir īpaši noderīgi, ja paraugs izmērs, ar kuru mēs strādājam, ir mazs. Parastos apstākļos izlases lielumu, kas mazāks par 40, nevar izskatīt, pieņemot a normāls sadalījums vai a t sadalījums. Bootstrap paņēmieni diezgan labi darbojas ar paraugiem, kuros ir mazāk par 40 elementiem. Iemesls tam ir tas, ka sāknēšanas mēģinājumi ietver atkārtotu paraugu ņemšanu. Šāda veida metodēs nekas nav paredzēts izplatīšana no mūsu datiem.

Bootstrapping ir kļuvis populārāks, jo skaitļošanas resursi ir kļuvuši vieglāk pieejami. Tas ir tāpēc, ka, lai sāknēšanas operēšana būtu praktiska, ir jāizmanto dators. Mēs redzēsim, kā tas darbojas šajā sāknēšanas iespiešanas piemērā.

Mēs sākam ar statistikas paraugs no iedzīvotājiem, par kuriem mēs neko nezinām. Mūsu mērķis būs 90% ticamības intervāls par vidējo izlases lielumu. Lai gan citas statistikas metodes, ko izmanto, lai noteiktu ticamības intervāli pieņemsim, ka mēs zinām mūsu iedzīvotāju vidējo vai standarta novirzi, bootstrapping neprasa neko citu kā paraugu.

instagram viewer

Mūsu piemēra vajadzībām mēs pieņemsim, ka paraugs ir 1, 2, 4, 4, 10.

Tagad mēs atkārtojam aizstāšanu no mūsu parauga, lai izveidotu tā saucamos sāknēšanas paraugus. Katram sāknēšanas paraugam būs pieci izmēri, tāpat kā mūsu sākotnējam paraugam. Tā kā mēs nejauši izvēlamies un pēc tam aizstājam katru vērtību, sāknēšanas paraugi var atšķirties no sākotnējā parauga un viens no otra.

Piemēri, ar kuriem mēs nonāksim reālajā pasaulē, mēs to veiksim atkārtoti simtiem, ja pat tūkstošiem reižu. Turpmāk tekstā mēs redzēsim 20 sāknēšanas paraugu piemērus:

Tā kā mēs izmantojam bootstrapping, lai aprēķinātu vidējo populācijas ticamības intervālu, tagad mēs aprēķinām katra mūsu bootstrap parauga vidējos rādītājus. Šie līdzekļi, kas sakārtoti augošā secībā, ir: 2, 2,4, 2,6, 2,6, 2,8, 3, 3, 3.2, 3.4, 3.6, 3.8, 4, 4, 4.2, 4.6, 5.2, 6, 6, 6.6, 7.6.

Mēs tagad iegūstam no sava sāknēšanas parauga saraksta, kas nozīmē ticamības intervālu. Tā kā mēs vēlamies 90% ticamības intervālu, par intervālu galapunktu izmantojam 95. un 5. procentīli. Iemesls tam ir tas, ka mēs sadalām 100% - 90% = 10% uz pusēm, lai mums būtu vidējie 90% no visiem sāknēšanas parauga līdzekļiem.