Pārliecības intervāli ir viena daļa no secinošā statistika. Šīs tēmas pamatideja ir nezināma populācijas vērtības noteikšana parametrs izmantojot statistisko paraugu. Mēs varam ne tikai novērtēt parametra vērtību, bet arī pielāgot savas metodes, lai novērtētu atšķirību starp diviem saistītajiem parametriem. Piemēram, mēs varētu vēlēties atrast atšķirību procentos no to vīriešu balsstiesību skaita, kuri balso par ASV vīriešiem un kuri atbalsta konkrētu tiesību aktu, salīdzinot ar sievietēm, kuras balso.
Mēs redzēsim, kā veikt šāda veida aprēķinus, izveidojot ticamības intervālu starpību starp divām populācijas proporcijām. Šajā procesā mēs pārbaudīsim dažas teorijas, kas ir šī aprēķina pamatā. Mēs redzēsim dažas līdzības, kā mēs veidojam a ticamības intervāls vienai iedzīvotāju daļai kā arī a ticamības intervāls starp divu populāciju vidējo lielumu.
Vispārības
Pirms apskatīsim konkrēto formulu, kuru izmantosim, apsvērsim vispārējo sistēmu, kurai der šāda veida ticamības intervāls. Uzticamības intervāla veida formu, kuru mēs aplūkosim, sniedz pēc šādas formulas:
Aptuvenā +/- kļūdas robeža
Daudzi ticamības intervāli ir šāda veida. Ir divi skaitļi, kas mums jāaprēķina. Pirmā no šīm vērtībām ir parametra novērtējums. Otrā vērtība ir kļūdas robeža. Šī kļūdas robeža izriet no tā, ka mums ir aprēķins. Uzticamības intervāls nodrošina mums nezināma parametra iespējamo vērtību diapazonu.
Nosacījumi
Pirms jebkādu aprēķinu veikšanas mums jāpārliecinās, vai ir izpildīti visi nosacījumi. Lai atrastu ticamības intervālu starpību starp divām populācijas proporcijām, mums jāpārliecinās, ka:
- Mums ir divi vienkārši izlases paraugi no lielām populācijām. Šeit "liels" nozīmē, ka populācija ir vismaz 20 reizes lielāka par izlases lielumu. Izlases lielumi tiks apzīmēti ar n1 un n2.
- Mūsu indivīdi ir izvēlēti neatkarīgi viens no otra.
- Katrā no mūsu izlasēm ir vismaz desmit panākumi un desmit neveiksmes.
Ja pēdējā saraksta vienība nav apmierināta, iespējams, ir kaut kas pretējs. Mēs varam modificēt plus četri ticamības intervāls būvēt un iegūt pārliecinoši rezultāti. Ejot uz priekšu, mēs pieņemam, ka visi iepriekš minētie nosacījumi ir izpildīti.
Paraugi un iedzīvotāju proporcijas
Tagad mēs esam gatavi noteikt mūsu uzticības intervālu. Mēs sākam ar aprēķinu par atšķirību starp mūsu iedzīvotāju proporcijām. Abas šīs populācijas proporcijas aprēķina pēc izlases proporcijas. Šīs izlases proporcijas ir statistika, kas tiek iegūta, dalot panākumu skaitu katrā izlasē un pēc tam dalot ar attiecīgo izlases lielumu.
Pirmo iedzīvotāju proporciju apzīmē ar lpp1. Ja panākumu skaits mūsu izlasē no šīs populācijas ir: k1, tad mums ir parauga proporcija k1 / n1.
Mēs apzīmējam šo statistiku ar p̂1. Mēs šo simbolu lasām kā "lpp1-tas ", jo tas izskatās pēc simbola p1 ar cepuri virsū.
Līdzīgā veidā mēs varam aprēķināt izlases daļu no mūsu otrās grupas. Šīs populācijas parametrs ir lpp2. Ja panākumu skaits mūsu izlasē no šīs populācijas ir: k2, un mūsu izlases proporcija ir p̂2 = k2 / n2.
Šie divi statistikas dati kļūst par mūsu ticamības intervāla pirmo daļu. Gada aprēķins lpp1 ir p̂1. Gada aprēķins lpp2 ir p̂2. Tātad starpības aprēķins lpp1 - lpp2 ir p̂1 - p̂2.
Paraugu proporciju atšķirības izlases veidā
Tālāk mums jāiegūst kļūdas robežas formula. Lai to izdarītu, vispirms apsvērsim: izlases sadalījums no p̂1 . Šis ir divdomīgais sadalījums ar panākumu varbūtību lpp1 un n1 izmēģinājumi. Šī sadalījuma vidējais lielums ir proporcija lpp1. Šāda veida izlases veida mainīgo standartnovirzei ir dispersija lpp1 (1 - lpp1 )/n1.
P̂ izlases sadalījums2 ir līdzīgs p̂1 . Vienkārši mainiet visus indeksus no 1 līdz 2, un mums ir binomālais sadalījums ar vidējo p2 un dispersija lpp2 (1 - lpp2 )/n2.
Tagad mums ir nepieciešami daži rezultāti no matemātiskās statistikas, lai noteiktu p̂ izlases sadalījumu1 - p̂2. Šī sadalījuma vidējā vērtība ir lpp1 - lpp2. Sakarā ar to, ka dispersijas saskaita, mēs redzam, ka izlases sadalījuma dispersija ir lpp1 (1 - lpp1 )/n1 + lpp2 (1 - lpp2 )/n2. Izkliedes standartnovirze ir šīs formulas kvadrātsakne.
Ir jāveic pāris pielāgojumi. Pirmais ir tas, ka formula p̂ standartnovirzei1 - p̂2 izmanto nezināmus parametrus lpp1 un lpp2. Protams, ja mēs tiešām zinātu šīs vērtības, tad tā vispār nebūtu interesanta statistikas problēma. Mums nebūtu jānovērtē atšķirība starp lpp1 un lpp2.. Tā vietā mēs varētu vienkārši aprēķināt precīzu starpību.
Šo problēmu var novērst, aprēķinot standarta kļūdu, nevis standarta novirzi. Viss, kas mums jādara, ir aizstāt populācijas proporcijas ar izlases proporcijām. Standarta kļūdas tiek aprēķinātas pēc statistikas, nevis parametriem. Standarta kļūda ir noderīga, jo tā efektīvi novērtē standarta novirzi. Tas, ko mums nozīmē, ir tas, ka mums vairs nav jāzina parametru vērtība lpp1 un lpp2. .Tā kā šīs izlases proporcijas ir zināmas, standarta kļūdu piešķir ar šādas izteiksmes kvadrātsakni:
p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.
Otrais jautājums, kas mums jārisina, ir mūsu izlases izplatīšanas īpašā forma. Izrādās, ka mēs varam izmantot parasto sadalījumu, lai tuvinātu p̂ izlases sadalījumu1 - p̂2. Iemesls tam ir nedaudz tehnisks, bet tas ir aprakstīts nākamajā rindkopā.
Gan p̂1 un p̂2 jābūt divdomīgam izlases sadalījumam. Katru no šiem divdomīgo sadalījumu var diezgan labi tuvināt ar parasto sadalījumu. Tādējādi p̂1 - p̂2 ir izlases mainīgais. To veido kā divu nejaušu mainīgo lineāru kombināciju. Katru no tiem tuvina ar parasto sadalījumu. Tāpēc p̂ izlases sadalījums1 - p̂2 arī parasti tiek izplatīts.
Pārliecības intervāla formula
Mums tagad ir viss nepieciešamais, lai saliktu mūsu uzticības intervālu. Aplēse ir (p̂1 - p̂2) un kļūdas robeža ir z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Vērtība, kuru mēs ievadām z * ir diktēts ar pārliecības līmeni C. Parasti izmantotās vērtības z * ir 1,645 par 90% ticamību un 1,96 par 95% ticamību. Šīs vērtības z * apzīmē standarta normālā sadalījuma daļu, kur tieši C % sadalījuma ir starp -z * un z *.
Šī formula dod ticamības intervālu starpību starp divām populācijas proporcijām:
(p1 - p̂2) +/- z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5