Kāda ir vismazāko kvadrātu regresijas līnija?

Scatterplot ir grafika tips, kuru izmanto, lai attēlotu pāra dati. Skaidrojošais mainīgais ir iezīmēts gar horizontālo asi, un reakcijas mainīgais ir attēlots gar vertikālo asi. Viens no šāda veida diagrammu izmantošanas iemesliem ir meklēt sakarības starp mainīgajiem.

Visvienkāršākais modelis, kas jāmeklē pārī savienotu datu kopā, ir taisna līnija. Izmantojot jebkurus divus punktus, mēs varam novilkt taisnu līniju. Ja mūsu izkliedes plānā ir vairāk nekā divi punkti, lielāko daļu laika mēs vairs nevarēsim novilkt līniju, kas iet caur katru punktu. Tā vietā mēs novilksim līniju, kas iet caur punktu vidu un parādīs datu kopējo lineāro tendenci.

Kad mēs skatāmies uz punktiem mūsu grafikā un vēlamies novilkt līniju caur šiem punktiem, rodas jautājums. Kuru līniju mums vajadzētu novilkt? Var novilkt bezgalīgi daudz līniju. Izmantojot tikai mūsu acis, ir skaidrs, ka katrs cilvēks, kurš skatās izkliedes zīmi, varētu radīt nedaudz atšķirīgu līniju. Šī neskaidrība ir problēma. Mēs vēlamies, lai visiem būtu precīzi noteikts veids, kā iegūt vienādu līniju. Mērķis ir iegūt matemātiski precīzu aprakstu par to, kura līnija jānovelk. Vismazāk kvadrātu

instagram viewer

regresijas līnija ir viena šāda līnija caur mūsu datu punktiem.

Vismazākie kvadrāti

Vismazāko kvadrātu līnijas nosaukums izskaidro, ko tā dara. Mēs sākam ar punktu kolekciju ar koordinātām, kuras sniedza (x_i, y_i). Jebkura taisna līnija šķērsos šos punktus un iet virs vai zem katra no šiem punktiem. Mēs varam aprēķināt attālumus no šiem punktiem līdz līnijai, izvēloties vērtību x un pēc tam atņemot novēroto y tam atbilstošo koordinātu x no y mūsu līnijas koordināte.

Dažādas līnijas caur vienu un to pašu punktu kopu dotu atšķirīgu attālumu kopu. Mēs vēlamies, lai šie attālumi būtu pēc iespējas mazāki. Bet ir problēma. Tā kā mūsu attālumi var būt gan pozitīvi, gan negatīvi, visu šo attālumu kopsumma viena otru izsvītros. Attālumu summa vienmēr būs vienāda ar nulli.

Šīs problēmas risinājums ir novērst visus negatīvos skaitļus, sareizinot attālumus starp punktiem un līniju. Tas dod nenegatīvu numuru kolekciju. Mērķis, kas mums bija jāatrod, izvēloties vispiemērotāko līniju, ir tāds pats kā padarīt šo kvadrātu attālumu summu pēc iespējas mazāku. Šeit nāk palīgā Calculus. Diferencēšanas process aprēķinos ļauj samazināt kvadrātu attālumu summu no dotās līnijas. Tas izskaidro frāzi “vismazākie kvadrāti” mūsu nosaukumā šai līnijai.

Labākā montāžas līnija

Tā kā vismazāko kvadrātu līnija samazina kvadrātu attālumus starp līniju un mūsu punktiem, mēs varam domāt par šo līniju kā tādu, kas vislabāk atbilst mūsu datiem. Tāpēc mazāko kvadrātu līniju sauc arī par vispiemērotāko līniju. No visām iespējamām līnijām, kuras varētu novilkt, mazāko kvadrātu līnija ir vistuvāk datu kopumam kopumā. Tas var nozīmēt, ka mūsu rinda netiks palaista garām nevienam punktam mūsu datu kopā.

Vismazāko kvadrātu līnijas īpašības

Ir dažas funkcijas, kuras piemīt katrai vismazāko kvadrātu līnijai. Pirmais interesējošais jautājums attiecas uz mūsu līnijas slīpumu. Slīpumam ir savienojums ar korelācijas koeficients no mūsu datiem. Faktiski līnijas slīpums ir vienāds ar r (s_y/ s_x). Šeit s_x apzīmē standarta standartnovirzi x koordinātas un s_y standartnovirze y mūsu datu koordinātas. Korelācijas koeficienta zīme ir tieši saistīta ar mūsu vismazāko kvadrātu līnijas slīpuma zīmi.

Vēl viena vismazāko kvadrātu līnijas īpašība attiecas uz punktu, kuru tā šķērso. Kamēr y mazāko kvadrātu līnijas pārtveršana no statistikas viedokļa var nebūt interesanta, ir viens punkts, kas ir. Katra vismazāko kvadrātu līnija iet caur datu viduspunktu. Šim viduspunktam ir x koordinēt, kas ir nozīmē no x vērtības un a y koordināte, kas ir y vērtības.