Kas ir homoskedastic?
Homoskedastika (arī ar burtiem "homoscedastic") attiecas uz stāvokli, kurā regresijas modelī atlikušā vai kļūdas termina dispersija ir nemainīga. Tas ir, kļūdas termiņš daudz neatšķiras, mainoties prognozētāja mainīgā vērtībai. Tomēr homoskedasticitātes trūkums var likt domāt, ka regresijas modelī var būt jāietver papildu paredzamie mainīgie, lai izskaidrotu atkarīgā mainīgā veiktspēju.
Taustiņu izņemšana
- Homoskedasticitāte rodas, ja kļūdas termina dispersija regresijas modelī ir nemainīga. Ja kļūdas termina dispersija ir homoskedastiska, modelis tika precīzi definēts. Ja ir pārāk daudz dispersiju, modelis var nebūt precīzi definēts. Papildu prognozējamo mainīgo pievienošana var palīdzēt izskaidrot atkarīgā mainīgā veiktspēju.Pretēji, heteroskedatilitāte rodas, ja kļūdas termina dispersija nav konstanta.
Kā darbojas homoskedastika
Homoskedasticitāte ir viens pieņēmums par lineārās regresijas modelēšanu. Ja kļūdu dispersija ap regresijas līniju ir ļoti atšķirīga, regresijas modelis var būt vāji definēts. Homoskedasticitātes pretstats ir heteroskedasticitāte, tāpat kā “viendabīgā” pretstats ir “neviendabīgs”. Heteroskedasticitāte (arī ar burtiem “heteroscedasticity”) attiecas uz stāvokli, kurā kļūdas termina dispersija regresijas vienādojumā nav konstants.
Ja ņem vērā, ka dispersija ir izmērītā starpība starp paredzamo iznākumu un faktisko iznākumu konkrētajā situācijā, homoskedalastības noteikšana var palīdzēt noteikt, kuri faktori ir jāpielāgo precizitātei.
Īpaši apsvērumi
Vienkāršs regresijas modelis jeb vienādojums sastāv no četriem terminiem. Kreisajā pusē ir atkarīgs mainīgais. Tas atspoguļo parādību, kuru modelis cenšas "izskaidrot". Labajā pusē ir konstante, mainīgā prognoze un atlikušais vai kļūdas termins. Kļūdas termins parāda mainīgā lieluma atkarīgajā mainīgajā lielumu, kas nav izskaidrojams ar prognozējamo mainīgo.
Homoskedastic piemērs
Piemēram, pieņemsim, ka jūs vēlējāties izskaidrot studentu pārbaudes punktu skaitu, izmantojot laiku, ko katrs students pavadīja studējot. Šajā gadījumā pārbaudes rezultāti būs atkarīgs mainīgais lielums, un laiks, kas pavadīts studijām, būs mainīgais.
Kļūdas apzīmējums parādīs testa rezultātu novirzes lielumu, kas nebija izskaidrojams ar mācību laiku. Ja šī dispersija ir vienāda vai homoskedastiska, tad tas liek domāt, ka modelis var būt piemērots testa izpildes skaidrojums - izskaidrojot to ar laiku, kas pavadīts studijām.
Bet dispersija var būt heteroskedastiska. Kļūdu termiņu datu diagramma var parādīt, ka liels studiju laika daudzums ļoti precīzi atbilda augstajiem pārbaudes rezultātiem, taču zemais studiju laika testa punktu skaits bija ļoti atšķirīgs un tajā pat bija iekļauti daži ļoti augsti rezultāti. Tātad punktu skaita dispersiju nevarētu labi izskaidrot tikai ar vienu prognozējamo mainīgo - mācību laika daudzumu. Šajā gadījumā, iespējams, darbojas kāds cits faktors, un modelis, iespējams, būs jāuzlabo, lai to vai tos identificētu. Turpmākā izpēte var atklāt, ka daži studenti atbildes uz testu bija redzējuši pirms laika vai arī viņi iepriekš bija veikuši līdzīgu testu, un tāpēc viņiem nebija jāmācās šajā konkrētajā pārbaudē.
Tāpēc, lai uzlabotu regresijas modeli, pētnieks pievienos vēl vienu skaidrojošu mainīgo, norādot, vai students ir redzējis atbildes pirms testa. Tad regresijas modelim būtu divi skaidrojoši mainīgie - laika studijas un tas, vai studentam bija iepriekšējas zināšanas par atbildēm. Izmantojot šos divus mainīgos lielumus, tiks izskaidrota vairāk pārbaužu rezultātu dispersijas, un kļūdas termina dispersija varētu būt homoskedastiska, kas liek domāt, ka modelis bija precīzi definēts.
