Dezavantajele regresiei liniare

Posted on
Autor: Peter Berry
Data Creației: 19 August 2021
Data Actualizării: 13 Noiembrie 2024
Anonim
Regresie liniara simpla SPSS
Video: Regresie liniara simpla SPSS

Conţinut

Regresia liniară este o metodă statistică pentru examinarea relației dintre o variabilă dependentă, notată ca y, și una sau mai multe variabile independente, notate ca X. Variabila dependentă trebuie să fie continuă, prin faptul că poate prelua orice valoare, sau cel puțin aproape de continuă. Variabilele independente pot fi de orice tip. Deși regresia liniară nu poate prezenta cauzalitate de la sine, variabila dependentă este de obicei afectată de variabilele independente.

Regresia liniară este limitată la relațiile liniare

Prin natura sa, regresia liniară privește doar relațiile liniare între variabile dependente și independente. Adică presupune că există o relație liniară între ei. Uneori, acest lucru este incorect. De exemplu, relația dintre venituri și vârstă este curbă, adică venitul tinde să crească în primele părți ale vârstei adulte, să se aplatizeze la vârsta adultă ulterioară și să scadă după pensionarea oamenilor. Puteți spune dacă aceasta este o problemă, uitându-vă la reprezentări grafice ale relațiilor.

Regresia liniară privește doar media variabilei dependente

Regresia liniară privește o relație între media variabilei dependente și variabilele independente. De exemplu, dacă priviți relația dintre greutatea la naștere a sugarilor și caracteristicile materne, cum ar fi vârsta, regresia liniară va privi greutatea medie a bebelușilor născuți de mame de vârste diferite. Cu toate acestea, uneori trebuie să priviți extremele variabilei dependente, de exemplu, bebelușii sunt expuși riscului atunci când greutatea lor este scăzută, așa că doriți să priviți extremele din acest exemplu.

La fel cum media nu este o descriere completă a unei singure variabile, regresia liniară nu este o descriere completă a relațiilor dintre variabile. Puteți face față acestei probleme utilizând regresia cuantică.

Regresia liniară este sensibilă la valori superioare

Outliers sunt date surprinzătoare. Outliers pot fi univariți (pe baza unei variabile) sau multivariați. Dacă te uiți la vârstă și venit, valorile univariate ar fi lucruri precum o persoană care are 118 ani, sau una care a făcut 12 milioane de dolari anul trecut. Un multivariat mai vechi ar fi un tânăr de 18 ani care a făcut 200.000 de dolari. În acest caz, nici vârsta și nici venitul nu sunt foarte extreme, însă foarte puțini tineri de 18 ani câștigă atât de mulți bani.

Outliers pot avea efecte uriașe asupra regresiei. Puteți face față acestei probleme solicitând statistici de influență de la software-ul dvs. statistic.

Datele trebuie să fie independente

Regresia liniară presupune că datele sunt independente. Asta înseamnă că scorurile unui subiect (cum ar fi o persoană) nu au nicio legătură cu cele ale altuia. Acest lucru este adesea, dar nu întotdeauna, sensibil. Două cazuri comune în care nu are sens sunt aglomerarea în spațiu și timp.

Un exemplu clasic de aglomerare în spațiu este scorurile de testare ale elevilor, când aveți elevi din diverse clase, clase, școli și raioane școlare. Studenții din aceeași clasă tind să fie similare în multe feluri, adică provin deseori din aceleași cartiere, au aceiași profesori etc. Astfel, nu sunt independenți.

Exemple de aglomerare în timp sunt studiile în care măsurați aceiași subiecți de mai multe ori. De exemplu, într-un studiu privind dieta și greutatea, puteți măsura fiecare persoană de mai multe ori. Aceste date nu sunt independente, deoarece ceea ce cântărește o persoană cu o ocazie este legat de ceea ce cântărește cu alte ocazii. O modalitate de a face față acestui lucru este cu modele cu mai multe niveluri.