Conţinut
În statistici, distribuția gaussiană sau normală este utilizată pentru a caracteriza sisteme complexe cu mulți factori. După cum este descris în Istoria statisticilor lui Stephen Stigler, Abraham De Moivre a inventat distribuția care poartă numele lui Karl Fredrick Gauss. Contribuția lui Gauss constă în aplicarea distribuției sale la abordarea celor mai puțin pătrate pentru a reduce la minimum erorile în încadrarea datelor cu o linie care se potrivește cel mai bine. El a făcut astfel cea mai importantă distribuție a erorilor în statistici.
motivaţie
Care este distribuția unui eșantion de date? Ce se întâmplă dacă nu cunoașteți distribuția de bază a datelor? Există vreun fel de a testa ipoteze despre date fără a cunoaște distribuția de bază? Datorită teoremei limită centrale, răspunsul este da.
Declarația teoremei
Aceasta afirmă că o medie a eșantionului dintr-o populație infinită este aproximativ normală, sau gaussiană, cu aceeași valoare ca și populația care stă la baza acesteia și o variație egală cu variația populației divizată la dimensiunea eșantionului. Aproximarea se îmbunătățește pe măsură ce dimensiunea eșantionului devine mare.
Declarația de aproximare este uneori declarată greșit ca o concluzie despre convergența la o distribuție normală. Deoarece distribuția normală aproximativă se modifică odată cu creșterea dimensiunii eșantionului, o astfel de afirmație este înșelătoare.
Teorema a fost dezvoltată de Pierre Simon Laplace.
De ce este peste tot
Distribuțiile normale sunt omniprezente. Motivul provine din teorema Limitului Central. Deseori, când o valoare este măsurată, este efectul sumei multor variabile independente. Prin urmare, valoarea măsurată în sine are o calitate medie a eșantionului. De exemplu, o distribuție a performanțelor sportivului poate avea o formă de clopot, ca urmare a diferențelor de dietă, antrenament, genetică, coaching și psihologie. Chiar și înălțimea bărbaților are o distribuție normală, fiind o funcție a multor factori biologici.
Copulele Gaussiene
Ceea ce se numește „funcție copula” cu o distribuție gaussiană a apărut în știri în 2009, datorită utilizării sale în evaluarea riscului de a investi în obligațiuni garantate. Utilizarea greșită a funcției a avut un rol esențial în criza financiară din 2008-2009. Deși au existat numeroase cauze ale crizei, probabil că distribuțiile Gaussiene nu ar fi trebuit să fie utilizate în retrospectivă. O funcție cu o coadă mai groasă ar fi atribuit o probabilitate mai mare evenimentelor adverse.
Derivare
Teorema limită centrală poate fi dovedită pe mai multe linii, analizând funcția de generare a momentului (mgf) a (medie probă - media populației) /? (Variația populației / mărimea eșantionului) ca funcție a mgf a populației de bază. Partea de aproximare a teoremei este introdusă prin extinderea mgf a populației de bază ca o serie de putere, apoi arătând că majoritatea termenilor sunt nesemnificative pe măsură ce dimensiunea eșantionului devine mare.
Poate fi dovedit în mai puține linii folosind o expansiune Taylor pe ecuația caracteristică a aceleiași funcții și făcând dimensiunea eșantionului mare.
Comoditate computationala
Unele modele statistice presupun că erorile sunt gaussiene. Aceasta permite distribuirea funcțiilor variabilelor normale, cum ar fi distribuția chi-pătrat și F, să fie utilizate în testarea ipotezelor. În mod specific, în testul F, statistica F este compusă dintr-un raport de distribuții chi-pătrate, care sunt ele însele funcții ale unui parametru de varianță normală. Raportul dintre cele două determină anularea variației, permițând testarea ipotezelor fără cunoașterea variațiilor, în afară de normalitatea și constanța lor.