Conţinut
Analiza clusterului este o metodă de organizare a datelor în grupuri reprezentative bazate pe caracteristici similare. Fiecare membru al clusterului are mai multe în comun cu alți membri ai aceluiași grup decât cu membrii celorlalte grupuri. Cel mai reprezentativ punct din grup este numit centroid. De obicei, aceasta este media valorilor punctelor de date din cluster.
Organizați datele. Dacă datele constau dintr-o singură variabilă, o histogramă ar putea fi adecvată. Dacă sunt implicate două variabile, graficarea datelor pe un plan de coordonate. De exemplu, dacă priviți înălțimea și greutatea copiilor dintr-o clasă, trageți punctele de date pentru fiecare copil pe un grafic, greutatea fiind axa orizontală și înălțimea fiind axa verticală. Dacă sunt implicate mai mult de două variabile, este posibil să fie necesare matrici pentru afișarea datelor.
Grupați datele în grupuri. Fiecare cluster ar trebui să fie format din punctele de date cele mai apropiate de acesta. În exemplul înălțime și greutate, grupați toate punctele de date care par a fi strânse. Numărul de clustere și dacă fiecare punct de date trebuie să se afle într-un cluster, poate depinde de scopurile studiului.
Pentru fiecare cluster, adăugați valorile tuturor membrilor.De exemplu, dacă un grup de date ar fi format din punctele (80, 56), (75, 53), (60, 50) și (68,54), suma valorilor ar fi (283, 213).
Împărțiți totalul la numărul de membri ai clusterului. În exemplul de mai sus, 283 împărțit la patru este 70,75, iar 213 împărțit la patru este 53,25, deci centroidul clusterului este (70,75, 53,25).
Diagramați centroidii clusterului și determinați dacă punctele sunt mai aproape de un centroid al altui cluster decât de centroidul propriului său cluster. Dacă orice puncte sunt mai aproape de un alt centroid, redistribuiți-le către clusterul care conține centroidul mai aproape.
Repetați pașii 3, 4 și 5 până când toate punctele de date sunt în clusterul care conține centroidul de care sunt cele mai apropiate.