CLOPOTUL

Sunt cei care citesc aceasta stire inaintea ta.
Abonați-vă pentru a primi cele mai recente articole.
E-mail
Nume
Nume de familie
Cum ți-ar plăcea să citești Clopoțelul
Fără spam

Trimiteți-vă munca bună în baza de cunoștințe este simplu. Utilizați formularul de mai jos

Studenții, studenții absolvenți, tinerii oameni de știință care folosesc baza de cunoștințe în studiile și munca lor vă vor fi foarte recunoscători.

Introducere

1. Istoricul „analizei cluster”

2. Terminologie

2.1 Obiect și semn

2.2 Distanța dintre obiecte (metrică)

2.3 Densitatea și localitatea clusterelor

2.4 Distanța dintre clustere

3. Metode de grupare

3.1 Caracteristicile metodelor aglomerative ierarhice

3.2 Caracteristicile metodelor iterative de clustering

4. Gruparea caracteristicilor

5. Stabilitatea și calitatea grupării

Bibliografie

INTRODUCERE

„Analiza cluster este un set de metode matematice menite să formeze relativ „la distanță” unul de celălalt grupuri de obiecte „apropiate” în funcție de informații despre distanțe sau conexiuni (măsuri de proximitate) între ele. Este similară ca semnificație cu termenii: automat. clasificare, taxonomie, recunoaștere a modelelor fără profesor.” Această definiție a analizei cluster este dată în cea mai recentă ediție a Dicționarului Statistic. De fapt, „analiza cluster” este un nume generalizat pentru un set destul de mare de algoritmi folosiți pentru a crea o clasificare. Un număr de publicații folosesc, de asemenea, astfel de sinonime pentru analiza clusterului, cum ar fi clasificarea și partiționarea. Analiza cluster este utilizată pe scară largă în știință ca mijloc de analiză tipologică. În orice activitate științifică, clasificarea este una dintre componentele fundamentale, fără de care este imposibil de construit și testat ipoteze și teorii științifice. Astfel, în munca mea, consider că este necesar să iau în considerare problemele analizei cluster (baza analizei cluster), precum și să luăm în considerare terminologia acesteia și să dau câteva exemple de utilizare a acestei metode cu prelucrarea datelor ca scop principal.

1. ISTORIA „ANALIZA CLUSTERULUI”

O analiză a publicațiilor interne și străine arată că analiza cluster este utilizată într-o mare varietate de domenii științifice: chimie, biologie, medicină, arheologie, istorie, geografie, economie, filologie etc. Cartea lui VV Nalimov „Modelul probabilistic al limbajului” descrie utilizarea analizei cluster în studiul a 70 de eșantioane analitice. Cea mai mare parte a literaturii de specialitate privind analiza clusterelor a apărut în ultimele trei decenii, deși primele lucrări care au menționat metodele cluster au apărut cu destul de mult timp în urmă. Antropologul polonez K. Chekanowski a prezentat ideea „clasificării structurale”, care conținea ideea principală a analizei cluster - alocarea grupurilor compacte de obiecte.

În 1925, hidrobiologul sovietic P.V. Terentyev a dezvoltat așa-numita „metodă a pleiadelor de corelare”, destinată grupării caracteristicilor corelate. Această metodă a dat impuls dezvoltării metodelor de grupare folosind grafice. Termenul „analiza cluster” a fost propus pentru prima dată de Trion. Cuvântul „cluster” este tradus din engleză ca „bunch, brush, buch, group”. Din acest motiv, acest tip de analiză a fost inițial numit „analiza cluster”. La începutul anilor 1950, publicațiile lui R. Lewis, E. Fix și J. Hodges au apărut despre algoritmii de analiză a clusterelor ierarhice. Un impuls notabil dezvoltării lucrărilor privind analiza cluster a fost dat de lucrarea lui R. Rosenblatt privind dispozitivul de recunoaștere (perceptron), care a pus bazele dezvoltării teoriei „recunoașterii modelelor fără profesor”.

Impulsul dezvoltării metodelor de clustering a fost cartea „Principii de taxonomie numerică”, publicată în 1963. doi biologi - Robert Sokal și Peter Sneath. Autorii acestei cărți au pornit de la faptul că, pentru a crea clasificări biologice eficiente, procedura de grupare trebuie să asigure utilizarea diverșilor indicatori care caracterizează organismele studiate, să evalueze gradul de similitudine dintre aceste organisme și să asigure plasarea unor organisme similare. in acelasi grup. În acest caz, grupurile formate ar trebui să fie suficient de „locale”, adică. asemănarea obiectelor (organismelor) în cadrul grupurilor ar trebui să depășească asemănarea grupurilor între ele. Analiza ulterioară a grupurilor identificate, în opinia autorilor, poate clarifica dacă aceste grupuri corespund unor specii biologice diferite. Astfel, Sokal și Sneath au presupus că dezvăluirea structurii distribuției obiectelor în grupuri ajută la stabilirea procesului de formare a acestor structuri. Și diferența și asemănarea organismelor din diferite grupuri (grupuri) poate servi ca bază pentru înțelegerea procesului evolutiv în curs și elucidarea mecanismului acestuia.

În aceiași ani, mulți algoritmi au fost propuși de autori precum J. McKean, G. Ball și D. Hall folosind metode k-means; G. Lance și W. Williams, N. Jardine și alții - despre metodele ierarhice. O contribuție semnificativă la dezvoltarea metodelor de analiză a clusterelor a fost adusă de oamenii de știință autohtoni - E.M. Braverman, A.A. Dorofeyuk, I.B. Muchnik, L.A. Rastrigin, Yu.I. În special, în anii 60-70. Numeroși algoritmi dezvoltați de matematicienii din Novosibirsk N.G. Zagoruiko, V.N. Elkina și G.S. Lbov s-au bucurat de o mare popularitate. Aceștia sunt algoritmi atât de cunoscuți precum FOREL, BIGFOR, KRAB, NTTP, DRET, TRF, etc. Pe baza acestor pachete, a fost creat un pachet software specializat OTEX. Nu mai puțin interesant produse software PPSA și Klass-Master au fost create de matematicienii moscoviți S.A. Aivazyan, I.S. Enyukov și B.G. Mirkin.

Într-o oarecare măsură, metodele de analiză a clusterelor sunt disponibile în majoritatea celor mai cunoscute pachete statistice interne și externe: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS etc. Desigur, la 10 ani de la lansarea acestei recenzii, s-au schimbat destul de multe, au apărut versiuni noi ale multor programe statistice și au apărut programe complet noi care folosesc atât algoritmi noi, cât și o putere mult crescută. informatică. Cu toate acestea, majoritatea pachetelor statistice folosesc algoritmi propuși și dezvoltați în anii 60-70.

Potrivit estimărilor aproximative ale experților, numărul publicațiilor despre analiza clusterului și aplicațiile sale în diferite domenii ale cunoașterii se dublează la fiecare trei ani. Care sunt motivele unui interes atât de furtunos pentru acest tip de analiză? În mod obiectiv, există trei motive principale pentru acest fenomen. Aceasta este apariția unei tehnologii de calcul puternice, fără de care analiza în cluster a datelor reale nu este practic fezabilă. Al doilea motiv este că știința modernă se bazează din ce în ce mai mult pe clasificare în construcțiile sale. Mai mult, acest proces se aprofundează din ce în ce mai mult, întrucât în ​​paralel cu aceasta are loc o specializare tot mai mare a cunoștințelor, ceea ce este imposibil fără o clasificare suficient de obiectivă.

Al treilea motiv - aprofundarea cunoștințelor speciale duce inevitabil la o creștere a numărului de variabile luate în considerare în analiza anumitor obiecte și fenomene. Ca urmare, clasificarea subiectivă, care se baza pe un număr destul de mic de caracteristici luate în considerare, se dovedește adesea a fi nesigură. Iar clasificarea obiectivă, cu un set din ce în ce mai mare de caracteristici ale obiectelor, necesită utilizarea unor algoritmi de clustering complecși care pot fi implementați doar pe baza computerelor moderne. Aceste motive au fost cele care au dat naștere „boom-ului clusterului”. Cu toate acestea, printre medici și biologi, analiza cluster nu a devenit încă o metodă de cercetare destul de populară și comună.

2 TERMINOLOGIE

2. 1 OBIECTUL ȘI SEMNUL

Să introducem mai întâi concepte precum obiect și atribut. Obiect - din latinescul objectum - subiect. În raport cu chimia și biologia, prin obiecte vom înțelege subiecte specifice de cercetare care sunt studiate prin metode fizice, chimice și alte metode. Astfel de obiecte pot fi, de exemplu, mostre, plante, animale etc. Un anumit set de obiecte disponibile cercetătorului pentru studiu se numește eșantion sau set de mostre. Numărul de obiecte dintr-o astfel de populație se numește de obicei dimensiunea eșantionului. De obicei, dimensiunea eșantionului este indicată de litera latină „n” sau „N”.

Semnul (sinonime - proprietate, variabilă, caracteristică; engleză - variabilă - variabilă.) - este o proprietate specifică a obiectului. Aceste proprietăți pot fi exprimate ca valori numerice sau nenumerice. De exemplu, tensiunea arterială (sistolică sau diastolică) se măsoară în milimetri de mercur, greutatea în kilograme, înălțimea în centimetri etc. Astfel de semne sunt cantitative. Spre deosebire de aceste caracteristici numerice continue (scări), o serie de caracteristici pot avea valori discrete, discontinue. La rândul lor, astfel de caracteristici discrete sunt de obicei împărțite în două grupuri.

1) Primul grup este variabilele de rang, sau așa cum sunt numite și variabile ordinale (scale). Astfel de semne se caracterizează prin proprietatea de a ordona aceste valori. Acestea includ etapele unei anumite boli, grupele de vârstă, scorurile de cunoștințe ale studenților, scara de magnitudine a cutremurului Richter în 12 puncte etc.

2) Al doilea grup de caracteristici discrete nu are o astfel de ordine și se numește caracteristici nominale (din cuvântul „nominal” - eșantion) sau caracteristici de clasificare. Un exemplu de astfel de semne poate fi starea pacientului - „sănătos” sau „bolnav”, sexul pacientului, perioada de observație - „înainte de tratament” și „după tratament”, etc. În aceste cazuri, se obișnuiește să se spună că astfel de caracteristici aparțin scarei numelor.

Conceptele unui obiect și o caracteristică sunt de obicei numite matrice „Obiect-propietate” sau „Object-feature”. Matricea va fi un tabel dreptunghiular format din valorile caracteristicilor care descriu proprietățile eșantionului de observații studiate. În acest context, o observație va fi înregistrată ca o linie separată constând din valorile caracteristicilor utilizate. Un atribut separat într-o astfel de matrice de date va fi reprezentat de o coloană formată din valorile acestui atribut pentru toate obiectele din eșantion.

2. 2 DISTANȚA DINTRE OBIECTE (METRIC)

Să introducem conceptul de „distanță între obiecte”. Acest concept este o măsură integrală a asemănării obiectelor între ele. Distanța dintre obiectele din spațiul caracteristic este o astfel de valoare d ij care satisface următoarele axiome:

1. d ij > 0 (nonnegativitatea distanței)

2. d ij = d ji (simetrie)

3. d ij + d jk > d ik (inegalitatea triunghiului)

4. Dacă d ij nu este egal cu 0, atunci i nu este egal cu j (distingerea obiectelor neidentice)

5. Dacă d ij = 0, atunci i = j (nediferențierea obiectelor identice)

Este convenabil să se reprezinte măsura proximității (asemănării) obiectelor ca reciproc pe distanța dintre obiecte. Numeroase publicații dedicate analizei cluster descriu mai mult de 50 de moduri diferite de a calcula distanța dintre obiecte. Pe lângă termenul „distanță”, un alt termen se găsește adesea în literatură - „metric”, care implică o metodă de calcul a unei anumite distanțe. Cea mai accesibilă pentru percepție și înțelegere în cazul caracteristicilor cantitative este așa-numita „distanță euclidiană” sau „metrică euclidiană”. Formula de calcul a acestei distanțe este:

Această formulă folosește următoarea notație:

· d ij - distanta dintre obiectele i-lea si j-lea;

· x ik - valoarea numerică a k-a variabilă pentru al-lea obiect;

· x jk - valoarea numerică a k-a variabilă pentru j-lea obiect;

· v - numărul de variabile care descriu obiectele.

Astfel, pentru cazul v=2, când avem doar două semne cantitative, distanța d ij va fi egală cu lungimea ipotenuzei unui triunghi dreptunghic, care leagă două puncte dintr-un sistem de coordonate dreptunghiular. Aceste două puncte vor corespunde observațiilor i-a și j-a ale eșantionului. Adesea, în loc de distanța euclidiană obișnuită, se folosește pătratul său d 2 ij. În plus, în unele cazuri, se folosește o distanță euclidiană „ponderată”, în calculul căreia se folosesc coeficienți de greutate pentru termeni individuali. Pentru a ilustra conceptul de metrică euclidiană, folosim un exemplu simplu de antrenament. Matricea de date prezentată în tabelul de mai jos constă din 5 observații și două variabile.

tabelul 1

Matrice de date din cinci eșantioane observate și două variabile.

Folosind metrica euclidiană, calculăm matricea distanțelor interobiecte, constând din valorile d ij - distanța dintre obiectele i-lea și j-lea. În cazul nostru, i și j sunt numărul obiectului, observație. Deoarece dimensiunea eșantionului este 5, i și, respectiv, j, pot lua valori de la 1 la 5. De asemenea, este evident că numărul tuturor distanțelor posibile pe perechi va fi 5*5=25. Într-adevăr, pentru primul obiect acestea vor fi următoarele distanțe: 1-1; 1-2; 1-3; 1-4; 1-5. Pentru obiectul 2 vor exista si 5 distante posibile: 2-1; 2-2; 2-3; 2-4; 2-5 etc. Cu toate acestea, numărul distante diferite va fi mai mic de 25, deoarece este necesar să se țină seama de proprietatea de indistinguire a obiectelor identice - d ij = 0 pentru i = j. Aceasta înseamnă că distanța dintre obiectul #1 și același obiect #1 va fi zero. Aceleași distanțe zero vor fi pentru toate celelalte cazuri i = j. În plus, din proprietatea de simetrie rezultă că d ij = d ji pentru orice i și j. Acestea. distanța dintre obiectele #1 și #2 este egală cu distanța dintre obiectele #2 și #1.

Expresia pentru distanța euclidiană este foarte asemănătoare cu așa-numita distanță generalizată a puterii Minkowski, în care se folosește o altă valoare în loc de două în puteri. În cazul general, această valoare este notată prin simbolul „p”.

Pentru p = 2 obținem distanța euclidiană obișnuită. Deci expresia pentru metrica Minkowski generalizată are forma:

Alegerea unei valori specifice a exponentului „p” se face chiar de cercetător.

Un caz special al distanței Minkowski este așa-numita distanță Manhattan, sau „distanța oraș-bloc”, corespunzătoare p=1:

Astfel, distanța Manhattan este suma modulelor diferențelor caracteristicilor corespunzătoare obiectelor. Lăsând p să tinde spre infinit, obținem metrica „dominanței” sau Sup-metrică:

care poate fi reprezentat şi ca d ij = max| x ik - x jk |.

Valoarea Minkowski este de fapt o familie mare de valori, inclusiv cele mai populare valori. Cu toate acestea, există metode pentru calcularea distanței dintre obiecte care sunt fundamental diferite de metrica Minkowski. Cea mai importantă dintre acestea este așa-numita distanță Mahalanobis, care are proprietăți destul de specifice. Expresia pentru această valoare:

Aici prin X iși X j sunt indicați vectori coloană de valori variabile pentru obiectele i-lea și j-lea. Simbol T în exprimare (X i - X j ) T denotă așa-numita operație de transpunere vectorială. Simbol S este indicată matricea comună varianță-covarianță intra-grup. Un simbol -1 de mai sus S înseamnă că trebuie să inversați matricea S . Spre deosebire de metrica Minkowski și metrica euclidiană, distanța Mahalanobis prin matricea varianță-covarianță S asociate cu corelații de variabile. Când corelațiile dintre variabile sunt zero, distanța Mahalanobis este echivalentă cu pătratul distanței euclidiene.

În cazul utilizării caracteristicilor calitative dihotomice (având doar două valori), distanța Hamming este utilizată pe scară largă

egal cu numărul de nepotriviri în valorile caracteristicilor corespunzătoare pentru obiectele considerate i-a și j-a.

2. 3 DENSITATEA ȘI LOCALITATEA CLUSTELOR

Scopul principal al analizei cluster este de a găsi grupuri de obiecte similare între ele în eșantion. Să presupunem că prin unele dintre metodele posibile am obținut astfel de grupuri - clustere. Trebuie remarcate proprietățile importante ale clusterelor. Una dintre aceste proprietăți este densitatea de distribuție a punctelor, observații în cadrul unui cluster. Această proprietate ne permite să definim un cluster ca un grup de puncte într-un spațiu multidimensional care este relativ dens în comparație cu alte regiuni ale acestui spațiu care fie nu conțin puncte deloc, fie conțin un număr mic de observații. Cu alte cuvinte, cât de compact este acest cluster, sau invers, cât de rar este. În ciuda dovezilor suficiente ale acestei proprietăți, nu există o modalitate clară de a calcula un astfel de indicator (densitate). Cel mai de succes indicator care caracterizează compactitatea, densitatea de „ambalare” a observațiilor multidimensionale într-un cluster dat, este dispersia distanței de la centrul clusterului la punctele individuale ale clusterului. Cu cât dispersia acestei distanțe este mai mică, cu atât observațiile sunt mai aproape de centrul clusterului, cu atât densitatea clusterului este mai mare. Și invers, cu cât dispersia distanței este mai mare, cu atât acest cluster este mai rar și, în consecință, există puncte situate atât în ​​apropierea centrului clusterului, cât și destul de îndepărtate de centrul clusterului.

Următoarea proprietate a clusterelor este dimensiunea lor. Principalul indicator al dimensiunii unui cluster este „raza” acestuia. Această proprietate reflectă cel mai pe deplin dimensiunea actuală a clusterului dacă clusterul considerat este rotund și hipersferă în spațiul multidimensional. Cu toate acestea, dacă clusterele au forme alungite, atunci conceptul de rază sau diametru nu mai reflectă dimensiunea reală a clusterului.

O altă proprietate importantă a unui cluster este localitatea lor, separabilitatea. Caracterizează gradul de suprapunere și îndepărtarea reciprocă a clusterelor unul față de celălalt într-un spațiu multidimensional. De exemplu, luați în considerare distribuția a trei clustere în spațiul caracteristicilor noi, integrate din figura de mai jos. Axele 1 și 2 au fost obținute printr-o metodă specială din 12 caracteristici ale proprietăților reflectorizante ale diferitelor forme de eritrocite, studiate cu ajutorul microscopiei electronice.

Poza 1

Vedem că clusterul 1 are dimensiunea minimă, în timp ce clusterele 2 și 3 au dimensiuni aproximativ egale. În același timp, putem spune că densitatea minimă și, prin urmare, dispersia maximă la distanță, este caracteristică clusterului 3. În plus, clusterul 1 este separat de secțiuni suficient de mari de spațiu gol atât de clusterul 2, cât și de clusterul 3. În timp ce clusterele 2 și 3 se suprapun parțial unul cu celălalt. Interesant este faptul că clusterul 1 are o diferență mult mai mare față de al 2-lea și al 3-lea cluster de-a lungul axei 1 decât de-a lungul axei 2. Dimpotrivă, clusterele 2 și 3 diferă aproximativ în mod egal între ele atât de-a lungul axei 1, cât și de-a lungul axei 2. Evident, pentru o astfel de analiză vizuală, este necesar ca toate observațiile eșantionului să fie proiectate pe axe speciale, în care proiecțiile elementelor cluster vor fi vizibile ca clustere separate.

2. 4 DISTANȚA DINTRE CURSE

Într-un sens mai larg, obiectele pot fi înțelese nu numai ca subiecte originale de cercetare, prezentate în matricea „obiect-proprietate” ca o linie separată, sau ca puncte individuale într-un spațiu de caracteristici multidimensionale, ci și ca grupuri separate de astfel de puncte. , unite de un algoritm sau altul într-un cluster. În acest caz, se pune întrebarea cum să înțelegem distanța dintre astfel de acumulări de puncte (clustere) și cum să o calculăm. În acest caz, varietatea posibilităților este chiar mai mare decât în ​​cazul calculării distanței dintre două observații într-un spațiu multidimensional. Această procedură este complicată de faptul că, spre deosebire de puncte, clusterele ocupă o anumită cantitate de spațiu multidimensional și constau din multe puncte. În analiza clusterelor, distanțele dintre clustere sunt utilizate pe scară largă, calculate pe principiul celui mai apropiat vecin (cel mai apropiat vecin), centru de greutate, cel mai îndepărtat vecin, mediane. Cele mai utilizate patru metode sunt: ​​o singură legătură, o legătură completă, o legătură medie și metoda lui Ward. În metoda legăturii unice, un obiect va fi atașat la un cluster deja existent dacă cel puțin unul dintre elementele clusterului are același nivel de similitudine cu obiectul care este alăturat. Pentru metoda legăturilor complete, un obiect este atașat unui cluster numai dacă asemănarea dintre candidatul pentru includere și oricare dintre elementele clusterului nu este mai mică de un anumit prag. Pentru metoda de conectare medie, există mai multe modificări, care reprezintă un compromis între conexiunea unică și cea completă. Ei calculează valoarea medie a similarității candidatului pentru includere cu toate obiectele clusterului existent. Atașarea se realizează atunci când valoarea medie de similitudine găsită atinge sau depășește un anumit prag. Cel mai frecvent utilizat este similaritatea medie aritmetică dintre obiectele clusterului și candidatul pentru includerea în cluster.

Multe dintre metodele de grupare diferă unele de altele prin faptul că algoritmii lor la fiecare pas calculează diferite funcționale de calitate a partiționării. Metoda populară Ward este construită astfel încât să optimizeze variația minimă a distanțelor intracluster. La primul pas, fiecare cluster este format dintr-un obiect, datorită căruia dispersia intracluster a distanțelor este egală cu 0. Prin această metodă, acele obiecte care dau incrementul minim de dispersie sunt combinate, drept urmare această metodă tinde să generează clustere hipersferice.

Încercările multiple de a clasifica metodele de analiză a clusterelor conduc la zeci sau chiar sute de clase diferite. O astfel de varietate este generată de un număr mare de moduri posibile de calculare a distanței dintre observațiile individuale, nu mai puțin de un număr de metode de calculare a distanței dintre clustere individuale în procesul de grupare și diverse estimări ale optimității structurii clusterului final.

Cele mai utilizate pe scară largă în pachetele statistice populare sunt două grupuri de algoritmi de analiză a clusterelor: metodele aglomerative ierarhice și metodele de grupare iterativă.

3. METODE DE GRUPARE

3. 1 CARACTERISTICI ALE METODELOR AGLOMERATIVE IERARHICE

În algoritmii ierarhici aglomerativi, care sunt mai des utilizați în cercetarea biomedicală reală, inițial toate obiectele (observațiile) sunt considerate ca grupuri separate, independente, formate dintr-un singur element. Fără utilizarea unei tehnologii computerizate puternice, implementarea analizei datelor cluster este foarte problematică.

Alegerea metricii este făcută de cercetător. După calcularea matricei distanțelor, începe procesul aglomerări (din latinescul agglomero - atasez, acumulez), trecand secvential pas cu pas. La prima etapă a acestui proces, două observații inițiale (monoclustere) cu cea mai mică distanță între ele sunt combinate într-un singur grup, care este deja format din două obiecte (observații). Astfel, în locul fostelor N monoclustere (clustere formate dintr-un obiect), după primul pas vor exista N-1 clustere, dintre care un cluster va conține două obiecte (observații), iar N-2 clustere vor consta în continuare din un singur obiect. La al doilea pas, sunt posibile diferite metode de combinare a clusterelor N-2. Acest lucru se datorează faptului că unul dintre aceste clustere conține deja două obiecte. Din acest motiv, se ridică două întrebări principale:

· cum se calculează coordonatele unui astfel de grup de două (și mai mult de două) obiecte;

· cum se calculează distanța până la astfel de clustere „poli-obiect” de la „monoclustere” și între clustere „poli-obiect”.

În cele din urmă, aceste întrebări determină structura finală a clusterelor finale (structura clusterelor înseamnă compoziția clusterelor individuale și poziția relativă a acestora într-un spațiu multidimensional). Diverse combinații de metrici și metode pentru calcularea coordonatelor și distanțelor reciproce ale clusterelor dau naștere la varietatea metodelor de analiză a clusterelor. La a doua etapă, în funcție de metodele alese de calculare a coordonatelor unui cluster format din mai multe obiecte și de metoda de calcul a distanțelor dintre clustere, este posibil fie să se recombină două observații separate într-un nou cluster, fie să se alăture unui nou grup. observarea unui grup format din două obiecte. Pentru comoditate, majoritatea programelor de metode aglomerativ-ierarhice la sfârșitul lucrării pot oferi două grafice principale pentru vizualizare. Primul grafic se numește dendrogramă (din grecescul dendron - arbore), reflectând procesul de aglomerare, fuziunea observațiilor individuale într-un singur cluster final. Să dăm un exemplu de dendrogramă cu 5 observații în două variabile.

Programa1

Axa verticală a unui astfel de grafic este axa distanței dintre clustere, iar numărul de obiecte - cazuri utilizate în analiză - este marcat de-a lungul axei orizontale. Din această dendrogramă se poate observa că obiectele nr. 1 și nr. 2 sunt mai întâi combinate într-un singur grup, deoarece distanța dintre ele este cea mai mică și este egală cu 1. Această fuziune este afișată pe grafic printr-o linie orizontală care conectează segmentele verticale. iesind din punctele marcate ca C_1 si C_2. Să acordăm atenție faptului că linia orizontală în sine trece exact la nivelul distanței intercluster egală cu 1. Mai departe, la a doua etapă, obiectul nr. 3, desemnat ca C_3, se alătură acestui grup, care include deja două obiecte. Următorul pas este să îmbinați obiectele #4 și #5, distanța dintre care este egală cu 1,41. Și la ultimul pas, grupul de obiecte 1, 2 și 3 este combinat cu grupul de obiecte 4 și 5. Graficul arată că distanța dintre aceste două penultime grupuri (ultimul grup include toate cele 5 obiecte) este mai mare decât 5. , dar mai mică de 6, deoarece linia orizontală superioară care leagă cele două penultime clustere trece la un nivel aproximativ egal cu 7, iar nivelul de conectare al obiectelor 4 și 5 este 1,41.

Dendrograma de mai jos a fost obținută prin analiza unui set de date real format din 70 prelucrate probe chimice, fiecare dintre acestea fiind caracterizat de 12 caracteristici.

Diagrama 2

Din grafic se poate observa că la ultimul pas, când ultimele două clustere se îmbină, distanța dintre ele este de aproximativ 200 de unități. Se poate observa că primul cluster include mult mai puține obiecte decât al doilea cluster.Mai jos este o secțiune mărită a dendrogramei pe care sunt vizibile clar numerele de observație, notate ca C_65, C_58 etc. (de la stânga la dreapta): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 etc.

Diagrama 3 Porțiune mărită a diagramei #2 de mai sus

Se poate observa că obiectul 44 este un monocluster care se combină cu clusterul din dreapta la penultima etapă, iar apoi, la ultima etapă, toate observațiile sunt combinate într-un singur cluster.

Un alt grafic care este construit în astfel de proceduri este un grafic al distanțelor dintre clustere la fiecare pas al uniunii. Mai jos este o diagramă similară pentru dendrograma de mai sus.

Diagrama 4

Într-un număr de programe, este posibil să se afișeze în formă tabelară rezultatele combinării obiectelor la fiecare pas de grupare. În cele mai multe dintre aceste tabele, pentru a evita confuziile, se folosește o terminologie diferită pentru a desemna observațiile inițiale - monoclustere și clusterele reale formate din două sau mai multe observații. În pachetele statistice în limba engleză, observațiile inițiale (rândurile matricei de date) sunt desemnate ca „caz” - caz. Pentru a demonstra dependența structurii clusterului de alegerea metricii și alegerea algoritmului de unire a clusterului, prezentăm mai jos o dendrogramă corespunzătoare algoritmului de conexiune completă. Și aici vedem că obiectul #44 este îmbinat cu restul selecției în ultimul pas.

Diagrama 5

Acum să o comparăm cu o altă diagramă obținută prin utilizarea metodei single link pe aceleași date. Spre deosebire de metoda de conectare completă, se poate observa că această metodă generează lanțuri lungi de obiecte atașate secvențial între ele. Cu toate acestea, în toate cele trei cazuri, putem spune că două grupuri principale ies în evidență.

Diagrama 6

De asemenea, să acordăm atenție faptului că în toate cele trei cazuri obiectul nr. 44 se alătură ca un monocluster, deși la diferite etape ale procesului de grupare. Selectarea unor astfel de monoclustere este un mijloc bun de detectare a observațiilor anormale, numite valori aberante. Să ștergem acest obiect „suspect” nr. 44 și să realizăm din nou gruparea. Obținem următoarea dendrogramă:

Diagrama 7

Se poate observa că efectul de „lanț” este păstrat, la fel ca și împărțirea în două grupuri locale de observații.

3. 2 CARACTERISTICI ALE METODELOR ITERATIVE DE CLUSTERING

Dintre metodele iterative, cea mai populară metodă este metoda k-means a lui McKean. Spre deosebire de metodele ierarhice, în majoritatea implementărilor acestei metode, utilizatorul însuși trebuie să specifice numărul dorit de clustere finale, care este de obicei notat cu „k”. Ca și în metodele de grupare ierarhică, utilizatorul poate alege unul sau altul tip de metrică. Diferiți algoritmi ai metodei k-means diferă și în modul de alegere a centrelor inițiale ale clusterelor date. În unele versiuni ale metodei, utilizatorul însuși poate (sau trebuie) să specifice astfel de puncte inițiale, fie selectându-le din observații reale, fie specificând coordonatele acestor puncte pentru fiecare dintre variabile. În alte implementări ale acestei metode, alegerea unui număr dat k de puncte inițiale se face în mod aleatoriu, iar aceste puncte inițiale (granule de cluster) pot fi ulterior rafinate în mai multe etape. Există 4 etape principale ale unor astfel de metode:

· selectați sau atribuiți k observații care vor fi centrele primare ale clusterelor;

· dacă este necesar, se formează clustere intermediare prin atribuirea fiecărei observații celor mai apropiate centre de cluster specificate;

· după atribuirea tuturor observațiilor clusterelor individuale, centrele clusterelor primare sunt înlocuite cu medii cluster;

· se repetă iterația anterioară până când modificările coordonatelor centrilor clusterului devin minime.

În unele versiuni ale acestei metode, utilizatorul poate seta o valoare numerică a criteriului, care este interpretată ca distanța minimă pentru selectarea noilor centre de cluster. Observarea nu va fi considerată candidat pentru centru nou cluster, dacă distanța sa până la centrul înlocuit al clusterului depășește numărul specificat. Acest parametru se numește „rază” în unele programe. Pe lângă acest parametru, mai este posibil să se stabilească numărul maxim de iterații sau să se ajungă la un anumit număr, de obicei destul de mic, cu care se compară modificarea distanței pentru toate centrele clusterului. Această setare este denumită în mod obișnuit „convergență” deoarece reflectă convergența procesului de clustering iterativ. Mai jos prezentăm câteva dintre rezultatele care au fost obținute folosind metoda McKean k-means la datele anterioare. Numărul de grupuri dorite a fost setat inițial la 3 și apoi la 2. Prima lor parte conține rezultatele unui singur factor. analiza variatiei, în care numărul clusterului acționează ca un factor de grupare. Prima coloană este o listă de 12 variabile, urmată de sumele pătratelor (SS) și gradele de libertate (df), apoi testul F Fisher, iar în ultima coloană nivelul de semnificație „p” atins.

Tabelul 2 McKean k-means date aplicabile la 70 de probe de testare.

Variabile

După cum se poate observa din acest tabel, ipoteza nulă despre egalitatea mediilor în cele trei grupe este respinsă. Mai jos este un grafic al mediilor tuturor variabilelor pentru grupuri individuale. Aceleași medii de cluster ale variabilelor sunt prezentate mai jos sub forma unui tabel.

Tabelul 3. Revizuirea detaliată a datelor din exemplul a trei grupuri.

Variabil

Clusterul #1

Clusterul #2

Clusterul #3

Diagrama 8

Analiza valorilor medii ale variabilelor pentru fiecare cluster ne permite să concluzionam că, conform caracteristicii X1, clusterele 1 și 3 au valori apropiate, în timp ce clusterul 2 are o valoare medie mult mai mică decât în ​​celelalte două clustere. Dimpotrivă, conform caracteristicii X2, primul cluster are cea mai mică valoare, în timp ce al 2-lea și al 3-lea cluster au valori medii mai mari și apropiate. Pentru trăsăturile X3-X12, valorile medii în clusterul 1 sunt semnificativ mai mari decât în ​​clusterele 2 și 3. Următorul tabel al analizei ANOVA a rezultatelor grupării în două clustere arată, de asemenea, nevoia de a respinge ipoteza nulă despre egalitate. de medii de grup pentru aproape toate cele 12 caracteristici, cu excepția variabilei X4, pentru care nivelul de semnificație atins sa dovedit a fi mai mare de 5%.

Tabelul 4. Tabelul analizei de dispersie a rezultatelor grupării în două clustere.

Variabile

Mai jos este un grafic și un tabel cu medii de grup pentru cazul grupării în două grupuri.

Tabelul 5. Tabel pentru cazul grupării în două clustere.

Variabile

Clusterul #1

Clusterul #2

Diagrama 9.

In cazul in care cercetatorul nu este in masura sa determine in prealabil numarul cel mai probabil de clustere, el este obligat sa repete calculele, stabilind un alt numar, asemanator cu ceea ce s-a facut mai sus. Și apoi, comparând rezultatele obținute între ele, opriți-vă la una dintre cele mai acceptabile opțiuni de grupare.

4 . CLUSTER DE CARACTERISTICI

Pe lângă gruparea observațiilor individuale, există și algoritmi de grupare a caracteristicilor. Una dintre primele astfel de metode este metoda de corelare pleiade Terentiev P.V. Imaginile primitive ale unor astfel de pleiade pot fi adesea găsite în publicațiile biomedicale sub forma unui cerc punctat cu săgeți care leagă semne pentru care autorii au găsit o corelație. Un număr de programe pentru gruparea obiectelor și caracteristicilor au proceduri separate. De exemplu, în pachetul SAS pentru clustering de caracteristici, este utilizată procedura VARCLUS (din VARiable - variabilă și CLUSter - cluster), în timp ce analiza cluster a observațiilor este efectuată prin alte proceduri - FASTCLUS și CLUSTER. Construcția unei dendrograme în ambele cazuri se realizează folosind procedura TREE (arborele).

În alte pachete statistice, selecția elementelor pentru grupare - obiecte sau caracteristici - se face în același modul. Ca măsurătoare pentru gruparea caracteristicilor, sunt adesea folosite expresii care includ valoarea anumitor coeficienți care reflectă puterea relației pentru o pereche de caracteristici. În acest caz, este foarte convenabil ca semnele cu o putere de conectare egală cu unu (dependență funcțională) să ia distanța dintre semne egală cu zero. Într-adevăr, cu o conexiune funcțională, valoarea unei caracteristici poate calcula cu exactitate valoarea altei caracteristici. Odată cu scăderea puterii relației dintre caracteristici, distanța crește în consecință. Mai jos este un grafic care arată o dendrogramă a combinației de 12 caracteristici care au fost utilizate mai sus la gruparea a 70 de eșantioane analitice.

Graficul 10. Dendrogramagruparea a 12 caracteristici.

După cum se poate observa din această dendrogramă, avem de-a face cu două grupări locale de caracteristici: X1-X10 și X11-X12.Grupul de caracteristici X1-X10 se caracterizează printr-o valoare destul de mică a distanțelor dintre clustere, care nu depășește aproximativ 100 de unități. Aici vedem și câteva subgrupuri interne pereche: X1 și X2, X3 și X4, X6 și X7. Distanța dintre caracteristicile acestor perechi, care este foarte aproape de zero, indică relația lor puternică de pereche. În timp ce pentru perechea X11 și X12 valoarea distanței dintre clustere este mult mai mare și este de aproximativ 300 de unități. În cele din urmă, o distanță foarte mare între clusterele stânga (X1-X10) și dreapta (X11-X12), egală cu aproximativ 1150 de unități, indică faptul că relația dintre aceste două grupuri de caracteristici este destul de minimă.

5. STABILITATEA ȘI CALITATEA CLUSTERULUI

Evident, ar fi absurd să ne punem întrebarea cât de absolută este cutare sau cutare clasificare obținută cu ajutorul metodelor de analiză a clusterelor. Când metoda de grupare este schimbată, stabilitatea se manifestă prin faptul că două clustere sunt destul de clar vizibile pe dendrograme.

Ca una dintre modalitățile posibile de verificare a stabilității rezultatelor analizei cluster, poate fi utilizată metoda de comparare a rezultatelor obținute pentru diverși algoritmi de clustering. Alte moduri sunt așa-numita metodă bootstrap propusă de B. Efron în 1977, metodele „jackknife” și „sliding control”. Cel mai simplu mijloc de verificare a stabilității unei soluții cluster poate fi împărțirea aleatorie a eșantionului inițial în două părți aproximativ egale, gruparea ambelor părți și apoi compararea rezultatelor. O modalitate mai consumatoare de timp implică excluderea secvenţială a primului obiect la început şi gruparea celorlalte (N - 1) obiecte. În plus, efectuarea secvenţială a acestei proceduri, cu excepţia celei de-a doua, a treia etc. obiecte, se analizează structura tuturor N clustere obținute. Un alt algoritm de verificare a stabilității implică reproducerea multiplă, duplicarea eșantionului original de N obiecte, apoi combinarea tuturor probelor duplicate într-un singur eșantion mare (populație pseudo-generală) și extragerea aleatorie a unui nou eșantion de N obiecte din acesta. După aceea, această probă este grupată, apoi este luată o nouă probă aleatoare și gruparea este efectuată din nou etc. Este, de asemenea, destul de intensivă în muncă.

Nu există mai puține probleme atunci când se evaluează calitatea grupării. Sunt cunoscuți destul de mulți algoritmi pentru optimizarea soluțiilor de cluster. Primele lucrări care au cuprins formulări ale criteriului de minimizare a varianței intracluster și un algoritm (de tipul k-means) pentru găsirea soluției optime au apărut în anii 50. În 1963 Articolul lui J. Ward a prezentat și un algoritm ierarhic de optimizare similar. Nu există un criteriu universal pentru optimizarea unei soluții de cluster. Toate acestea fac dificil pentru cercetător să aleagă soluția optimă. In astfel de situatie în cel mai bun mod posibil a afirma că soluția cluster găsită este optimă în această etapă a studiului, este doar coerența acestei soluții cu concluziile obținute folosind alte metode de statistică multivariată.

În favoarea concluziei despre optimitatea grupării, există și rezultate pozitive ale verificării momentelor predictive ale soluției obținute deja pe alte obiecte de studiu. Când folosiți metode ierarhice de analiză a clusterelor, vă putem recomanda compararea mai multor grafice între ele schimbare progresivă distanta dintre clustere. În acest caz, ar trebui să se acorde preferință opțiunii pentru care se observă o linie plată a unui astfel de increment de la primul pas la câțiva pași penultim cu o creștere verticală bruscă în acest grafic la ultimii 1-2 pași de grupare.

CONCLUZII

În munca mea, am încercat să arăt nu numai complexitatea acestui tip de analiză, ci și capabilitățile optime de procesare a datelor, deoarece de multe ori pentru acuratețea rezultatelor trebuie să utilizați de la zeci la sute de mostre. Acest tip analiza ajută la clasificarea și procesarea rezultatelor. De asemenea, consider nu lipsită de importanță acceptabilitatea tehnologiilor informatice în această analiză, ceea ce face posibil ca procesul de prelucrare a rezultatelor să fie mai puțin consumator de timp și astfel permite să se acorde mai multă atenție corectitudinii eșantionării pentru analiză.

În utilizarea analizei cluster, există astfel de subtilități și detalii care apar în cazuri specifice individuale și nu sunt imediat vizibile. De exemplu, rolul scalei caracteristicilor poate fi minim și poate fi dominant în unele cazuri. În astfel de cazuri este necesar să se utilizeze transformări variabile. Acest lucru este eficient în special atunci când se utilizează metode care produc transformări neliniare ale caracteristicilor care cresc în general nivelul general de corelații între caracteristici.

Există o specificitate și mai mare în utilizarea analizei cluster în raport cu obiectele care sunt descrise doar prin caracteristici calitative. În acest caz, metodele de digitalizare preliminară a caracteristicilor calitative și analiza clusterului cu caracteristici noi sunt destul de reușite. În munca mea, am arătat că analiza cluster oferă o mulțime de informații noi și originale atât în ​​cazul aplicării sale în sisteme suficient studiate, cât și în studiul sistemelor cu structură necunoscută.

De asemenea, trebuie remarcat faptul că analiza clusterelor a devenit indispensabilă în cercetarea evolutivă, permițând construirea de arbori filogenetici care prezintă căi evolutive. Aceste metode sunt utilizate pe scară largă în programe cercetare științificăîn chimie fizică şi analitică.

BIBLIOGRAFIE

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Despre structura și conținutul pachetului software pentru analiza statistică aplicată//Algoritmică și software analiza statistică aplicată.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Clasificarea observațiilor multidimensionale.--M.: Statistica, 1974.

3) Becker V. A., Lukatskaya M. L. Despre analiza structurii matricei coeficienților de cuplare// Probleme de modelare și prognoză economică și statistică în industrie.-- Novosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. Metode structurale prelucrarea datelor.--M.: Nauka, 1983.

5) Voronin Yu. A. Teoria clasificării și aplicațiile sale. - Novosibirsk: Nauka, 1987.

6) Bun I. J. Botryology of Botryology//Clasificarea și clusterul.--M.: Mir, 1980.

7) Dubrovsky S. A. Analiză statistică multivariată aplicată.--M.: Finance and statistics, 1982.

8) Duran N., Odell P. Cluster analysis.--M.: Statistics, 1977.

9) Eliseeva I.I., Rukavishnikov V.S. Gruparea, corelarea, recunoașterea modelelor.--M.: Statistică, 1977.

10) Zagoruiko N. G. Metode de recunoaștere și aplicarea lor.--M .: Radio sovietică, 1972.

11) Zade L. A. Seturile fuzzy și aplicarea lor în recunoașterea modelelor și analiza clusterelor//Clasificarea și clusterul.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Grupări multidimensionale.--M.: Statistics, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA Despre o modalitate de a verifica validitatea partiționării în analiza clusterului.//Aplicarea analizei statistice multivariate în economie și evaluarea calității produsului.--Ch. P. Tartu, 1977.

14) Shurygin A. M. Distribuția distanțelor și diferențelor între puncte // Suport software și algoritmic pentru analiza statistică multidimensională aplicată.--M., 1983.

15) Eeremaa R. Teoria generală a proiectării sistemelor cluster și a algoritmilor pentru găsirea reprezentărilor lor numerice: Proceedings of the Computing Center of TSU.--Tartu, 1978.

16) Yastremsky B.S. Lucrări alese.--M.: Statistics, 1964.

Documente similare

    Obiectivele segmentării pieței în activitati de marketing. Esența analizei cluster, principalele etape ale implementării acesteia. Selectați modul de măsurare a distanței sau a similitudinii. Metode de grupare ierarhică, non-ierarhică. Evaluarea fiabilității și a fiabilității.

    raport, adaugat 02.11.2009

    Principalele caracteristici starea financiaraîntreprinderilor. Criza la întreprindere, cauzele, tipurile și consecințele acesteia. Metode moderneși instrumente de analiză a clusterelor, caracteristici ale utilizării lor pentru evaluarea financiară și economică a întreprinderii.

    teză, adăugată 10.09.2013

    Efectuați o analiză de cluster a întreprinderilor folosind Statgraphics Plus. Construirea unei ecuații de regresie liniară. Calculul coeficienților de elasticitate prin modele de regresie. Evaluarea semnificației statistice a ecuației și a coeficientului de determinare.

    sarcină, adăugată 16.03.2014

    Construirea regresiilor tipologice pentru grupuri individuale de observații. Date spațiale și informații temporale. Domeniul de aplicare al analizei cluster. Conceptul de omogenitate a obiectelor, proprietăți ale matricei distanțelor. Efectuarea regresiei tipologice.

    prezentare, adaugat 26.10.2013

    Crearea de modele și metode combinate ca mod modern prognoza. Un model bazat pe ARIMA pentru descrierea seriilor de timp staționare și non-staționare în rezolvarea problemelor de clustering. Modele AR autoregresive și aplicarea corelogramelor.

    prezentare, adaugat 05.01.2015

    Caracteristicile diferitelor tipuri de metrici. Metoda celui mai apropiat vecin și generalizările acesteia. Algoritmul celui mai apropiat vecin. Metoda ferestrei Parzen. Clasificator metric generalizat. Problema alegerii unei metrici. Manhattan și distanța euclidiană. măsura cosinusului.

    lucrare de termen, adăugată 03.08.2015

    Caracteristicile industriei construcțiilor din teritoriul Krasnodar. Prognoza dezvoltării construcției de locuințe. Metode și instrumente moderne de analiză a clusterelor. Metode statistice multidimensionale pentru diagnosticarea stării economice a unei întreprinderi.

    teză, adăugată 20.07.2015

    Caracteristicile creditării ipotecare pe exemplul regiunii Bryansk. Revizuirea metodelor matematice de luare a deciziilor: evaluări experți, comparații secvențiale și perechi, analiză ierarhică. Dezvoltarea unui program de căutare pentru creditul ipotecar optim.

    lucrare de termen, adăugată 29.11.2012

    Domeniile de aplicare ale analizei de sistem, locul, rolul, scopurile și funcțiile acesteia în stiinta moderna. Conceptul și conținutul metodelor de analiză a sistemului, metodele sale informale. Caracteristicile metodelor de cercetare euristică și expertă și caracteristicile aplicării acestora.

    lucrare de termen, adăugată 20.05.2013

    Dezvoltarea și cercetarea metodelor econometrice, ținând cont de specificul datelor economice și în concordanță cu nevoile economieși practici. Aplicarea metodelor și modelelor econometrice pentru analiza statistică a datelor economice.

Universitatea: VZFEI

Anul și orașul: Moscova 2008


1. Introducere. Conceptul metodei de analiză a clusterelor.

2. Descrierea metodologiei de aplicare a analizei cluster. Exemplu de control de rezolvare a problemelor.

4. Lista literaturii folosite

  1. Introducere. Conceptul metodei de analiză a clusterelor.

Analiza cluster este un set de metode care permit clasificarea observațiilor multidimensionale, fiecare dintre acestea fiind descrisă de un set de caracteristici (parametri) X1, X2, ..., Xk.

Scopul analizei cluster este formarea de grupuri de obiecte asemănătoare între ele, care sunt denumite în mod obișnuit clustere (clasă, taxon, concentrare).

Analiza clusterelor este unul dintre domeniile cercetării statistice. Ocupă un loc deosebit de important în acele ramuri ale științei care sunt asociate cu studiul fenomenelor și proceselor de masă. Necesitatea de a dezvolta metode de analiză a clusterelor și utilizarea lor este dictată de faptul că acestea ajută la construirea clasificărilor bazate științific, la identificarea comunicatii interneîntre unitățile populației observate. În plus, metodele de analiză a clusterelor pot fi folosite pentru comprimarea informațiilor, care este un factor important în fața creșterii și complexității constante a fluxurilor de date statistice.

Metodele de analiză a clusterelor permit rezolvarea următoarelor probleme:

Efectuarea clasificării obiectelor, ținând cont de trăsăturile care reflectă esența, natura obiectelor. Rezolvarea unei astfel de probleme, de regulă, duce la o aprofundare a cunoștințelor despre totalitatea obiectelor clasificate;

Verificarea ipotezelor făcute cu privire la prezența unei structuri în setul de obiecte studiat, i.e. căutarea unei structuri existente;

Construirea unor noi clasificări pentru fenomene slab studiate, când este necesar să se stabilească prezența unor legături în cadrul populației și să se încerce introducerea structurii în aceasta (1. pp. 85-86).

2. Descrierea metodologiei de aplicare a analizei cluster. Exemplu de control de rezolvare a problemelor.

Analiza cluster vă permite să formați o defalcare în grupuri omogene (clustere) din n obiecte caracterizate prin k caracteristici. Omogenitatea obiectelor este determinată de distanța p(xi xj), unde xi = (xi1, …., xik) și xj= (xj1,…,xjk) sunt vectori compuși din valorile k atribute ale i -lea și respectiv j-lea obiecte.

Pentru obiectele caracterizate prin caracteristici numerice, distanța este determinată de următoarea formulă:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Obiectele sunt considerate omogene dacă p(xi xj)< p предельного.

O reprezentare grafică a uniunii poate fi obținută folosind un arbore de unire cluster - o dendrogramă. (2. Capitolul 39).

Caz de testare (exemplul 92).

Volumul vânzărilor

Să clasificăm aceste obiecte folosind principiul „vecinului apropiat”. Să găsim distanțele dintre obiecte folosind formula (1)* . Să completăm tabelul.

Să explicăm cum este umplut tabelul.

La intersecția rândului i și coloanei j, este indicată distanța p(xi xj) (rezultatul este rotunjit la două zecimale).

De exemplu, la intersecția rândului 1 și coloanei 3, se indică distanța p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10, iar la intersecția rândului 3 și coloanei 5, distanța p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6,08. Deoarece p(xi, xj) = p(xj,xi), partea inferioară a tabelului nu trebuie completată.

Să aplicăm principiul „vecinului apropiat”. Găsim în tabel cea mai mică dintre distanțe (dacă sunt mai multe, atunci alegem oricare dintre ele). Acesta este p 1,2 ≈ p 4,5 \u003d 2,24. Fie p min = p 4,5 = 2,24. Apoi putem combina obiectele 4 și 5 într-un singur grup, adică coloana combinată 4 și 5 va conține cel mai mic dintre numărul corespunzător de coloane 4 și 5 din tabelul de distanțe inițial. Facem același lucru cu rândurile 4 și 5. Obținem un tabel nou.

Găsim în tabelul rezultat cea mai mică dintre distanțe (dacă sunt mai multe, atunci vom alege oricare dintre ele): р min = р 1,2 = 2,24. Apoi putem combina obiectele 1,2,3 într-un singur grup, adică coloana combinată 1,2,3 va conține cel mai mic dintre numărul corespunzător de coloane 1 și 2 și 3 din tabelul de distanțe anterior. Facem același lucru cu rândurile 1 și 2 și 3. Obținem un nou tabel.

Avem două grupuri: (1,2,3) și (4,5).

3. Rezolvarea problemelor pentru munca de control.

Problema 85.

Termeni: Cinci unități de producție se caracterizează prin două caracteristici: volumul vânzărilor și costul mediu anual al mijloacelor fixe.

Volumul vânzărilor

Costul mediu anual mijloace fixe de producție

Soluţie: Să găsim distanțele dintre obiecte folosind formula (1)* (vom rotunji la două zecimale):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1,2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3,61

p 1,3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2.2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2,3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 \u003d √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

Pe baza rezultatelor calculelor, completăm tabelul:

Să aplicăm principiul celui mai apropiat vecin. Pentru a face acest lucru, în tabel găsim cea mai mică dintre distanțe (dacă sunt mai multe, atunci selectați oricare dintre ele). Acesta este p 2,3=2,24. Fie p min = p 2,3 = 2,24, apoi putem combina obiectele coloanelor „2” și „3”, precum și și rândurile de obiecte „2” și „3”. În noul tabel, introducem cele mai mici valori din tabelul original în grupurile combinate.

În noul tabel găsim cea mai mică dintre distanțe (dacă sunt mai multe, atunci selectăm oricare dintre ele). Acesta este p 4,5=3,16. Fie p min = p 4,5 = 3,16, apoi putem combina obiectele coloanelor „4” și „5”, precum și și rândurile de obiecte „4” și „5”. În noul tabel, introducem cele mai mici valori din tabelul original în grupurile combinate.

În noul tabel găsim cea mai mică dintre distanțe (dacă sunt mai multe, atunci selectăm oricare dintre ele). Acestea sunt p 1, 2 și 3=3,61. Fie p min = p 1, 2 și 3 = 3,61, apoi putem îmbina obiectele coloană „1” și „2 și 3” și, de asemenea, putem îmbina rândurile. În noul tabel, introducem cele mai mici valori din tabelul original în grupurile combinate.

Obținem două grupuri: (1,2,3) și (4,5).

Dendrograma arată ordinea de selecție a elementelor și distanțele minime corespunzătoare pmin.

Răspuns: Ca rezultat al analizei clusterului conform principiului „cel mai apropiat vecin”, se formează 2 clustere de obiecte asemănătoare între ele: (1,2,3) și (4,5).

Problema 211.

Termeni: Cinci unități de producție se caracterizează prin două caracteristici: volumul vânzărilor și valoarea medie anuală a mijloacelor fixe.

Volumul vânzărilor

Costul mediu anual al activelor fixe de producție

Clasificați aceste obiecte folosind principiul celui mai apropiat vecin.

Soluţie: Pentru a rezolva problema, prezentăm datele în tabelul original. Să determinăm distanțele dintre obiecte. Vom clasifica obiectele după principiul „cel mai apropiat vecin”. Rezultatele sunt prezentate sub forma unei dendrograme.

Volumul vânzărilor

Costul mediu anual al activelor fixe de producție

Folosind formula (1)*, găsim distanțele dintre obiecte:

p 1.1 = 0, p 1.2 = 6, p 1.3 = 8.60, p 1.4 = 6.32, p 1.5 = 6.71, p 2.2 = 0, p 2 ,3 = 7.07, p 2.4 = 2, p 2.5 = 3.32, p 3.32 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4 ,4=0, p4,5=1, p5,5=0.

Rezultatele sunt prezentate în tabel:

Cea mai mică valoare a distanțelor din tabel este p 4,5=1. Fie p min = p 4,5 = 1, apoi putem combina obiectele coloanelor „4” și „5” și, de asemenea, combinați rândurile obiectelor „4” și „5”. În noul tabel, introducem cele mai mici valori din tabelul original în grupurile combinate.

Cea mai mică valoare a distanțelor din noul tabel este p 2, 4 și 5=2. Fie p min = p 2, 4 și 5=2, apoi putem combina obiectele coloanelor „4 și 5” și „3”, precum și și rândurile de obiecte „4 și 5” și „3”. În noul tabel, introducem cele mai mici valori din tabel în grupurile combinate.

Cea mai mică valoare a distanțelor din noul tabel este p 3,4,5=2. Fie p min = p 3,4,5=2, apoi putem combina obiectele coloanelor „3,4,5” și „2”, precum și și rândurile de obiecte „3,4,5” și „ 2". În noul tabel, introducem cele mai mici valori din tabel în grupurile combinate.

sau conectați-vă la site.

Important! Toate lucrările de testare prezentate pentru descărcare gratuită au scopul de a elabora un plan sau o bază pentru propria dvs. activitate științifică.

Prieteni! Tu ai oportunitate unică ajuta elevii ca tine! Dacă site-ul nostru v-a ajutat să găsiți locul de muncă potrivit, atunci cu siguranță înțelegeți cum munca pe care ați adăugat-o poate ușura munca altora.

Dacă controlul funcționează, în opinia dvs., Calitate rea, sau ați întâlnit deja această lucrare, anunțați-ne despre ea.

Vezi ANALIZA CLUSTER. antinazi. Enciclopedia de Sociologie, 2009... Enciclopedia Sociologiei

analiza grupului- acesta este un set de metode care vă permit să clasificați observații multidimensionale, fiecare dintre acestea fiind descrisă de un anumit set de variabile. Scopul analizei cluster este formarea de grupuri de obiecte similare între ele, care sunt denumite în mod obișnuit ...... Dicţionar sociologic Socium

analiza grupului- o procedură matematică de analiză multidimensională, care permite, pe baza unui set de indicatori care caracterizează un număr de obiecte (de exemplu, subiecte), să le grupeze în clase (clustere) astfel încât obiectele incluse într-o clasă să fie mai multe. .. ... Marea Enciclopedie Psihologică

Analiza grupului- o procedură matematică care permite, pe baza asemănării valorilor cantitative ale mai multor trăsături caracteristice fiecărui obiect (de exemplu, subiectul) oricărei mulțimi, să grupeze aceste obiecte în anumite clase, sau clustere. ... . .. Dicţionar psihologic

analiza grupului- - [L.G. Sumenko. Dicționar englez rus de tehnologii informaționale. M.: GP TsNIIS, 2003.] Subiecte Tehnologia de informațieîn general, analiza clusterului EN... Manualul Traducătorului Tehnic

analiza grupului- * analiza cluster * analiza cluster sau clustering de date este o procedură statistică multidimensională care colectează date care conțin informații despre o selecție de obiecte și apoi aranjează obiectele în grupuri relativ omogene de clustere (Q... ... Genetica. Dicţionar enciclopedic

analiza grupului- Este de dorit să îmbunătățim acest articol la matematică?: Punând note de subsol, faceți indicații mai precise ale surselor. Corectați articolul conform regulilor stilistice ale Wikipedia. Reciclați din ... Wikipedia

ANALIZA GRUPULUI- - o procedură matematică de analiză multidimensională, care permite, pe baza unui set de indicatori care caracterizează un număr de obiecte (de exemplu, subiecte), să le grupeze în clase (clustere), astfel încât obiectele incluse într-o clasă să fie Mai mult ... ... Dicţionar Enciclopedic de Psihologie şi Pedagogie

ANALIZA GRUPULUI - Denumirea comună pentru diverse metode matematice de determinare a structurii profunde în date complexe. Analiza cluster este similară în multe privințe cu analiza factorială. Ambele implică căutarea elementelor unitare (factori sau clustere) care... ... Dicţionar explicativ de psihologie

ANALIZA GRUPULUI- (analiza cluster) o tehnică utilizată pentru a identifica grupuri de obiecte sau persoane care pot prezenta diferențe relativ într-un set de date. Apoi sunt studiate caracteristicile unor astfel de oameni din cadrul fiecărui grup. În cercetarea de piață, ...... Marele dicționar sociologic explicativ

ANALIZA GRUPULUI- (ANALIZA CLUSTER) Un grup de tehnici statistice utilizate pentru a determina structura internă a datelor în analiza informațiilor de cercetare referitoare la mai multe variabile. Scopul analizei cluster este de a identifica grupuri de obiecte ...... dicţionar sociologic

Această carte este dedicată doar uneia dintre cele mai promițătoare abordări ale analizei proceselor și fenomenelor multidimensionale în acest sens - analiza clusterului.

Analiza clusterelor este o modalitate de grupare a obiectelor multidimensionale, bazată pe prezentarea rezultatelor observațiilor individuale pe puncte ale unui spațiu geometric adecvat, urmată de selectarea grupurilor ca „clumps” ale acestor puncte. De fapt, „clusterul” (clusterul) în Limba englezăși înseamnă „cheag”, „cigh (de struguri)”, „cluster (de stele)”, etc. Acest termen se potrivește neobișnuit de bine în terminologia științifică, deoarece prima sa silabă corespunde termenului tradițional „clasă”, iar a doua, așa cum ar fi, indică originea sa artificială. Nu avem nicio îndoială că terminologia analizei cluster va înlocui toate constructele utilizate anterior în acest scop (recunoaștere nesupravegheată a modelelor, stratificare, taxonomie, clasificare automată etc.). Posibilitățile potențiale ale analizei cluster sunt evidente pentru rezolvarea, să zicem, a problemelor de identificare a grupurilor de întreprinderi care funcționează în condiții similare sau cu rezultate similare, a grupurilor omogene de populație în diverse aspecte ale vieții sau stilului de viață în general etc.

Ca direcție științifică, analiza cluster s-a declarat la mijlocul anilor '60 și de atunci se dezvoltă rapid, fiind una dintre ramurile celei mai intense creșteri a științei statistice. Este suficient să spunem că doar numărul de monografii privind analiza cluster publicate până în prezent în diferite țări este măsurat în sute (în timp ce, să zicem, conform unei astfel de metode „meritate” de analiză statistică multivariată precum analiza factorilor, cu greu se pot număra câteva zeci de cărți). Și acest lucru este destul de de înțeles. La urma urmei, vorbim de fapt despre modelarea operațiunii de grupare, una dintre cele mai importante nu numai în statistică, ci în general - atât în ​​cogniție, cât și în luarea deciziilor.

În țara noastră au fost publicate o serie de monografii dedicate studiului problemelor socio-economice specifice folosind analiza cluster (1), metodologia de utilizare a analizei cluster în cercetarea socio-economică (2), metodologia analizei cluster ca atare ( 3) (Fundamentele analizei statistice)

Cartea propusă de I.D.Mandel este, parcă, perpendiculară pe această clasificare: conținutul ei este asociat cu fiecare dintre aceste trei domenii.

Scopul cărții este de a rezuma de ultimă oră analiza clusterului, analizează posibilitățile de utilizare a acestuia și sarcinile de dezvoltare ulterioară. Această idee în sine nu poate decât să trezească respect: o analiză imparțială și o generalizare necesită multă muncă, erudiție, curaj și sunt evaluate de comunitatea științifică mult mai puțin decât promovarea și dezvoltarea propriilor proiecte. (Cu toate acestea, cartea conține și dezvoltările originale ale autorului legate de analiza „intensională” și dualitatea clasificărilor.)

Atât avantajele cărții, cât și deficiențele ei sunt legate de realizarea acestui obiectiv. Avantajele ar trebui să includă:

· studiul metodologic al conceptelor de omogenitate, grupare și clasificare, ținând cont de multidimensionalitatea fenomenelor și proceselor;

· o revizuire sistematică a abordărilor și metodelor de analiză a clusterelor (inclusiv până la 150 de algoritmi specifici);

· prezentarea tehnologiei și a rezultatelor comparației experimentale a procedurilor de analiză a clusterelor; Această carte este dedicată doar uneia dintre cele mai promițătoare abordări ale analizei proceselor și fenomenelor multidimensionale în acest sens - analiza clusterului.

Analiza clusterelor este o modalitate de grupare a obiectelor multidimensionale, bazată pe prezentarea rezultatelor observațiilor individuale pe puncte ale unui spațiu geometric adecvat, urmată de selectarea grupurilor ca „clumps” ale acestor puncte. De fapt, „cluster” (cluster) în engleză înseamnă „cheag”, „bunch (de struguri)”, „cluster (de stele)”, etc. Acest termen se potrivește neobișnuit de bine în terminologia științifică, deoarece prima sa silabă corespunde tradiționalului termenul „clasă”, iar al doilea, așa cum spune, indică originea sa artificială. Nu avem nicio îndoială că terminologia analizei cluster va înlocui toate constructele utilizate anterior în acest scop (recunoaștere nesupravegheată a modelelor, stratificare, taxonomie, clasificare automată etc.). Posibilitățile potențiale ale analizei cluster sunt evidente pentru rezolvarea, să zicem, a problemelor de identificare a grupurilor de întreprinderi care funcționează în condiții similare sau cu rezultate similare, a grupurilor omogene de populație în diverse aspecte ale vieții sau stilului de viață în general etc.

Ca direcție științifică, analiza cluster s-a declarat la mijlocul anilor '60 și de atunci se dezvoltă rapid, fiind una dintre ramurile celei mai intense creșteri a științei statistice. Este suficient să spunem că doar o serie de monografii privind analiza cluster, dezvoltarea scheme generale utilizarea metodelor de analiză a clusterelor implementate în tabele destul de ilustrative; caracterul de recomandare al prezentării.

Aceste avantaje determină locul independent al cărții lui I. D. Mandel printre alte publicații.

Neajunsurile cărții sunt ambiguitatea unor recomandări și lipsa unei analize sistematice a problemelor utilizării metodelor de analiză a clusterelor în aplicațiile socio-economice ale subiectului. Adevărat, aceasta din urmă se datorează utilizării insuficiente a analizei cluster în acest domeniu.

Cartea oferă o rampă de lansare, a cărei utilizare facilitează progresul în cea mai dificilă problemă a oricărei teorii - utilizarea practică a instrumentelor pe care le oferă.

B. G. Mirkin

Temele de cercetare variază de la analiza morfologiei rozătoarelor mumificate din Noua Guinee până la studiul rezultatelor votului senatorilor americani, de la analiza funcțiilor comportamentale ale gândacilor înghețați atunci când sunt dezghețați, până la studiul distribuției geografice. a anumitor tipuri de lichen din Saskatchewan.

Această explozie de publicații a avut un impact uriaș asupra dezvoltării și aplicării analizei cluster. Dar, din păcate, există și părți negative. Creșterea rapidă a publicațiilor privind analiza clusterului a dus la formarea unor grupări de utilizatori și, în consecință, la crearea unui jargon folosit doar de grupările care au creat-o (Blashfield și Aldenderfer, 1978; Blashfield, 1980).

Despre formarea jargonului de către specialiștii în domeniu Stiinte Sociale evidenţiată, de exemplu, de terminologia variată referitoare la metoda lui Ward. „Metoda Ward” este numită diferit în literatură. Sunt cunoscute cel puțin încă patru dintre numele sale: „metoda variației minime”, „metoda sumei erorii pătrate”, „minimizarea grupării ierarhice” și „HGROUP”. Primele două denumiri se referă pur și simplu la criteriul al cărui optim este determinat de metoda lui Ward, în timp ce al treilea este legat de suma erorilor pătrate, care este o transformare monotonă a urmei matricei W, matricea de covarianță intragrup. În cele din urmă, numele pe scară largă „HGROUP” este numele unui popular program de calculator, care implementează metoda Ward (Veldman, 1967).

Formarea jargonului împiedică dezvoltarea conexiunilor interdisciplinare, împiedică comparație eficientă metodologia și rezultatele aplicării analizei cluster în diverse domenii ale științei, conduce la efort inutil (reinventarea acelorași algoritmi) și, în cele din urmă, nu oferă noilor utilizatori o înțelegere profundă a metodelor pe care le-au ales (Blashfield și aldenderfer, 1978). ). De exemplu, un studiu de științe sociale (Rogers și Linden, 1973) a comparat trei metode diferite de grupare folosind aceleași date. Ei au numit aceste metode după cum urmează: „grupare ierarhică”, „grupare ierarhică sau HCG” și „analiza cluster”. Și niciunul dintre aceste nume nu era familiar metodelor de grupare. Un utilizator începător al programelor de analiză a clusterelor va fi derutat de toate numele existente și nu le va putea asocia cu alte descrieri ale metodelor de clustering. Utilizatorii experimentați se vor găsi într-o poziție dificilă atunci când își compară cercetările cu lucrări similare. S-ar putea să ajungem la extreme, dar jargonul este o problemă serioasă.

În ultimii ani, dezvoltarea analizei cluster a încetinit oarecum, judecând după numărul de publicații și numărul de discipline în care se aplică această metodă. Putem spune că în prezent psihologie, sociologie, biologie, statistică și ceva discipline tehnice intră în etapa de consolidare în raport cu analiza clusterului.

Numărul de articole care laudă virtuțile analizei cluster scade treptat. În același timp, există din ce în ce mai multe lucrări în care aplicabilitatea diferitelor metode de grupare este comparată pe datele de control. În literatură, s-a acordat mai multă atenție aplicațiilor. Multe studii au ca scop dezvoltarea unor măsuri practice de testare a validității rezultatelor obținute cu ajutorul analizei cluster. Toate acestea mărturisesc încercări serioase de a crea o teorie statistică rezonabilă a metodelor de clustering.


CLOPOTUL

Sunt cei care citesc aceasta stire inaintea ta.
Abonați-vă pentru a primi cele mai recente articole.
E-mail
Nume
Nume de familie
Cum ți-ar plăcea să citești Clopoțelul
Fără spam