KOMBANA

Ka nga ata që e lexojnë këtë lajm para jush.
Regjistrohu për të marrë artikujt më të fundit.
Email
Emri
Mbiemri
Si do të dëshironit të lexoni Këmbanën
Nuk ka spam

Dërgoni punën tuaj të mirë në bazën e njohurive është e thjeshtë. Përdorni formularin e mëposhtëm

Studentët, studentët e diplomuar, shkencëtarët e rinj që përdorin bazën e njohurive në studimet dhe punën e tyre do t'ju jenë shumë mirënjohës.

Prezantimi

1. Historia e "analizës së grupimeve"

2.Terminologjia

2.1 Objekti dhe veçori

2.2 Distanca midis objekteve (metrike)

2.3 Dendësia dhe lokaliteti i grupimeve

2.4 Distanca ndërmjet grupimeve

3. Metodat e grupimit

3.1 Veçoritë e metodave aglomerative hierarkike

3.2 Veçoritë e metodave të grupimit iterativ

4. Grumbullimi i veçorive

5. Stabiliteti dhe cilësia e grumbullimit

Bibliografi

PREZANTIMI

"Analiza e grupeve është një grup metodash matematikore të krijuara për të formuar relativisht "të largëta" nga njëri-tjetri grupe objektesh "të afërta" sipas informacionit për distancat ose lidhjet (matjet e afërsisë) ndërmjet tyre. Është i ngjashëm në kuptim me termat: automatik klasifikimi, taksonomia, njohja e modelit pa mësues." Ky përkufizim i analizës së grupimeve është dhënë në edicionin e fundit të Fjalorit Statistikor. Në fakt, "analiza e grupimeve" është një emër i përgjithësuar për një grup mjaft të madh algoritmesh të përdorura për të krijuar një klasifikim. Një numër publikimesh përdorin gjithashtu sinonime të tilla për analizën e grupimeve si klasifikimi dhe ndarja. Analiza e grupeve përdoret gjerësisht në shkencë si një mjet i analizës tipologjike. Në çdo veprimtari shkencore, klasifikimi është një nga komponentët themelorë, pa të cilin është e pamundur të ndërtohen dhe të testohen hipoteza dhe teori shkencore. Kështu, në punën time e konsideroj të nevojshme të shqyrtoj çështjet e analizës së grupimeve (baza e analizës së grupimeve), si dhe të shqyrtoj terminologjinë e saj dhe të jap disa shembuj të përdorimit të kësaj metode me përpunimin e të dhënave si qëllim kryesor.

1. HISTORIA E "ANALIZËS SË KLASTERIT"

Një analizë e botimeve vendase dhe të huaja tregon se analiza e grupimeve përdoret në një gamë të gjerë fushash shkencore: kimi, biologji, mjekësi, arkeologji, histori, gjeografi, ekonomi, filologji, etj. Libri i VV Nalimov "Modeli probabilistik i gjuhës" përshkruan përdorimin e analizës së grupimeve në studimin e 70 mostrave analitike. Shumica e literaturës mbi analizën e grupimeve është shfaqur gjatë tre dekadave të fundit, megjithëse punimet e para që përmendën metodat e grupimeve u shfaqën shumë kohë më parë. Antropologu polak K. Chekanowski parashtroi idenë e "klasifikimit strukturor", i cili përmbante idenë kryesore të analizës së grupimeve - ndarjen e grupeve kompakte të objekteve.

Në vitin 1925, hidrobiologu sovjetik P.V. Terentyev zhvilloi të ashtuquajturën "metodë e plejadave të korrelacionit", e destinuar për grupimin e veçorive të ndërlidhura. Kjo metodë i dha shtysë zhvillimit të metodave të grupimit duke përdorur grafikët. Termi "analizë grupore" u propozua për herë të parë nga Trion. Fjala "grup" është përkthyer nga anglishtja si "tufë, furçë, bandë, grup". Për këtë arsye, kjo lloj analize fillimisht u quajt "analizë grupore". Në fillim të viteve 1950, botimet nga R. Lewis, E. Fix dhe J. Hodges u shfaqën në algoritmet e analizës së grupimeve hierarkike. Një shtysë të dukshme në zhvillimin e punës për analizën e grupimeve i dha puna e R. Rosenblatt për pajisjen e njohjes (perceptron), e cila hodhi themelet për zhvillimin e teorisë së "njohjes së modelit pa mësues".

Shtysa për zhvillimin e metodave të grupimit ishte libri "Parimet e Taksonomisë Numerike", botuar në 1963. dy biologë - Robert Sokal dhe Peter Sneath. Autorët e këtij libri u nisën nga fakti se për të krijuar klasifikime biologjike efektive, procedura e grumbullimit duhet të sigurojë përdorimin e treguesve të ndryshëm që karakterizojnë organizmat në studim, të vlerësojë shkallën e ngjashmërisë midis këtyre organizmave dhe të sigurojë vendosjen e organizmave të ngjashëm. në të njëjtin grup. Në këtë rast, grupet e formuara duhet të jenë mjaftueshëm "lokale", d.m.th. ngjashmëria e objekteve (organizmave) brenda grupeve duhet të tejkalojë ngjashmërinë e grupeve ndërmjet tyre. Analiza e mëvonshme e grupeve të identifikuara, sipas mendimit të autorëve, mund të sqarojë nëse këto grupe korrespondojnë me specie të ndryshme biologjike. Kështu, Sokal dhe Sneath supozuan se zbulimi i strukturës së shpërndarjes së objekteve në grupe ndihmon në vendosjen e procesit të formimit të këtyre strukturave. Dhe ndryshimi dhe ngjashmëria e organizmave të grupimeve (grupeve) të ndryshme mund të shërbejë si bazë për të kuptuar procesin e vazhdueshëm evolucionar dhe për të sqaruar mekanizmin e tij.

Në të njëjtat vite, shumë algoritme u propozuan nga autorë të tillë si J. McKean, G. Ball dhe D. Hall duke përdorur metodat k-means; G. Lance dhe W. Williams, N. Jardine dhe të tjerë - mbi metodat hierarkike. Një kontribut i rëndësishëm në zhvillimin e metodave të analizës së grupimeve u dha nga shkencëtarët vendas - E.M. Braverman, A.A. Dorofeyuk, I.B. Muchnik, L.A. Rastrigin, Yu.I. Në veçanti, në vitet 60-70. Algoritme të shumta të zhvilluara nga matematikanët e Novosibirsk N.G. Zagoruiko, V.N. Elkina dhe G.S. Lbov gëzonin popullaritet të madh. Këta janë algoritme të tillë të njohur si FOREL, BIGFOR, KRAB, NTTP, DRET, TRF etj. Në bazë të këtyre paketave u krijua një paketë e specializuar softuerike OTEX. Jo më pak interesante produkte softuerike PPSA dhe Klass-Master u krijuan nga matematikanët e Moskës S.A. Aivazyan, I.S. Enyukov dhe B.G. Mirkin.

Në një farë mase, metodat e analizës së grupimeve janë të disponueshme në shumicën e paketave statistikore më të njohura vendase dhe të huaja: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS, etj. Natyrisht, 10 vjet pas publikimit të këtij rishikimi, shumë gjëra kanë ndryshuar, janë shfaqur versione të reja të shumë programeve statistikore dhe janë shfaqur programe krejtësisht të reja që përdorin algoritme të reja dhe fuqi të rritur shumë. Shkenca Kompjuterike. Megjithatë, shumica e paketave statistikore përdorin algoritme të propozuara dhe të zhvilluara në vitet 60-70.

Sipas vlerësimeve të përafërta të ekspertëve, numri i publikimeve mbi analizën e grupimeve dhe aplikimet e saj në fusha të ndryshme të dijes dyfishohet çdo tre vjet. Cilat janë arsyet e një interesi kaq të stuhishëm për këtë lloj analize? Objektivisht, ekzistojnë tre arsye kryesore për këtë fenomen. Kjo është shfaqja e teknologjisë së fuqishme informatike, pa të cilën analiza grupore e të dhënave reale është praktikisht e pamundur. Arsyeja e dytë është se shkenca moderne bazohet gjithnjë e më shumë në klasifikimin në ndërtimet e saj. Për më tepër, ky proces po thellohet gjithnjë e më shumë, pasi paralelisht me këtë ka një specializim në rritje të njohurive, gjë që është e pamundur pa një klasifikim mjaft objektiv.

Arsyeja e tretë - thellimi i njohurive të veçanta çon në mënyrë të pashmangshme në një rritje të numrit të variablave që merren parasysh në analizën e objekteve dhe fenomeneve të caktuara. Si rezultat, klasifikimi subjektiv, i cili më parë mbështetej në një numër mjaft të vogël karakteristikash të marra parasysh, shpesh rezulton të jetë jo i besueshëm. Dhe klasifikimi objektiv, me një grup karakteristikash objektesh gjithnjë në rritje, kërkon përdorimin e algoritmeve komplekse të grupimit që mund të zbatohen vetëm në bazë të kompjuterëve modernë. Ishin këto arsye që shkaktuan "bumin e grupimeve". Megjithatë, midis mjekëve dhe biologëve, analiza e grupimeve nuk është bërë ende një metodë mjaft e popullarizuar dhe e zakonshme kërkimore.

2 TERMINOLOGJIA

2. 1 OBJEKT DHE SHENJË

Le të paraqesim së pari koncepte të tilla si objekt dhe atribut. Objekt - nga latinishtja objectum - subjekt. Në lidhje me kiminë dhe biologjinë, me objekte do të nënkuptojmë lëndë specifike të kërkimit që studiohen duke përdorur metoda fizike, kimike dhe të tjera. Objekte të tilla mund të jenë, për shembull, mostra, bimë, kafshë, etj. Një grup i caktuar objektesh në dispozicion të studiuesit për studim quhet kampion, ose grup mostër. Numri i objekteve në një popullatë të tillë zakonisht quhet madhësia e mostrës. Në mënyrë tipike, madhësia e mostrës shënohet me shkronjën latine "n" ose "N".

Shenja (sinonimet - veti, ndryshore, karakteristikë; anglisht - ndryshore - variabël.) - është një veti specifike e objektit. Këto veti mund të shprehen si vlera numerike ose jo numerike. Për shembull, presioni i gjakut (sistolik ose diastolik) matet në milimetra merkur, pesha në kilogramë, lartësia në centimetra, etj. Shenja të tilla janë sasiore. Ndryshe nga këto karakteristika të vazhdueshme numerike (shkallë), një numër karakteristikash mund të kenë vlera diskrete, të ndërprera. Nga ana tjetër, tipare të tilla diskrete zakonisht ndahen në dy grupe.

1) Grupi i parë janë variablat e renditjes, ose siç quhen edhe variablat rendorë (shkallët). Shenja të tilla karakterizohen nga vetia e renditjes së këtyre vlerave. Këto përfshijnë fazat e një sëmundjeje të caktuar, grupmoshat, rezultatet e njohurive të studentëve, shkallën 12-pikëshe të tërmetit Rihter, etj.

2) Grupi i dytë i veçorive diskrete nuk ka një renditje të tillë dhe quhet tipare nominale (nga fjala "emërore" - mostër) ose tipare klasifikimi. Një shembull i shenjave të tilla mund të jetë gjendja e pacientit - "i shëndetshëm" ose "i sëmurë", gjinia e pacientit, periudha e vëzhgimit - "para trajtimit" dhe "pas trajtimit", etj. Në këto raste, është zakon të thuhet se tipare të tilla i përkasin shkallës së emrave.

Konceptet e një objekti dhe një veçorie quhen zakonisht matrica "objekt-veti" ose "objekt-tipar". Matrica do të jetë një tabelë drejtkëndëshe e përbërë nga vlerat e veçorive që përshkruajnë vetitë e mostrës së vëzhgimeve në studim. Në këtë kontekst, një vëzhgim do të regjistrohet si një linjë e veçantë që përbëhet nga vlerat e veçorive të përdorura. Një atribut i veçantë në një matricë të tillë të dhënash do të përfaqësohet nga një kolonë që përbëhet nga vlerat e këtij atributi për të gjitha objektet në mostër.

2. 2 DISTANCË MIDIS OBJEKTEVE (METRIK)

Le të prezantojmë konceptin e "distanca midis objekteve". Ky koncept është një masë integrale e ngjashmërisë së objekteve me njëri-tjetrin. Distanca midis objekteve në hapësirën e veçorive është një vlerë e tillë d ij që plotëson aksiomat e mëposhtme:

1. d ij > 0 (mosnegativiteti i distancës)

2. d ij = d ji (simetri)

3. d ij + d jk > d ik (pabarazi trekëndëshi)

4. Nëse d ij nuk është i barabartë me 0, atëherë i nuk është i barabartë me j (dallueshmëria e objekteve jo identike)

5. Nëse d ij = 0, atëherë i = j (padallueshmëria e objekteve identike)

Është i përshtatshëm për të paraqitur masën e afërsisë (ngjashmërisë) të objekteve si reciproke në distancën ndërmjet objekteve. Publikime të shumta kushtuar analizës së grupimeve përshkruajnë më shumë se 50 mënyra të ndryshme për të llogaritur distancën midis objekteve. Përveç termit "distanca", një term tjetër shpesh gjendet në literaturë - "metrik", që nënkupton një metodë për llogaritjen e një distance të caktuar. Më e arritshme për perceptim dhe kuptim në rastin e veçorive sasiore është e ashtuquajtura "distanca euklidiane" ose "metrika euklidiane". Formula për llogaritjen e kësaj distance është:

Kjo formulë përdor shënimin e mëposhtëm:

· d ij - distanca ndërmjet objekteve i-të dhe j-të;

· x ik - vlera numerike e ndryshores k-të për objektin i-të;

· x jk - vlera numerike e ndryshores k-të për objektin j-të;

· v - numri i variablave që përshkruajnë objektet.

Kështu, për rastin v=2, kur kemi vetëm dy shenja sasiore, distanca d ij do të jetë e barabartë me gjatësinë e hipotenuzës së një trekëndëshi kënddrejtë, i cili lidh dy pika në një sistem koordinativ drejtkëndor. Këto dy pika do të korrespondojnë me vëzhgimet e i-të dhe j-të të kampionit. Shpesh, në vend të distancës së zakonshme Euklidiane, përdoret katrori i saj d 2 ij. Përveç kësaj, në disa raste, përdoret një distancë Euklidiane "e ponderuar", në llogaritjen e së cilës përdoren koeficientët e peshës për terma individualë. Për të ilustruar konceptin e metrikës Euklidiane, ne përdorim një shembull të thjeshtë trajnimi. Matrica e të dhënave e paraqitur në tabelën e mëposhtme përbëhet nga 5 vëzhgime dhe dy variabla.

Tabela 1

Matrica e të dhënave prej pesë mostrave të vëzhguara dhe dy variablave.

Duke përdorur metrikën Euklidiane, ne llogarisim matricën e distancave të ndërobjekteve, e përbërë nga vlerat d ij - distanca midis objekteve i-të dhe j-të. Në rastin tonë, i dhe j janë numri i objektit, vëzhgimi. Meqenëse madhësia e mostrës është 5, respektivisht i dhe j mund të marrin vlera nga 1 në 5. Është gjithashtu e qartë se numri i të gjitha distancave të mundshme në çift do të jetë 5*5=25. Në të vërtetë, për objektin e parë këto do të jenë distancat e mëposhtme: 1-1; 1-2; 1-3; 1-4; 1-5. Për objektin 2 do të ketë edhe 5 distanca të mundshme: 2-1; 2-2; 2-3; 2-4; 2-5 etj. Megjithatë, numri distanca të ndryshme do të jetë më pak se 25, pasi është e nevojshme të merret parasysh vetia e padallueshmërisë së objekteve identike - d ij = 0 për i = j. Kjo do të thotë se distanca midis objektit #1 dhe të njëjtit objekt #1 do të jetë zero. Të njëjtat distanca zero do të jenë për të gjitha rastet e tjera i = j. Përveç kësaj, nga vetia e simetrisë rrjedh se d ij = d ji për çdo i dhe j. ato. distanca midis objekteve #1 dhe #2 është e barabartë me distancën midis objekteve #2 dhe #1.

Shprehja për distancën Euklidiane është shumë e ngjashme me të ashtuquajturën distancë të gjeneralizuar të fuqisë Minkowski, në të cilën përdoret një vlerë tjetër në vend të dy në fuqi. Në rastin e përgjithshëm, kjo vlerë shënohet me simbolin "p".

Për p = 2 marrim distancën e zakonshme Euklidiane. Pra, shprehja për metrikën e përgjithësuar Minkowski ka formën:

Zgjedhja e një vlere specifike të eksponentit "p" bëhet nga vetë studiuesi.

Një rast i veçantë i distancës Minkowski është e ashtuquajtura distanca e Manhatanit, ose "distanca qytet-blloku", që korrespondon me p=1:

Kështu, distanca e Manhatanit është shuma e moduleve të dallimeve të veçorive përkatëse të objekteve. Duke e lënë p të priret në pafundësi, marrim metrikën "dominuese" ose Sup-metrikën:

që mund të paraqitet edhe si d ij = max| x ik - x jk |.

Metrika Minkowski është në fakt një familje e madhe metrikash, duke përfshirë metrikat më të njohura. Sidoqoftë, ekzistojnë metoda për llogaritjen e distancës midis objekteve që janë thelbësisht të ndryshme nga metrikat e Minkowski. Më e rëndësishmja prej tyre është e ashtuquajtura distancë Mahalanobis, e cila ka veti mjaft specifike. Shprehje për këtë metrikë:

Këtu përmes X i dhe X j Tregohen vektorët e kolonave të vlerave të ndryshueshme për objektet i-të dhe j-të. Simboli T në shprehje (X i - X j ) T tregon të ashtuquajturin veprim të transpozimit të vektorit. Simboli S tregohet matrica e zakonshme e variancës-kovariancës brenda grupit. Një simbol -1 sipër S do të thotë që ju duhet të përmbysni matricën S . Ndryshe nga metrika Minkowski dhe metrika Euklidiane, distanca Mahalanobis përmes matricës variancë-kovariancë S lidhur me korrelacionet e variablave. Kur korrelacionet midis variablave janë zero, distanca Mahalanobis është e barabartë me katrorin e distancës Euklidiane.

Në rastin e përdorimit të veçorive cilësore dikotomike (që kanë vetëm dy vlera), distanca Hamming përdoret gjerësisht.

e barabartë me numrin e mospërputhjeve në vlerat e tipareve përkatëse për objektet e konsideruara i-të dhe j-të.

2. 3 DENSITETI DHE LOKALITETI I GRUPIT

Qëllimi kryesor i analizës së grupimeve është gjetja e grupeve të objekteve të ngjashme me njëri-tjetrin në kampion. Le të supozojmë se me disa nga metodat e mundshme kemi marrë grupe të tilla - grupime. Duhet të theksohen vetitë e rëndësishme të grupimeve. Një nga këto veti është dendësia e shpërndarjes së pikave, vëzhgimeve brenda një grupi. Kjo veti na lejon të përcaktojmë një grup si një grup pikash në një hapësirë ​​shumëdimensionale që është relativisht e dendur në krahasim me rajonet e tjera të kësaj hapësire që ose nuk përmbajnë fare pika ose përmbajnë një numër të vogël vëzhgimesh. Me fjalë të tjera, sa kompakt është ky grup, ose anasjelltas, sa i rrallë është. Megjithë dëshmitë e mjaftueshme të kësaj prone, nuk ka asnjë mënyrë të qartë për të llogaritur një tregues të tillë (densitet). Treguesi më i suksesshëm që karakterizon kompaktësinë, dendësinë e "paketimit" të vëzhgimeve shumëdimensionale në një grup të caktuar, është shpërndarja e distancës nga qendra e grupit në pikat individuale të grupit. Sa më i vogël të jetë shpërndarja e kësaj distance, aq më afër qendrës së grupit janë vëzhgimet, aq më i madh është dendësia e grupit. Dhe anasjelltas, sa më i madh të jetë shpërndarja e distancës, aq më i rrallë është ky grup dhe, për rrjedhojë, ka pika të vendosura si afër qendrës së grupit, ashtu edhe mjaft të largëta nga qendra e grupimit.

Vetia tjetër e grupimeve është madhësia e tyre. Treguesi kryesor i madhësisë së një grupi është "rrezja" e tij. Kjo veti pasqyron më plotësisht madhësinë aktuale të grupimit nëse grupi i konsideruar është i rrumbullakët dhe hipersferë në hapësirën shumëdimensionale. Megjithatë, nëse grupimet kanë forma të zgjatura, atëherë koncepti i rrezes ose diametrit nuk pasqyron më madhësinë e vërtetë të grupimit.

Një pronë tjetër e rëndësishme e një grupi është lokaliteti i tyre, ndashmëria. Karakterizon shkallën e mbivendosjes dhe largësisë së ndërsjellë të grupimeve nga njëri-tjetri në një hapësirë ​​shumëdimensionale. Për shembull, merrni parasysh shpërndarjen e tre grupimeve në hapësirën e veçorive të reja, të integruara në figurën më poshtë. Akset 1 dhe 2 janë marrë me një metodë të veçantë nga 12 veçori të vetive reflektuese të formave të ndryshme të eritrociteve, të studiuara duke përdorur mikroskopin elektronik.

Foto 1

Shohim që grupi 1 ka madhësinë minimale, ndërsa grupet 2 dhe 3 kanë madhësi afërsisht të barabarta. Në të njëjtën kohë, mund të themi se dendësia minimale, dhe rrjedhimisht shpërndarja maksimale e distancës, është karakteristikë e grupit 3. Përveç kësaj, grupi 1 ndahet nga seksione mjaft të mëdha të hapësirës boshe si nga grupi 2 ashtu edhe nga grupi 3. Ndërsa grupimet 2 dhe 3 mbivendosen pjesërisht me njëra-tjetrën. Me interes është fakti që grupi 1 ka një ndryshim shumë më të madh nga grupimet e 2-të dhe të 3-të përgjatë boshtit 1 sesa përgjatë boshtit 2. Përkundrazi, grupimet 2 dhe 3 ndryshojnë afërsisht në mënyrë të barabartë nga njëri-tjetri si përgjatë boshtit 1 ashtu edhe përgjatë boshtit 2. Natyrisht, për një analizë të tillë vizuale, është e nevojshme që të gjitha vëzhgimet e kampionit të projektohen në akse të veçanta, në të cilat projeksionet e elementeve të grupimit do të jenë të dukshme si grupime të veçanta.

2. 4 DISTANCË MES GRUPET

Në një kuptim më të gjerë, objektet mund të kuptohen jo vetëm si subjekte origjinale të kërkimit, të paraqitura në matricën "objekt-veti" si një vijë më vete, ose si pika individuale në një hapësirë ​​tiparesh shumëdimensionale, por edhe si grupe të veçanta pikash të tilla. , të bashkuar nga një algoritëm ose një tjetër në një grup. Në këtë rast, lind pyetja se si të kuptohet distanca midis grumbullimeve të tilla të pikave (grupeve) dhe si të llogaritet ajo. Në këtë rast, shumëllojshmëria e mundësive është edhe më e madhe se në rastin e llogaritjes së distancës ndërmjet dy vëzhgimeve në një hapësirë ​​shumëdimensionale. Kjo procedurë është e ndërlikuar nga fakti se, ndryshe nga pikat, grupimet zënë një hapësirë ​​të caktuar shumëdimensionale dhe përbëhen nga shumë pika. Në analizën e grupimeve, distancat ndër-grupore përdoren gjerësisht, të llogaritura në parimin e fqinjit më të afërt (fqinjës më të afërt), qendrës së gravitetit, fqinjit më të largët, medianave. Katër metoda përdoren më gjerësisht: një lidhje, lidhje e plotë, lidhja mesatare dhe metoda e Ward. Në metodën e lidhjes së vetme, një objekt do t'i bashkëngjitet një grupi ekzistues nëse të paktën një nga elementët e grupit ka të njëjtin nivel ngjashmërie me objektin që bashkohet. Për metodën e lidhjeve të plota, një objekt i bashkëngjitet një grupi vetëm nëse ngjashmëria midis kandidatit për përfshirje dhe ndonjë prej elementeve të grupit nuk është më pak se një prag i caktuar. Për metodën mesatare të lidhjes, ka disa modifikime, të cilat janë disa kompromise midis lidhjes së vetme dhe të plotë. Ata llogaritin vlerën mesatare të ngjashmërisë së kandidatit për përfshirje me të gjitha objektet e grupit ekzistues. Bashkëngjitja kryhet kur vlera mesatare e gjetur e ngjashmërisë arrin ose tejkalon një prag të caktuar. Më e përdorura është ngjashmëria mesatare aritmetike midis objekteve të grupimit dhe kandidatit për përfshirje në grup.

Shumë nga metodat e grupimit ndryshojnë nga njëra-tjetra në atë që algoritmet e tyre në çdo hap llogarisin funksione të ndryshme të cilësisë së ndarjes. Metoda popullore Ward është ndërtuar në mënyrë të tillë që të optimizojë variancën minimale të distancave brenda grupeve. Në hapin e parë, çdo grup përbëhet nga një objekt, për shkak të të cilit shpërndarja brenda grupit të distancave është e barabartë me 0. Me këtë metodë, kombinohen ato objekte që japin rritjen minimale të shpërndarjes, si rezultat i së cilës kjo metodë tenton të gjenerojnë grupime hipersferike.

Përpjekjet e shumta për të klasifikuar metodat e analizës së grupimeve çojnë në dhjetëra apo edhe qindra klasa të ndryshme. Një shumëllojshmëri e tillë gjenerohet nga një numër i madh mënyrash të mundshme për të llogaritur distancën midis vëzhgimeve individuale, jo më pak numër metodash për llogaritjen e distancës midis grupimeve individuale në procesin e grupimit dhe vlerësime të ndryshme të optimalitetit të strukturës përfundimtare të grupimit.

Më të përdorurat në paketat statistikore të njohura janë dy grupe algoritmesh të analizës së grupimeve: metodat aglomerative hierarkike dhe metodat e grupimit iterativ.

3. METODAT E GRUPIMIT

3. 1 TIPARET E METODAVE AGLOMERATIVE HIERARKIKE

Në algoritmet hierarkike aglomerative, të cilat përdoren më shpesh në kërkimet reale biomjekësore, fillimisht të gjitha objektet (vëzhgimet) konsiderohen si grupime të veçanta, të pavarura të përbëra nga vetëm një element. Pa përdorimin e teknologjisë së fuqishme kompjuterike, zbatimi i analizës së të dhënave të grupimit është shumë problematik.

Zgjedhja e metrikës bëhet nga studiuesi. Pas llogaritjes së matricës së distancës, procesi fillon aglomeracionet (nga latinishtja agglomero - bashkoj, grumbulloj), duke kaluar radhazi hap pas hapi. Në hapin e parë të këtij procesi, dy vëzhgime fillestare (monoklustera) me distancën më të vogël ndërmjet tyre kombinohen në një grup, i cili tashmë përbëhet nga dy objekte (vëzhgime). Kështu, në vend të monoklustereve të mëparshme N (grupe të përbëra nga një objekt), pas hapit të parë, do të ketë grupime N-1, nga të cilat një grup do të përmbajë dy objekte (vëzhgime), dhe grupet N-2 do të përbëhen akoma nga vetëm një objekt. Në hapin e dytë, metoda të ndryshme të kombinimit të grupimeve N-2 janë të mundshme. Kjo është për shkak se një nga këto grupime tashmë përmban dy objekte. Për këtë arsye, lindin dy pyetje kryesore:

· si të llogariten koordinatat e një grupi të tillë me dy (dhe më tej më shumë se dy) objekte;

· si të llogaritet distanca në grupe të tilla "poly-objekte" nga "monokluster" dhe midis grupeve "poly-object".

Në fund të fundit, këto pyetje përcaktojnë strukturën përfundimtare të grupimeve përfundimtare (struktura e grupimeve nënkupton përbërjen e grupimeve individuale dhe pozicionin e tyre relativ në një hapësirë ​​shumëdimensionale). Kombinimet e ndryshme të metrikave dhe metodave për llogaritjen e koordinatave dhe distancave të ndërsjella të grupimeve krijojnë shumëllojshmërinë e metodave të analizës së grupimeve. Në hapin e dytë, në varësi të metodave të zgjedhura për llogaritjen e koordinatave të një grupi të përbërë nga disa objekte dhe metodës për llogaritjen e distancave ndërkluster, është e mundur ose të rikombinohen dy vëzhgime të veçanta në një grup të ri, ose të bashkohet një i ri. vëzhgimi në një grup të përbërë nga dy objekte. Për lehtësi, shumica e programeve të metodave aglomerative-hierarkike në fund të punës mund të ofrojnë dy grafikë kryesorë për shikim. Grafiku i parë quhet dendrogram (nga greqishtja dendron - pemë), duke pasqyruar procesin e grumbullimit, bashkimin e vëzhgimeve individuale në një grup të vetëm përfundimtar. Le të japim një shembull të një dendrogrami me 5 vëzhgime në dy ndryshore.

Orari1

Boshti vertikal i një grafiku të tillë është boshti i distancës ndërkluster, dhe numrat e objekteve - rastet e përdorura në analizë - janë shënuar përgjatë boshtit horizontal. Nga ky dendrogram shihet se objektet nr. 1 dhe nr. 2 kombinohen fillimisht në një grup, pasi distanca ndërmjet tyre është më e vogla dhe e barabartë me 1. Ky bashkim shfaqet në grafik me një vijë horizontale që lidh segmentet vertikale. duke dalë nga pikat e shënuara si C_1 dhe C_2. Le t'i kushtojmë vëmendje faktit që vetë vija horizontale kalon pikërisht në nivelin e distancës ndërgrupore të barabartë me 1. Më tej, në hapin e dytë, objekti nr.3, i caktuar si C_3, bashkohet me këtë grupim, i cili tashmë përfshin dy objekte. Hapi tjetër është bashkimi i objekteve #4 dhe #5, distanca ndërmjet të cilave është e barabartë me 1.41. Dhe në hapin e fundit, grupi i objekteve 1, 2 dhe 3 kombinohet me grupin e objekteve 4 dhe 5. Grafiku tregon se distanca midis këtyre dy grupimeve të parafundit (grupi i fundit përfshin të 5 objektet) është më i madh se 5. , por më pak se 6, pasi vija e sipërme horizontale që lidh dy grupimet e parafundit kalon në një nivel afërsisht të barabartë me 7, dhe niveli i lidhjes së objekteve 4 dhe 5 është 1.41.

Dendrogrami më poshtë është marrë duke analizuar një grup të dhënash reale të përbërë nga 70 të përpunuara mostrat kimike, secila prej të cilave karakterizohej nga 12 veçori.

Grafiku 2

Nga grafiku shihet se në hapin e fundit, kur bashkohen dy grupimet e fundit, distanca ndërmjet tyre është rreth 200 njësi. Mund të shihet se grupi i parë përfshin shumë më pak objekte se grupi i dytë. Më poshtë është një seksion i zmadhuar i dendrogramit në të cilin shihen qartë numrat e vëzhgimit, të shënuar si C_65, C_58, etj. (nga e majta në të djathtë): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94, etj.

Grafiku 3 Pjesa e zgjeruar e grafikut #2 më sipër

Mund të shihet se objekti 44 është një monokluster që kombinohet me grupin e djathtë në hapin e parafundit, dhe më pas, në hapin e fundit, të gjitha vëzhgimet kombinohen në një grup.

Një grafik tjetër që ndërtohet në procedura të tilla është një grafik i distancave ndërkluster në çdo hap të bashkimit. Më poshtë është një grafik i ngjashëm për dendrogramin e mësipërm.

Grafiku 4

Në një numër programesh, është e mundur të shfaqen në formë tabelare rezultatet e kombinimit të objekteve në çdo hap të grupimit. Në shumicën e këtyre tabelave, për të shmangur konfuzionin, përdoret terminologji e ndryshme për të përcaktuar vëzhgimet fillestare - monoklusteret, dhe grupimet aktuale që përbëhen nga dy ose më shumë vëzhgime. Në paketat statistikore në gjuhën angleze, vëzhgimet fillestare (rreshtat e matricës së të dhënave) caktohen si "rast" - rast. Për të demonstruar varësinë e strukturës së grupimit nga zgjedhja e metrikës dhe zgjedhja e algoritmit të bashkimit të grupimeve, më poshtë paraqesim një dendrogram që korrespondon me algoritmin e plotë të lidhjes. Dhe këtu shohim se objekti #44 është bashkuar me pjesën tjetër të përzgjedhjes në hapin e fundit.

Grafiku 5

Tani le ta krahasojmë atë me një diagram tjetër të marrë duke përdorur metodën e lidhjes së vetme në të njëjtat të dhëna. Në kontrast me metodën e lidhjes së plotë, mund të shihet se kjo metodë gjeneron zinxhirë të gjatë të objekteve të lidhura në mënyrë sekuenciale me njëri-tjetrin. Megjithatë, në të tre rastet mund të themi se veçohen dy grupe kryesore.

Grafiku 6

Le t'i kushtojmë vëmendje edhe faktit që në të tre rastet objekti nr.44 bashkohet si monokluster, edhe pse në hapa të ndryshëm të procesit të grumbullimit. Përzgjedhja e monoklusterave të tillë është një mjet i mirë për zbulimin e vëzhgimeve anormale, të quajtura outliers. Le ta fshijmë këtë objekt “të dyshimtë” nr.44 dhe të bëjmë sërish grupimin. Ne marrim dendrogramin e mëposhtëm:

Grafiku 7

Mund të shihet se efekti "zinxhir" është ruajtur, si dhe ndarja në dy grupe lokale të vëzhgimeve.

3. 2 KARAKTERISTIKAT E METODAVE TË GRUPIMIT ITERATIV

Ndër metodat përsëritëse, metoda më e njohur është metoda k-means e McKean-it. Ndryshe nga metodat hierarkike, në shumicën e zbatimeve të kësaj metode, vetë përdoruesi duhet të specifikojë numrin e dëshiruar të grupimeve përfundimtare, i cili zakonisht shënohet si "k". Ashtu si në metodat e grupimit hierarkik, përdoruesi mund të zgjedhë një ose një lloj tjetër metrikë. Algoritme të ndryshme të metodës k-means ndryshojnë edhe në mënyrën e zgjedhjes së qendrave fillestare të grupimeve të dhëna. Në disa versione të metodës, vetë përdoruesi mund (ose duhet) të specifikojë pika të tilla fillestare, ose duke i zgjedhur ato nga vëzhgimet reale, ose duke specifikuar koordinatat e këtyre pikave për secilën prej variablave. Në zbatimet e tjera të kësaj metode, zgjedhja e një numri të caktuar k të pikave fillestare bëhet në mënyrë të rastësishme dhe këto pika fillestare (kokrrizat e grupimit) mund të rafinohen më pas në disa faza. Ekzistojnë 4 faza kryesore të metodave të tilla:

· të zgjedhë ose të caktojë k vëzhgime që do të jenë qendrat kryesore të grupimeve;

· nëse është e nevojshme, formohen grupime të ndërmjetme duke e caktuar çdo vëzhgim në qendrat më të afërta të grupimeve të specifikuara;

· Pas caktimit të të gjitha vëzhgimeve në grupime individuale, qendrat primare të grupimeve zëvendësohen me mesataret e grupimeve;

· përsëritja e mëparshme përsëritet derisa ndryshimet në koordinatat e qendrave të grupimeve të bëhen minimale.

Në disa versione të kësaj metode, përdoruesi mund të vendosë një vlerë numerike të kriterit, e cila interpretohet si distanca minimale për zgjedhjen e qendrave të reja të grupimeve. Vëzhgimi nuk do të konsiderohet si kandidat për qendër e re grupi, nëse distanca e tij nga qendra e zëvendësuar e grupit tejkalon numrin e specifikuar. Ky parametër quhet "radius" në disa programe. Përveç këtij parametri, është gjithashtu e mundur të vendoset numri maksimal i përsëritjeve ose të arrihet një numër i caktuar, zakonisht mjaft i vogël, me të cilin krahasohet ndryshimi i distancës për të gjitha qendrat e grupimeve. Ky cilësim zakonisht quhet "konvergjencë" sepse pasqyron konvergjencën e procesit të grupimit iterativ. Më poshtë po paraqesim disa nga rezultatet që janë marrë duke përdorur metodën k-means McKean ndaj të dhënave të mëparshme. Numri i grupeve të dëshiruara fillimisht u vendos në 3 dhe më pas në 2. Pjesa e parë e tyre përmban rezultatet e një faktori analiza e variancës, në të cilin numri i grupimit vepron si faktor grupimi. Kolona e parë është një listë me 12 variabla, e ndjekur nga shumat e katrorëve (SS) dhe shkallët e lirisë (df), më pas testi F Fisher dhe në kolonën e fundit niveli i rëndësisë "p" i arritur.

Tabela 2 McKean k-do të thotë të dhëna të zbatueshme për 70 mostra testuese.

Variablat

Siç shihet nga kjo tabelë, hipoteza zero për barazinë e mesatareve në të tre grupet hidhet poshtë. Më poshtë është një grafik i mesatareve të të gjitha variablave për grupe individuale. Të njëjtat mesatare të grupimit të variablave janë paraqitur më poshtë në formën e një tabele.

Tabela 3. Shqyrtim i detajuar i të dhënave në shembullin e tre grupimeve.

E ndryshueshme

Grupi #1

Grupi #2

Grupi #3

Grafiku 8

Analiza e vlerave mesatare të variablave për çdo grup na lejon të konkludojmë se, sipas veçorisë X1, grupet 1 dhe 3 kanë vlera të afërta, ndërsa grupi 2 ka një vlerë mesatare shumë më të ulët se në dy grupimet e tjera. Përkundrazi, sipas veçorisë X2, grupi i parë ka vlerën më të ulët, ndërsa grupi i dytë dhe i tretë kanë vlera mesatare më të larta dhe të afërta. Për tiparet X3-X12, vlerat mesatare në grupin 1 janë dukshëm më të larta se në grupet 2 dhe 3. Tabela e mëposhtme e analizës ANOVA të rezultateve të grupimit në dy grupe tregon gjithashtu nevojën për të hedhur poshtë hipotezën zero për barazinë. e mesatareve të grupit për pothuajse të 12 tiparet, me përjashtim të variablit X4, për të cilin niveli i rëndësisë së arritur rezultoi të ishte më shumë se 5%.

Tabela 4. Tabela e analizës së dispersionit të rezultateve të grumbullimit në dy grupime.

Variablat

Më poshtë është një grafik dhe tabelë e mjeteve të grupit për rastin e grumbullimit në dy grupime.

Tabela 5. Tabela për rastin e grumbullimit në dy grupime.

Variablat

Grupi #1

Grupi #2

Grafiku 9.

Në rastin kur studiuesi nuk është në gjendje të përcaktojë paraprakisht numrin më të mundshëm të grupimeve, ai detyrohet të përsërisë llogaritjet, duke vendosur një numër të ndryshëm, të ngjashëm me atë që u bë më sipër. Dhe pastaj, duke krahasuar rezultatet e marra me njëri-tjetrin, ndaloni në një nga opsionet më të pranueshme të grupimit.

4 . GRUZIMI I TIPAREVE

Përveç grumbullimit të vëzhgimeve individuale, ekzistojnë edhe algoritme të grupimit të veçorive. Një nga metodat e para të tilla është metoda e korrelacionit pleiades Terentiev P.V. Imazhet primitive të plejadave të tilla shpesh mund të gjenden në botimet biomjekësore në formën e një rrethi të pikëzuar me shigjeta që lidhin shenjat për të cilat autorët gjetën një korrelacion. Një numër programesh për grupimin e objekteve dhe veçorive kanë procedura të veçanta. Për shembull, në paketën SAS për grupimin e veçorive përdoret procedura VARCLUS (nga VARiable - variable dhe CLUSter - cluster), ndërsa analiza e klasterit e vëzhgimeve kryhet nga procedurat e tjera - FASTCLUS dhe CLUSTER. Ndërtimi i një dendrogrami në të dyja rastet kryhet duke përdorur procedurën TREE (pemë).

Në paketat e tjera statistikore, zgjedhja e elementeve për grupim - objekte ose veçori - bëhet në të njëjtin modul. Si një metrikë për grupimin e veçorive, shpesh përdoren shprehje që përfshijnë vlerën e koeficientëve të caktuar që pasqyrojnë forcën e marrëdhënies për një palë tipare. Në këtë rast, është shumë e përshtatshme që shenjat me forcë lidhjeje të barabartë me një (vartësi funksionale) të marrin distancën midis shenjave të barabartë me zero. Në të vërtetë, me një lidhje funksionale, vlera e një veçorie mund të llogarisë me saktësi vlerën e një veçori tjetër. Me një ulje të forcës së marrëdhënies midis shenjave, distanca rritet në përputhje me rrethanat. Më poshtë është një grafik që tregon një dendrogram të kombinimit të 12 veçorive që u përdorën më lart gjatë grumbullimit të 70 mostrave analitike.

Grafiku 10. Dendrogramiduke grumbulluar 12 veçori.

Siç shihet nga ky dendrogram, kemi të bëjmë me dy grupime lokale të veçorive: X1-X10 dhe X11-X12. Grupi i veçorive X1-X10 karakterizohet nga një vlerë mjaft e vogël e distancave ndërkluster, që nuk i kalon afërsisht 100 njësi. Këtu shohim edhe disa nëngrupe të brendshme të çiftëzuara: X1 dhe X2, X3 dhe X4, X6 dhe X7. Distanca midis veçorive të këtyre çifteve, e cila është shumë afër zeros, tregon marrëdhënien e tyre të fortë në çift. Ndërsa për çiftin X11 dhe X12 vlera e distancës ndërkluster është shumë më e madhe dhe është rreth 300 njësi. Së fundi, një distancë shumë e madhe midis grupimeve të majta (X1-X10) dhe djathtas (X11-X12), e barabartë me rreth 1150 njësi, tregon se marrëdhënia midis këtyre dy grupeve të veçorive është mjaft minimale.

5. STABILITETI DHE CILËSIA E GRUPIMIT

Natyrisht, do të ishte absurde të ngrihej pyetja se sa absolut është ky apo ai klasifikim i marrë me ndihmën e metodave të analizës së grupimeve. Kur ndryshohet metoda e grupimit, stabiliteti manifestohet në faktin se dy grupe janë mjaft të dukshme në dendrogramë.

Si një nga mënyrat e mundshme për të kontrolluar qëndrueshmërinë e rezultateve të analizës së grupimeve, mund të përdoret metoda e krahasimit të rezultateve të marra për algoritme të ndryshme të grupimit. Mënyra të tjera janë metoda e ashtuquajtur bootstrap e propozuar nga B. Efron në 1977, metodat "jackknife" dhe "sliding control". Mjeti më i thjeshtë për të kontrolluar qëndrueshmërinë e zgjidhjes së grupit mund të jetë ndarja e rastësishme e kampionit fillestar në dy pjesë afërsisht të barabarta, grumbullimi i të dyja pjesëve dhe më pas krahasimi i rezultateve. Një mënyrë që kërkon më shumë kohë përfshin përjashtimin vijues të objektit të parë në fillim dhe grumbullimin e objekteve të mbetura (N - 1). Më tej, kryerja në mënyrë sekuenciale e kësaj procedure me përjashtim të së dytës, të tretës, etj. objekteve, analizohet struktura e të gjitha N grupimeve të marra. Një tjetër algoritëm për kontrollin e stabilitetit përfshin riprodhimin e shumëfishtë, dyfishimin e mostrës origjinale të N objekteve, më pas kombinimin e të gjitha mostrave të dyfishuara në një kampion të madh (pseudo-popullata e përgjithshme) dhe nxjerrjen e rastësishme të një kampioni të ri të N objekteve prej tij. Pas kësaj, kjo mostër grumbullohet, më pas merret një kampion i ri i rastësishëm dhe kryhet përsëri grupimi, etj. Është gjithashtu mjaft punë intensive.

Nuk ka më pak probleme kur vlerësohet cilësia e grupimit. Janë të njohura mjaft algoritme për optimizimin e zgjidhjeve të grupimeve. Punimet e para që përmbanin formulime të kriterit për minimizimin e variancës brenda grupit dhe një algoritëm (të tipit k-means) për gjetjen e zgjidhjes optimale u shfaqën në vitet '50. Në vitin 1963 Artikulli i J. Ward prezantoi gjithashtu një algoritëm të ngjashëm hierarkik optimizimi. Nuk ka asnjë kriter universal për optimizimin e një zgjidhjeje të grupimit. E gjithë kjo e bën të vështirë për studiuesin të zgjedhë zgjidhjen optimale. Në një situatë të tillë në mënyrën më të mirë të mundshme të pohosh se zgjidhja e gjetur e grupimit është optimale në këtë fazë të studimit, është vetëm konsistenca e kësaj zgjidhjeje me konkluzionet e marra duke përdorur metoda të tjera të statistikave multivariate.

Në favor të përfundimit për optimalitetin e grupimit, ka edhe rezultate pozitive të kontrollit të momenteve parashikuese të zgjidhjes së marrë tashmë në objekte të tjera studimi. Kur përdorni metoda hierarkike të analizës së grupimeve, mund të rekomandojmë krahasimin e disa grafikëve me njëri-tjetrin ndryshim në rritje distancë ndërgrupore. Në këtë rast, përparësi duhet t'i jepet opsionit për të cilin vihet re një vijë e sheshtë e një rritjeje të tillë nga hapi i parë deri në disa hapa të parafundit me një rritje të mprehtë vertikale në këtë grafik në 1-2 hapat e fundit të grumbullimit.

KONKLUZIONET

Në punën time jam përpjekur të tregoj jo vetëm kompleksitetin e kësaj lloj analize, por edhe aftësitë optimale të përpunimit të të dhënave, sepse shpesh për saktësinë e rezultateve duhet të përdorësh nga dhjetëra deri në qindra mostra. Ky lloj analiza ndihmon në klasifikimin dhe përpunimin e rezultateve. Gjithashtu e konsideroj jo të parëndësishme pranueshmërinë e teknologjive kompjuterike në këtë analizë, e cila bën të mundur që procesi i përpunimit të rezultateve të bëjë më pak kohë dhe në këtë mënyrë lejon që t'i kushtohet më shumë vëmendje korrektësisë së kampionimit për analizë.

Në përdorimin e analizës së grupimeve, ka hollësi dhe detaje të tilla që shfaqen në raste individuale specifike dhe nuk janë menjëherë të dukshme. Për shembull, roli i shkallës së veçorive mund të jetë minimal dhe mund të jetë dominues në disa raste. Në raste të tilla është e nevojshme të përdoren transformime të ndryshueshme. Kjo është veçanërisht efektive kur përdoren metoda që prodhojnë transformime jolineare të veçorive që në përgjithësi rrisin nivelin e përgjithshëm të korrelacioneve midis veçorive.

Ekziston një specifikë edhe më e madhe në përdorimin e analizës së grupimeve në lidhje me objektet që përshkruhen vetëm nga veçoritë cilësore. Në këtë rast, metodat e dixhitalizimit paraprak të veçorive cilësore dhe analizës së grupimeve me veçori të reja janë mjaft të suksesshme. Në punën time tregova se analiza e grupimeve ofron shumë informacione të reja dhe origjinale si në rastin e aplikimit të saj në sisteme mjaftueshëm të studiuara, ashtu edhe në studimin e sistemeve me strukturë të panjohur.

Duhet të theksohet gjithashtu se analiza e grupimeve është bërë e domosdoshme në kërkimin evolucionar, duke lejuar ndërtimin e pemëve filogjenetike që tregojnë shtigje evolucionare. Këto metoda përdoren gjerësisht në programe kërkimin shkencor në Kimi fizike dhe analitike.

BIBLIOGRAFI

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Mbi strukturën dhe përmbajtjen e paketës softuerike për analizën statistikore të aplikuar//Algorithmike dhe software analiza statistikore e aplikuar.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Klasifikimi i vëzhgimeve shumëdimensionale.--M.: Statistika, 1974.

3) Becker V. A., Lukatskaya M. L. Për analizën e strukturës së matricës së koeficientëve të bashkimit // Çështjet e modelimit dhe parashikimit ekonomik dhe statistikor në industri.-- Novosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. Metodat strukturore përpunimi i të dhënave.--M.: Nauka, 1983.

5) Voronin Yu. A. Teoria e klasifikimit dhe aplikimet e saj.--Novosibirsk: Nauka, 1987.

6) Mirë I. J. Botryology of botryology//Klasifikimi dhe grupimi.--M.: Mir, 1980.

7) Dubrovsky S. A. Analiza statistikore e aplikuar multivariate.--M.: Financa dhe statistika, 1982.

8) Duran N., Odell P. Analiza e grupimit.--M.: Statistika, 1977.

9) Eliseeva I.I., Rukavishnikov V.S. Grupimi, korrelacioni, njohja e modelit.--M.: Statistika, 1977.

10) Zagoruiko N. G. Metodat e njohjes dhe aplikimi i tyre.--M .: Radio Sovjetike, 1972.

11) Zade L. A. Kompletet Fuzzy dhe aplikimi i tyre në njohjen e modeleve dhe analizën e grupimeve//Klasifikimi dhe grupimi.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Grupime shumëdimensionale.--M.: Statistika, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA Rreth një mënyrë për të kontrolluar vlefshmërinë e ndarjes në analizën e grupimeve.//Zbatimi i analizës statistikore shumëvariate në ekonomi dhe vlerësimi i cilësisë së produktit.--Ch. P. Tartu, 1977.

14) Shurygin A. M. Shpërndarja e distancave dhe dallimeve ndërmjet pikave // ​​Software dhe mbështetje algoritmike për analizën statistikore shumëdimensionale të aplikuar.--M., 1983.

15) Eeremaa R. Teoria e përgjithshme e projektimit të sistemeve të grupimeve dhe algoritmeve për gjetjen e paraqitjeve të tyre numerike: Proceedings of the Computing Center of TSU.--Tartu, 1978.

16) Punime të zgjedhura të Yastremsky B.S.--M.: Statistika, 1964.

Dokumente të ngjashme

    Qëllimet e segmentimit të tregut në aktivitetet e marketingut. Thelbi i analizës së grupimeve, fazat kryesore të zbatimit të tij. Zgjidhni mënyrën e matjes së distancës ose masës së ngjashmërisë. Metodat e grupimit hierarkik, johierarkik. Vlerësimi i besueshmërisë dhe besueshmërisë.

    raport, shtuar 02.11.2009

    Karakteristikat kryesore gjendjen financiare ndërmarrjeve. Kriza në ndërmarrje, shkaqet, llojet dhe pasojat e saj. Metodat moderne dhe mjetet e analizës së grupimeve, veçoritë e përdorimit të tyre për vlerësimin financiar dhe ekonomik të ndërmarrjes.

    tezë, shtuar 10/09/2013

    Kryeni analiza grupore të ndërmarrjeve duke përdorur Statgraphics Plus. Ndërtimi i një ekuacioni të regresionit linear. Llogaritja e koeficientëve të elasticitetit sipas modeleve të regresionit. Vlerësimi i rëndësisë statistikore të ekuacionit dhe koeficientit të përcaktimit.

    detyrë, shtuar 16.03.2014

    Ndërtimi i regresioneve tipologjike për grupe të veçanta vëzhgimesh. Të dhëna hapësinore dhe informacione kohore. Fusha e zbatimit të analizës së grupimeve. Koncepti i homogjenitetit të objekteve, vetitë e matricës së distancës. Kryerja e regresionit tipologjik.

    prezantim, shtuar 26.10.2013

    Krijimi i modeleve dhe metodave të kombinuara si mënyrë moderne parashikimi. Një model i bazuar në ARIMA për përshkrimin e serive kohore stacionare dhe jo-stacionare në zgjidhjen e problemeve të grupimit. Modelet AR autoregresive dhe aplikimi i korelogrameve.

    prezantim, shtuar 05/01/2015

    Karakteristikat e llojeve të ndryshme të metrikës. Metoda e fqinjit më të afërt dhe përgjithësimet e saj. Algoritmi i fqinjit më të afërt. Metoda e dritares Parzen. Klasifikues metrikë i përgjithësuar. Problemi i zgjedhjes së një metrike. Distanca e Manhatanit dhe Euklidit. masë kosinusi.

    punim afatshkurtër, shtuar 03/08/2015

    Karakteristikat e industrisë së ndërtimit të Territorit të Krasnodarit. Parashikimi i zhvillimit të ndërtimit të banesave. Metodat dhe mjetet moderne të analizës së grupimeve. Metodat statistikore shumëdimensionale për diagnostikimin e gjendjes ekonomike të një ndërmarrje.

    tezë, shtuar 20.07.2015

    Karakteristikat e huadhënies hipotekore në shembullin e rajonit Bryansk. Rishikimi i metodave matematikore të vendimmarrjes: vlerësimet e ekspertëve, krahasimet sekuenciale dhe në çift, analiza e hierarkisë. Zhvillimi i një programi kërkimi për kredinë hipotekore optimale.

    punim afatshkurtër, shtuar 29.11.2012

    Fushat e aplikimit të analizës së sistemit, vendi, roli, qëllimet dhe funksionet e tij shkenca moderne. Koncepti dhe përmbajtja e metodave të analizës së sistemit, metodat e tij informale. Veçoritë e metodave heuristike dhe eksperte të kërkimit dhe veçoritë e zbatimit të tyre.

    punim afatshkurtër, shtuar 20.05.2013

    Zhvillimi dhe hulumtimi i metodave ekonometrike, duke marrë parasysh specifikat e të dhënave ekonomike dhe në përputhje me nevojat ekonomisë dhe praktikat. Zbatimi i metodave dhe modeleve ekonometrike për analizën statistikore të të dhënave ekonomike.

Universiteti: VZFEI

Viti dhe qyteti: Moskë 2008


1. Hyrje. Koncepti i metodës së analizës së grupimeve.

2. Përshkrimi i metodologjisë për aplikimin e analizës klaster. Shembull kontrolli i zgjidhjes së problemit.

4. Lista e literaturës së përdorur

  1. Prezantimi. Koncepti i metodës së analizës së grupimeve.

Analiza e grupimeve është një grup metodash që lejojnë klasifikimin e vëzhgimeve shumëdimensionale, secila prej të cilave përshkruhet nga një grup karakteristikash (parametrash) X1, X2, ..., Xk.

Qëllimi i analizës së grupimeve është formimi i grupeve të objekteve të ngjashme me njëri-tjetrin, të cilat zakonisht quhen grupe (klasa, takson, përqendrimi).

Analiza e grupimeve është një nga fushat e kërkimit statistikor. Ajo zë një vend veçanërisht të rëndësishëm në ato degë të shkencës që lidhen me studimin e fenomeneve dhe proceseve masive. Nevoja për të zhvilluar metoda të analizës së grupimeve dhe përdorimi i tyre diktohet nga fakti se ato ndihmojnë në ndërtimin e klasifikimeve të bazuara shkencërisht, identifikimin komunikimet e brendshme ndërmjet njësive të popullsisë së vëzhguar. Përveç kësaj, metodat e analizës së grupimeve mund të përdoren për të kompresuar informacionin, i cili është një faktor i rëndësishëm përballë një rritjeje dhe kompleksiteti të vazhdueshëm të flukseve të të dhënave statistikore.

Metodat e analizës së grupimeve lejojnë zgjidhjen e problemeve të mëposhtme:

Kryerja e klasifikimit të objekteve, duke marrë parasysh veçoritë që pasqyrojnë thelbin, natyrën e objekteve. Zgjidhja e një problemi të tillë, si rregull, çon në një thellim të njohurive për tërësinë e objekteve që klasifikohen;

Kontrollimi i supozimeve të bëra për praninë e ndonjë strukture në grupin e objekteve të studiuara, d.m.th. kërkimi i një strukture ekzistuese;

Ndërtimi i klasifikimeve të reja për dukuritë e studiuara dobët, kur është e nevojshme të vendoset prania e lidhjeve brenda popullsisë dhe të përpiqet të futet struktura në të (1. f. 85-86).

2. Përshkrimi i metodologjisë për aplikimin e analizës klaster. Shembull kontrolli i zgjidhjes së problemit.

Analiza e grupimeve ju lejon të formoni një ndarje në grupe homogjene (grupe) nga n objekte të karakterizuara nga k karakteristika. Homogjeniteti i objekteve përcaktohet nga distanca p(xi xj), ku xi = (xi1, …., xik) dhe xj= (xj1,…,xjk) janë vektorë të përbërë nga vlerat e k atributeve të i -të dhe j-të, përkatësisht objektet.

Për objektet e karakterizuara nga karakteristika numerike, distanca përcaktohet me formulën e mëposhtme:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Objektet konsiderohen homogjene nëse p(xi xj)< p предельного.

Një paraqitje grafike e bashkimit mund të merret duke përdorur një pemë bashkimi grupor - një dendrogram. (2. Kapitulli 39).

Rasti testues (shembulli 92).

Vëllimi i shitjeve

Le t'i klasifikojmë këto objekte duke përdorur parimin "fqinj i afërt". Le të gjejmë distancat midis objekteve duke përdorur formulën (1)* . Le të plotësojmë tabelën.

Le të shpjegojmë se si është mbushur tabela.

Në kryqëzimin e rreshtit i dhe kolonës j, tregohet distanca p(xi xj) (rezultati rrumbullakoset deri në dy shifra dhjetore).

Për shembull, në kryqëzimin e rreshtit 1 dhe kolonës 3, tregohet distanca p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10, dhe në kryqëzimin e rreshtit 3 dhe kolonës 5, distanca p(x3, x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. Meqenëse p(xi, xj) = p(xj,xi), pjesa e poshtme e tabelës nuk duhet të plotësohet.

Le të zbatojmë parimin "fqinj i afërt". Gjejmë në tabelë distancat më të vogla (nëse ka disa prej tyre, atëherë zgjedhim ndonjë prej tyre). Kjo është p 1.2 ≈ p 4.5 \u003d 2.24. Le të p min = p 4,5 = 2,24. Pastaj ne mund të kombinojmë objektet 4 dhe 5 në një grup, domethënë, kolona e kombinuar 4 dhe 5 do të përmbajë numrin më të vogël të kolonave 4 dhe 5 të tabelës origjinale të distancës. Ne bëjmë të njëjtën gjë me rreshtat 4 dhe 5. Marrim një tabelë të re.

Ne gjejmë në tabelën që rezulton distancat më të vogla (nëse ka disa prej tyre, atëherë do të zgjedhim ndonjë prej tyre): р min = р 1,2 = 2,24. Pastaj ne mund të kombinojmë objektet 1,2,3 në një grup, domethënë, kolona e kombinuar 1,2,3 do të përmbajë numrin më të vogël nga numrat përkatës të kolonave 1 dhe 2 dhe 3 të tabelës së distancës së mëparshme. Ne bëjmë të njëjtën gjë me rreshtat 1 dhe 2 dhe 3. Marrim një tabelë të re.

Ne morëm dy grupime: (1,2,3) dhe (4,5).

3. Zgjidhja e problemeve për punën e kontrollit.

Problemi 85.

Kushtet: Pesë objektet e prodhimit karakterizohen nga dy karakteristika: vëllimi i shitjeve dhe kostoja mesatare vjetore e aktiveve fikse.

Vëllimi i shitjeve

Kostoja mesatare vjetore asetet fikse të prodhimit

Zgjidhja: Le të gjejmë distancat midis objekteve duke përdorur formulën (1)* (do të rrumbullakosim në dy shifra dhjetore):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1,2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3,61

p 1,3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2.2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2,3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 \u003d √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

Bazuar në rezultatet e llogaritjeve, plotësojmë tabelën:

Le të zbatojmë parimin e fqinjit më të afërt. Për ta bërë këtë, në tabelë gjejmë distancat më të vogla (nëse ka disa prej tyre, atëherë zgjidhni ndonjë prej tyre). Kjo është p 2.3=2.24. Le të p min = p 2.3 = 2.24, atëherë mund të kombinojmë objektet e kolonave "2" dhe "3", dhe gjithashtu të kombinojmë rreshtat e objekteve "2" dhe "3". Në tabelën e re, ne futim vlerat më të vogla nga tabela origjinale në grupet e kombinuara.

Në tabelën e re gjejmë distancat më të vogla (nëse ka disa prej tyre, atëherë zgjedhim ndonjë prej tyre). Kjo është p 4.5=3.16. Le të p min = p 4,5 = 3,16, atëherë mund të kombinojmë objektet e kolonave "4" dhe "5", dhe gjithashtu të kombinojmë rreshtat e objekteve "4" dhe "5". Në tabelën e re, ne futim vlerat më të vogla nga tabela origjinale në grupet e kombinuara.

Në tabelën e re gjejmë distancat më të vogla (nëse ka disa prej tyre, atëherë zgjedhim ndonjë prej tyre). Këto janë p 1, 2 dhe 3=3.61. Le të p min = p 1, 2 dhe 3 = 3,61, atëherë mund të bashkojmë objektet e kolonës "1" dhe "2 dhe 3" dhe gjithashtu të bashkojmë rreshtat. Në tabelën e re, ne futim vlerat më të vogla nga tabela origjinale në grupet e kombinuara.

Marrim dy grupime: (1,2,3) dhe (4,5).

Dendrogrami tregon rendin e përzgjedhjes së elementeve dhe distancat minimale përkatëse pmin.

Përgjigje: Si rezultat i analizës së grupimeve sipas parimit të "fqinjës më të afërt", formohen 2 grupime objektesh të ngjashme me njëri-tjetrin: (1,2,3) dhe (4,5).

Problemi 211.

Kushtet: Pesë objekte prodhuese karakterizohen nga dy karakteristika: vëllimi i shitjeve dhe vlera mesatare vjetore e aseteve fikse.

Vëllimi i shitjeve

Kostoja mesatare vjetore e aktiveve fikse të prodhimit

Klasifikoni këto objekte duke përdorur parimin e fqinjit më të afërt.

Zgjidhja: Për të zgjidhur problemin, ne i paraqesim të dhënat në tabelën origjinale. Le të përcaktojmë distancat midis objekteve. Ne do t'i klasifikojmë objektet sipas parimit "fqinji më i afërt". Rezultatet paraqiten në formën e një dendrogrami.

Vëllimi i shitjeve

Kostoja mesatare vjetore e aktiveve fikse të prodhimit

Duke përdorur formulën (1)*, gjejmë distancat midis objekteve:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2,3 = 7,07, p 2,4 = 2, p 2,5 = 3,3 = p 2,5 = 3,32, 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4 ,4=0, p4,5=1, p5,5=0.

Rezultatet janë paraqitur në tabelë:

Vlera më e vogël e distancave në tabelë është p 4.5=1. Le të p min = p 4,5 = 1, atëherë mund të kombinojmë objektet e kolonave "4" dhe "5", dhe gjithashtu të kombinojmë rreshtat e objekteve "4" dhe "5". Në tabelën e re, ne futim vlerat më të vogla nga tabela origjinale në grupet e kombinuara.

Vlera më e vogël e distancave në tabelën e re është p 2, 4 dhe 5=2. Le të p min = p 2, 4 dhe 5=2, atëherë mund të kombinojmë objektet e kolonave "4 dhe 5" dhe "3", dhe gjithashtu të kombinojmë rreshtat e objekteve "4 dhe 5" dhe "3". Në tabelën e re, ne futim vlerat më të vogla nga tabela në grupet e kombinuara.

Vlera më e vogël e distancave në tabelën e re është p 3,4,5=2. Le të p min = p 3,4,5=2, atëherë mund të kombinojmë objektet e kolonave "3,4,5" dhe "2", dhe gjithashtu të kombinojmë rreshtat e objekteve "3,4,5" dhe " 2". Në tabelën e re, ne futim vlerat më të vogla nga tabela në grupet e kombinuara.

ose hyni në sit.

E rëndësishme! Të gjitha testet e paraqitura për shkarkim falas kanë për qëllim të hartojnë një plan ose bazë për punën tuaj shkencore.

Miqtë! Ju keni mundësi unike ndihmoni studentët si ju! Nëse faqja jonë ju ndihmoi të gjeni puna e duhur, atëherë sigurisht e kuptoni se si puna që keni shtuar mund ta lehtësojë punën e të tjerëve.

Nëse kontrolli funksionon, sipas mendimit tuaj, Cilesi e keqe, ose e keni takuar tashmë këtë punë, na tregoni për të.

Shih ANALIZA E GRUPIT. Antinazi. Enciklopedia e Sociologjisë, 2009 ... Enciklopedia e Sociologjisë

analiza grupore- ky është një grup metodash që ju lejojnë të klasifikoni vëzhgimet shumëdimensionale, secila prej të cilave përshkruhet nga një grup i caktuar variablash. Qëllimi i analizës së grupimeve është formimi i grupeve të objekteve të ngjashme me njëri-tjetrin, të cilat zakonisht quhen ... ... Fjalori sociologjik Socium

analiza grupore- një procedurë matematikore për analizën shumëdimensionale, e cila lejon, në bazë të një grupi treguesish që karakterizojnë një numër objektesh (për shembull, subjekte), t'i grupojë ato në klasa (grupe) në mënyrë që objektet e përfshira në një klasë të jenë më shumë. .. ... Enciklopedia e Madhe Psikologjike

Analiza Cluster- një procedurë matematikore që lejon, bazuar në ngjashmërinë e vlerave sasiore të disa veçorive karakteristike të secilit objekt (për shembull, subjektin) të çdo grupi, t'i grupojë këto objekte në klasa ose grupime të caktuara. .... .. Fjalor Psikologjik

analiza grupore- - [L.G. Sumenko. Fjalor Anglisht Rusisht i Teknologjive të Informacionit. M.: GP TsNIIS, 2003.] Temat Teknologjia e Informacionit në përgjithësi analiza e grupimeve EN… Manuali i Përkthyesit Teknik

analiza grupore- * Analiza e grupimeve * Analiza e grupimeve ose grumbullimi i të dhënave është një procedurë statistikore shumëdimensionale që mbledh të dhëna që përmbajnë informacion për një përzgjedhje objektesh, dhe më pas i rendit objektet në grupe relativisht homogjene grupimesh (Q ... ... Gjenetika. fjalor enciklopedik

analiza grupore- A është e dëshirueshme të përmirësohet ky artikull në matematikë?: Duke vendosur fusnota, bëni tregues më të saktë të burimeve. Korrigjojeni artikullin sipas rregullave stilistike të Wikipedia-s. Ricikloni ofo ... Wikipedia

ANALIZA KLUSTERI- - një procedurë matematikore për analizën shumëdimensionale, e cila lejon, në bazë të një grupi treguesish që karakterizojnë një numër objektesh (për shembull, subjekte), t'i grupojë ato në klasa (grupe), në mënyrë që objektet e përfshira në një klasë të jenë me shume...... Fjalor Enciklopedik i Psikologjisë dhe Pedagogjisë

ANALIZA KLUSTERI - Emer i perbashket për metoda të ndryshme matematikore për përcaktimin e strukturës së thellë në të dhënat komplekse. Analiza e grupimeve është e ngjashme në shumë aspekte me analizën e faktorëve. Të dyja përfshijnë kërkimin e elementeve unitare (faktorë ose grupime) që... ... Fjalor shpjegues i psikologjisë

ANALIZA KLUSTERI- (analizë grupore) një teknikë e përdorur për të identifikuar grupet e objekteve ose njerëzve që mund të tregojnë dallime relative në një grup të dhënash. Më pas studiohen karakteristikat e njerëzve të tillë brenda secilit grup. Në hulumtimin e tregut, ... ... Fjalor i madh shpjegues sociologjik

ANALIZA KLUSTERI- (ANALIZË E GRUPIT) Një grup teknikash statistikore të përdorura për të përcaktuar strukturën e brendshme të të dhënave në analizën e informacionit kërkimor në lidhje me variabla të shumtë. Qëllimi i analizës së grupimeve është të identifikojë grupet e objekteve ... ... fjalor sociologjik

Ky libër i kushtohet vetëm një prej qasjeve më premtuese për analizën e proceseve dhe fenomeneve shumëdimensionale në këtë kuptim - analizës së grupimeve.

Analiza e grupimeve është një mënyrë e grupimit të objekteve shumëdimensionale, bazuar në paraqitjen e rezultateve të vëzhgimeve individuale sipas pikave të një hapësire të përshtatshme gjeometrike, e ndjekur nga përzgjedhja e grupeve si "grumbulla" të këtyre pikave. Në fakt, "grupi" (grupi) në gjuhe angleze dhe do të thotë "mpiksje", "tufë (rrushi)", "grumbull (yje)", etj. Ky term përshtatet jashtëzakonisht mirë në terminologjinë shkencore, pasi rrokja e tij e parë korrespondon me termin tradicional "klasë", dhe e dyta, si të thuash, tregon origjinën e saj artificiale. Nuk kemi dyshim se terminologjia e analizës së grupimeve do të zëvendësojë të gjitha konstruktet e përdorura më parë për këtë qëllim (njohja e pambikëqyrur e modelit, shtresimi, taksonomia, klasifikimi automatik, etj.). Mundësitë e mundshme të analizës së grupimeve janë të dukshme për zgjidhjen, le të themi, të problemeve të identifikimit të grupeve të ndërmarrjeve që operojnë në kushte të ngjashme ose me rezultate të ngjashme, grupeve homogjene të popullsisë në aspekte të ndryshme të jetës ose stilit të jetesës në përgjithësi, etj.

Si drejtim shkencor, analiza e grupimeve u deklarua në mesin e viteve '60 dhe që atëherë po zhvillohet me shpejtësi, duke qenë një nga degët e rritjes më intensive të shkencës statistikore. Mjafton të thuhet se vetëm numri i monografive mbi analizën e grupimeve të publikuara deri më sot në vende të ndryshme matet në qindra (ndërsa, të themi, sipas një metode të tillë "të merituar" të analizës statistikore me shumë variacione si analiza faktoriale, vështirë se është e mundur të numërohen disa dhjetëra libra). Dhe kjo është mjaft e kuptueshme. Në fund të fundit, ne në fakt po flasim për modelimin e operacionit të grupimit, një nga më të rëndësishmit jo vetëm në statistikë, por në përgjithësi - si në njohje ashtu edhe në vendimmarrje.

Në vendin tonë janë botuar një sërë monografish kushtuar studimit të problemeve specifike socio-ekonomike duke përdorur analizën e grupimeve (1), metodologjinë e përdorimit të analizës së grupimeve në kërkimin socio-ekonomik (2), metodologjinë e analizës së grupimeve si të tilla ( 3) (Bazat e analizës statistikore)

Libri i propozuar nga I.D. Mandel është, si të thuash, pingul me këtë klasifikim: përmbajtja e tij lidhet me secilën nga këto tre fusha.

Qëllimi i librit është të përmbledhë Shteti i artit analiza grupore, analizon mundësitë e përdorimit të tij dhe detyrat e zhvillimit të mëtejshëm. Kjo ide në vetvete nuk mund të mos ngjallë respekt: ​​një analizë dhe përgjithësim i paanshëm kërkon shumë punë, erudicion, guxim dhe vlerësohen nga komuniteti shkencor shumë më poshtë se promovimi dhe zhvillimi i projekteve të tyre. (Megjithatë, libri përmban gjithashtu zhvillimet origjinale të autorit në lidhje me analizën "intensionale" dhe dualitetin e klasifikimeve.)

Me realizimin e këtij qëllimi lidhen edhe avantazhet e librit edhe mangësitë e tij. Përparësitë duhet të përfshijnë:

· studimi metodologjik i koncepteve të homogjenitetit, grupimit dhe klasifikimit, duke marrë parasysh shumëdimensionalitetin e dukurive dhe të proceseve;

· një rishikim sistematik i qasjeve dhe metodave të analizës së grupimeve (duke përfshirë deri në 150 algoritme specifike);

· prezantimi i teknologjisë dhe rezultatet e krahasimit eksperimental të procedurave të analizës së grupimeve; Ky libër i kushtohet vetëm një prej qasjeve më premtuese për analizën e proceseve dhe fenomeneve shumëdimensionale në këtë kuptim - analizës së grupimeve.

Analiza e grupimeve është një mënyrë e grupimit të objekteve shumëdimensionale, bazuar në paraqitjen e rezultateve të vëzhgimeve individuale sipas pikave të një hapësire të përshtatshme gjeometrike, e ndjekur nga përzgjedhja e grupeve si "grumbulla" të këtyre pikave. Në fakt, "grup" (grup) në anglisht do të thotë "mpiksje", "tufë (rrushi)", "grumbull (yje)", etj. Ky term përshtatet jashtëzakonisht mirë në terminologjinë shkencore, pasi rrokja e tij e parë korrespondon me atë tradicionale. termi "klasë", dhe i dyti, si të thuash, tregon origjinën e tij artificiale. Nuk kemi dyshim se terminologjia e analizës së grupimeve do të zëvendësojë të gjitha konstruktet e përdorura më parë për këtë qëllim (njohja e pambikëqyrur e modelit, shtresimi, taksonomia, klasifikimi automatik, etj.). Mundësitë e mundshme të analizës së grupimeve janë të dukshme për zgjidhjen, le të themi, të problemeve të identifikimit të grupeve të ndërmarrjeve që operojnë në kushte të ngjashme ose me rezultate të ngjashme, grupeve homogjene të popullsisë në aspekte të ndryshme të jetës ose stilit të jetesës në përgjithësi, etj.

Si drejtim shkencor, analiza e grupimeve u deklarua në mesin e viteve '60 dhe që atëherë po zhvillohet me shpejtësi, duke qenë një nga degët e rritjes më intensive të shkencës statistikore. Mjafton të thuhet se vetëm një numër monografish mbi analizën e grupimeve, zhvillimin skemat e përgjithshme përdorimin e metodave të analizës së grupimeve të zbatuara në tabela mjaft ilustruese; natyra rekomanduese e prezantimit.

Këto avantazhe përcaktojnë vendin e pavarur të librit të I. D. Mandel midis botimeve të tjera.

Mangësitë e librit janë paqartësia e disa rekomandimeve dhe mungesa e një analize sistematike të çështjeve të përdorimit të metodave të analizës grupore në aplikimet socio-ekonomike lëndore. Vërtetë, kjo e fundit është për shkak të përdorimit të pamjaftueshëm të analizës së grupimeve në këtë fushë.

Libri ofron një trampolinë, përdorimi i së cilës lehtëson përparimin në çështjen më të vështirë të çdo teorie - përdorimin praktik të mjeteve që ofron.

B. G. Mirkin

Temat kërkimore variojnë nga analiza e morfologjisë së brejtësve të mumifikuar në Guinenë e Re deri te studimi i rezultateve të votimit të senatorëve amerikanë, nga analiza e funksioneve të sjelljes së buburrecave të ngrirë kur shkrihen, deri te studimi i shpërndarjes gjeografike. të disa llojeve të likeneve në Saskatchewan.

Ky shpërthim publikimesh ka pasur një ndikim të madh në zhvillimin dhe aplikimin e analizës së grupimeve. Por, për fat të keq, ka edhe anët negative. Rritja e shpejtë e publikimeve mbi analizën e grupimeve ka çuar në formimin e grupimeve të përdoruesve dhe, si pasojë, krijimin e zhargonit të përdorur vetëm nga grupimet që e krijuan atë (Blashfield dhe Aldenderfer, 1978; Blashfield, 1980).

Mbi formimin e zhargonit nga specialistë të fushës Shkencat shoqërore dëshmohet, për shembull, nga terminologjia e larmishme në lidhje me metodën e Ward. “Metoda Ward” quhet ndryshe në literaturë. Të paktën katër emra të tjerë janë të njohur: "metoda e variancës minimale", "metoda e shumës së gabimit në katror", "minimizimi i grupimit hierarkik" dhe "HGROUP". Dy emrat e parë thjesht i referohen kriterit, optimumi i të cilit përcaktohet me metodën e Ward-it, ndërsa i treti lidhet me shumën e gabimeve në katror, ​​që është një transformim monoton i gjurmës së matricës W, matrica e kovariancës brenda grupit. Së fundi, emri i përdorur gjerësisht "HGROUP" është emri i një popullor program kompjuterik, e cila zbaton metodën Ward (Veldman, 1967).

Formimi i zhargonit pengon zhvillimin e lidhjeve ndërdisiplinore, pengon krahasim efektiv metodologjia dhe rezultatet e aplikimit të analizës së grupimeve në fusha të ndryshme të shkencës, çon në përpjekje të panevojshme (rishpikjen e të njëjtave algoritme) dhe, së fundi, nuk u jep përdoruesve të rinj një kuptim të thellë të metodave që ata kanë zgjedhur (Blashfield dhe aldenderfer, 1978 ). Për shembull, një studim i shkencave sociale (Rogers dhe Linden, 1973) krahasoi tre metoda të ndryshme grupimi duke përdorur të njëjtat të dhëna. Ata i quajtën këto metoda si më poshtë: "grupim hierarkik", "grupim hierarkik ose HCG" dhe "analizë grupore". Dhe asnjë nga këta emra nuk ishin të njohur për metodat e grupimit. Një përdorues fillestar i programeve të analizës së grupimeve do të ngatërrohet nga të gjithë emrat ekzistues dhe nuk do të jetë në gjendje t'i shoqërojë ato me përshkrime të tjera të metodave të grupimit. Përdoruesit me përvojë do ta gjejnë veten në një pozitë të vështirë kur krahasojnë kërkimin e tyre me punë të ngjashme. Mund të shkojmë në ekstreme, por zhargoni është një problem serioz.

Vitet e fundit, zhvillimi i analizës së grupimeve është ngadalësuar disi, duke gjykuar nga numri i publikimeve dhe numri i disiplinave ku aplikohet kjo metodë. Mund të themi se aktualisht psikologjia, sociologjia, biologjia, statistikat dhe disa disiplinat teknike hyjnë në fazën e konsolidimit në lidhje me analizën e grupimeve.

Numri i artikujve që vlerësojnë virtytet e analizës së grupimeve po zvogëlohet gradualisht. Në të njëjtën kohë, ka gjithnjë e më shumë vepra në të cilat zbatueshmëria e metodave të ndryshme të grupimit krahasohet me të dhënat e kontrollit. Në literaturë, më shumë vëmendje i është kushtuar aplikacioneve. Shumë studime kanë për qëllim zhvillimin e masave praktike për të testuar vlefshmërinë e rezultateve të marra duke përdorur analizën e grupimeve. E gjithë kjo dëshmon për përpjekje serioze për të krijuar një teori të arsyeshme statistikore të metodave të grupimit.


KOMBANA

Ka nga ata që e lexojnë këtë lajm para jush.
Regjistrohu për të marrë artikujt më të fundit.
Email
Emri
Mbiemri
Si do të dëshironit të lexoni Këmbanën
Nuk ka spam