A CSENGŐ

Vannak, akik előtted olvassák ezt a hírt.
Iratkozzon fel a legújabb cikkekért.
Email
Név
Vezetéknév
Hogy szeretnéd olvasni a Harangszót
Nincs spam

Küldje el a jó munkát a tudásbázis egyszerű. Használja az alábbi űrlapot

Diákok, végzős hallgatók, fiatal tudósok, akik a tudásbázist tanulmányaikban és munkájukban használják, nagyon hálásak lesznek Önnek.

Bevezetés

1. A "klaszterelemzés" története

2. Terminológia

2.1 Tárgy és jellemző

2.2 Objektumok közötti távolság (metrikus)

2.3 A klaszterek sűrűsége és lokalizációja

2.4 A klaszterek közötti távolság

3. Csoportosítási módszerek

3.1. A hierarchikus agglomerációs módszerek jellemzői

3.2. Az iteratív klaszterezési módszerek jellemzői

4. Funkciócsoportosítás

5. A klaszterezés stabilitása és minősége

Bibliográfia

BEVEZETÉS

"A klaszteranalízis olyan matematikai módszerek összessége, amelyeket arra terveztek, hogy egymástól viszonylag "távol" lévő "közeli" objektumcsoportokat képezzenek a távolságra vagy a köztük lévő kapcsolatokra (a közelség mértékére) vonatkozó információk alapján. Jelentésében hasonló az automatikus kifejezésekhez. osztályozás, taxonómia, mintafelismerés tanár nélkül." A klaszteranalízisnek ezt a definícióját a Statisztikai Szótár legújabb kiadása tartalmazza. Valójában a "klaszteranalízis" egy általános elnevezés az osztályozás létrehozásához használt algoritmusok meglehetősen nagy halmazának. Számos publikáció olyan szinonimákat is használ a klaszterelemzéshez, mint az osztályozás és a particionálás. A klaszteranalízist a tudományban széles körben használják a tipológiai elemzés eszközeként. Minden tudományos tevékenységben az osztályozás az egyik alapvető összetevő, amely nélkül lehetetlen tudományos hipotéziseket és elméleteket felépíteni és tesztelni. Így munkám során szükségesnek tartom a klaszteranalízis (a klaszteranalízis alapja) kérdéseinek átgondolását, valamint terminológiájának átgondolását, és néhány példát hozok e módszer alkalmazására, amelynek fő célja az adatfeldolgozás.

1. A "KLUSTER ELEMZÉS" TÖRTÉNETE

A hazai és külföldi publikációk elemzése azt mutatja, hogy a klaszterelemzést a legkülönfélébb tudományterületeken alkalmazzák: kémia, biológia, orvostudomány, régészet, történelem, földrajz, közgazdaságtan, filológia stb. VV Nalimov „A nyelv valószínűségi modellje” című könyve leírja a klaszteranalízis használatát 70 analitikai minta vizsgálatában. A klaszteranalízissel foglalkozó szakirodalom nagy része az elmúlt három évtizedben jelent meg, bár az első olyan munkák, amelyek a klasztermódszereket említik, meglehetősen régen jelentek meg. A lengyel antropológus, K. Chekanowski előterjesztette a "strukturális osztályozás" ötletét, amely a klaszteranalízis fő gondolatát - a kompakt objektumcsoportok elosztását - tartalmazta.

1925-ben a szovjet hidrobiológus P.V. Terentjev kidolgozta az úgynevezett "korrelációs plejádok módszerét", amely a korrelált jellemzők csoportosítására szolgál. Ez a módszer adott lendületet a gráfokat használó csoportosítási módszerek kidolgozásához. A "klaszteranalízis" kifejezést először Trion javasolta. A "cluster" szó angol fordítása "csokor, ecset, csomó, csoport". Emiatt az ilyen típusú elemzést eredetileg "klaszteranalízisnek" nevezték. Az 1950-es évek elején R. Lewis, E. Fix és J. Hodges publikációi jelentek meg a hierarchikus klaszterelemzési algoritmusokról. A klaszteranalízissel foglalkozó munka fejlődéséhez észrevehető lendületet adott R. Rosenblatt felismerő eszközzel (perceptronnal) kapcsolatos munkája, amely megalapozta a „tanár nélküli mintafelismerés” elméletének kidolgozását.

A klaszterezési módszerek kidolgozásának lendületét az 1963-ban megjelent "A numerikus taxonómia alapelvei" című könyv adta. két biológus - Robert Sokal és Peter Sneath. A könyv szerzői abból indultak ki, hogy a hatékony biológiai osztályozás létrehozása érdekében a klaszterezési eljárásnak biztosítania kell a vizsgált élőlényeket jellemző különféle indikátorok alkalmazását, fel kell mérni ezen szervezetek közötti hasonlóság mértékét, és biztosítania kell a hasonló szervezetek elhelyezését. ugyanabban a csoportban. Ebben az esetben a kialakított csoportok kellően „lokálisak”, azaz a csoportokon belüli objektumok (organizmusok) hasonlóságának meg kell haladnia a csoportok egymás közötti hasonlóságát. Az azonosított csoportok utólagos elemzése a szerzők véleménye szerint tisztázhatja, hogy ezek a csoportok különböző biológiai fajoknak felelnek-e meg. Így Sokal és Sneath azt feltételezte, hogy az objektumok csoportos eloszlásának szerkezetének feltárása segít meghatározni e struktúrák kialakulásának folyamatát. A különböző klaszterek (csoportok) élőlényeinek különbözősége és hasonlósága pedig alapul szolgálhat a folyamatban lévő evolúciós folyamat megértéséhez, mechanizmusának tisztázásához.

Ugyanebben az években számos algoritmust javasoltak olyan szerzők, mint J. McKean, G. Ball és D. Hall, k-közép módszerekkel; G. Lance és W. Williams, N. Jardine és mások - a hierarchikus módszerekről. A klaszterelemzési módszerek fejlesztéséhez jelentős mértékben hozzájárultak a hazai tudósok - E. M. Braverman, A. A. Dorofeyuk, I. B. Muchnik, L. A. Rastrigin, Yu. I. Különösen a 60-70-es években. N. G. Zagoruiko, V. N. Elkina és G. S. Lbov novoszibirszki matematikusok által kifejlesztett számos algoritmusa nagy népszerűségnek örvendett. Ezek olyan jól ismert algoritmusok, mint a FOREL, BIGFOR, KRAB, NTTP, DRET, TRF, stb. Ezek alapján készült egy speciális OTEX szoftvercsomag. Nem kevésbé érdekes szoftver termékek A PPSA-t és a Klass-Mastert S. A. Aivazyan, I. S. Enyukov és B. G. Mirkin moszkvai matematikusok hozták létre.

A klaszterelemzési módszerek bizonyos mértékig elérhetőek a legtöbb legismertebb hazai és külföldi statisztikai csomagban: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS stb. Természetesen 10 évvel a jelen áttekintés megjelenése után sok minden megváltozott, számos statisztikai program új verziója jelent meg, és teljesen új programok jelentek meg, amelyek új algoritmusokat és jelentősen megnövelt teljesítményt használnak. Számítástechnika. A legtöbb statisztikai csomag azonban a 60-70-es években javasolt és kifejlesztett algoritmusokat használ.

Szakértők hozzávetőleges becslése szerint háromévente megduplázódik a klaszterelemzésről és annak különböző tudásterületeken történő alkalmazásairól szóló publikációk száma. Mi az oka az ilyen típusú elemzések iránti viharos érdeklődésnek? Objektíven három fő oka van ennek a jelenségnek. Ez az erőteljes számítástechnika megjelenése, amely nélkül a valós adatok klaszteranalízise gyakorlatilag nem kivitelezhető. A második ok az, hogy a modern tudomány konstrukcióiban egyre inkább az osztályozáson alapul. Sőt, ez a folyamat egyre mélyül, hiszen ezzel párhuzamosan egyre nagyobb a tudás specializálódása, ami kellően objektív osztályozás nélkül lehetetlen.

A harmadik ok - a speciális ismeretek elmélyítése elkerülhetetlenül az egyes tárgyak és jelenségek elemzése során figyelembe vett változók számának növekedéséhez vezet. Ennek eredményeként a szubjektív osztályozás, amely korábban meglehetősen kis számú jellemzőre támaszkodott, gyakran megbízhatatlannak bizonyul. Az objektív osztályozás pedig az objektumjellemzők egyre bővülő készletével olyan összetett klaszterezési algoritmusok alkalmazását igényli, amelyek csak a modern számítógépek alapján valósíthatók meg. Ezek az okok okozták a „klaszter boom”-ot. Az orvosok és biológusok körében azonban a klaszteranalízis még nem vált elég népszerű és elterjedt kutatási módszerré.

2 TERMINOLÓGIA

2. 1 TÁRGY ÉS JEL

Először is vezessünk be olyan fogalmakat, mint az objektum és az attribútum. Tárgy - a latin objectum - alany szóból. A kémiával és a biológiával kapcsolatban tárgyak alatt konkrét kutatási alanyokat fogunk érteni, amelyeket fizikai, kémiai és egyéb módszerekkel vizsgálunk. Ilyen tárgyak lehetnek például minták, növények, állatok stb. A kutató rendelkezésére álló objektumok egy bizonyos halmazát mintának vagy mintakészletnek nevezzük. Az ilyen sokaságban lévő objektumok számát általában mintaméretnek nevezik. A minta méretét általában a latin „n” vagy „N” betű jelöli.

Jel (szinonimák - tulajdonság, változó, jellemző; angolul - változó - változó.) - az objektum sajátos tulajdonsága. Ezek a tulajdonságok kifejezhetők numerikus vagy nem numerikus értékekkel. Például a vérnyomást (szisztolés vagy diasztolés) higanymilliméterben, a súlyt kilogrammban, a magasságot centiméterben stb. Az ilyen jelek mennyiségiek. Ezekkel a folytonos numerikus jellemzőkkel (skálákkal) szemben számos jellemző diszkrét, nem folytonos értékkel rendelkezhet. Az ilyen diszkrét jellemzőket viszont általában két csoportra osztják.

1) Az első csoport a rangváltozók, vagy ahogyan ordinális változók (skálák) is nevezik. Az ilyen jeleket az a tulajdonság jellemzi, hogy ezeket az értékeket rendezik. Ilyenek egy-egy betegség stádiumai, korcsoportok, tanulói tudáspontszámok, a 12 pontos Richter-földrengés-skála stb.

2) A diszkrét jellemzők második csoportja nem rendelkezik ilyen sorrenddel, és névleges (a "nominális" szóból - minta) vagy osztályozási jellemzőknek nevezik. Ilyen jelek lehetnek például a beteg állapota - "egészséges" vagy "beteg", a beteg neme, a megfigyelés időszaka - "kezelés előtt" és "kezelés után" stb. Ilyenkor szokás azt mondani, hogy az ilyen tulajdonságok a névskálához tartoznak.

Az objektum és a jellemző fogalmát általában "Objektumtulajdonság" vagy "Objektum-tulajdonság" mátrixnak nevezik. A mátrix egy téglalap alakú táblázat lesz, amely a vizsgált megfigyelések mintájának tulajdonságait leíró jellemzők értékeit tartalmazza. Ebben az összefüggésben egy megfigyelés külön sorként kerül rögzítésre, amely a használt jellemzők értékeit tartalmazza. Az ilyen adatmátrixban egy külön attribútumot egy oszlop képvisel, amely az attribútum értékeit tartalmazza a mintában lévő összes objektumra vonatkozóan.

2. 2 TÁVOLSÁG OBJEKTUMOK KÖZÖTT (METRIKUS)

Vezessük be az „objektumok közötti távolság” fogalmát. Ez a fogalom az objektumok egymáshoz való hasonlóságának szerves mérőszáma. Az objektumok közötti távolság a jellemzőtérben olyan d ij érték, amely kielégíti a következő axiómákat:

1. d ij > 0 (a távolság nem-negativitása)

2. d ij = d ji (szimmetria)

3. d ij + d jk > d ik (háromszög egyenlőtlenség)

4. Ha d ij nem egyenlő 0-val, akkor i nem egyenlő j-vel (nem azonos objektumok megkülönböztethetősége)

5. Ha d ij = 0, akkor i = j (azonos objektumok megkülönböztethetetlensége)

Célszerű az objektumok közelségének (hasonlóságának) mértékét úgy ábrázolni kölcsönös az objektumok közötti távolságról. Számos, a klaszteranalízissel foglalkozó publikáció több mint 50 különböző módszert ír le az objektumok közötti távolság kiszámítására. A "távolság" kifejezésen kívül a szakirodalomban gyakran megtalálható egy másik kifejezés - "metrikus", amely egy adott távolság kiszámításának módszerét jelenti. A kvantitatív jellemzők észlelésére és megértésére leginkább az ún. "euklideszi távolság" vagy "euklideszi metrika" érhető el. A távolság kiszámításának képlete a következő:

Ez a képlet a következő jelölést használja:

· d ij - az i-edik és a j-edik objektumok közötti távolság;

· x ik - az i-edik objektum k-edik változójának számértéke;

· x jk - a j-edik objektum k-edik változójának számértéke;

· v - az objektumokat leíró változók száma.

Így v=2 esetben, amikor csak két mennyiségi előjelünk van, a d ij távolság egyenlő lesz egy derékszögű háromszög befogójának hosszával, amely egy derékszögű koordinátarendszerben két pontot köt össze. Ez a két pont a minta i-edik és j-edik megfigyelésének felel meg. Gyakran a szokásos euklideszi távolság helyett annak d 2 ij négyzetét használják. Ezenkívül bizonyos esetekben "súlyozott" euklideszi távolságot használnak, amelynek kiszámításakor az egyes kifejezésekhez súlytényezőket használnak. Az euklideszi metrika fogalmának illusztrálására egy egyszerű képzési példát használunk. Az alábbi táblázatban látható adatmátrix 5 megfigyelésből és két változóból áll.

Asztal 1

Öt megfigyelt mintából és két változóból álló adatmátrix.

Az euklideszi metrika segítségével kiszámítjuk az objektumok közötti távolságok mátrixát, amely a d ij értékekből áll - az i-edik és a j-edik objektumok közötti távolság. Esetünkben i és j a tárgy, megfigyelés száma. Mivel a minta mérete 5, i és j 1-től 5-ig vehet fel értéket. Az is nyilvánvaló, hogy az összes lehetséges páronkénti távolság száma 5*5=25 lesz. Valójában az első objektum esetében ezek a következő távolságok lesznek: 1-1; 1-2; 1-3; 1-4; 1-5. A 2. objektumhoz 5 lehetséges távolság is lesz: 2-1; 2-2; 2-3; 2-4; 2-5 stb. Azonban a szám különböző távolságok kisebb lesz, mint 25, mivel figyelembe kell venni az azonos objektumok megkülönböztethetetlenségének tulajdonságát - d ij = 0 i = j esetén. Ez azt jelenti, hogy az 1. objektum és ugyanazon objektum #1 közötti távolság nulla lesz. Ugyanezek a nulla távolságok lesznek az összes többi i = j esetre is. Ezenkívül a szimmetriatulajdonságból következik, hogy d ij = d ji bármely i és j esetén. Azok. az 1. és 2. objektumok közötti távolság egyenlő a 2. és 1. objektumok távolságával.

Az euklideszi távolság kifejezése nagyon hasonló az úgynevezett általánosított Minkowski hatványtávolsághoz, amelyben a hatványok kettő helyett egy másik értéket használnak. Általános esetben ezt az értéket a "p" szimbólum jelöli.

p = 2 esetén a szokásos euklideszi távolságot kapjuk. Tehát az általánosított Minkowski-metrika kifejezésének alakja a következő:

A "p" kitevő konkrét értékét a kutató maga választja ki.

A Minkowski-távolság speciális esete az úgynevezett Manhattan távolság, vagy "várostömb távolság", amely p=1-nek felel meg:

Így a Manhattan távolság az objektumok megfelelő jellemzői különbségeinek moduljainak összege. Ha hagyjuk, hogy p a végtelenbe hajljon, akkor megkapjuk a „dominancia” mérőszámot vagy a Sup-metrikát:

amely d ij = max|-ként is ábrázolható x ik - x jk |.

A Minkowski-metrika valójában a mérőszámok nagy családja, beleértve a legnépszerűbb mutatókat. Vannak azonban olyan módszerek az objektumok közötti távolság kiszámítására, amelyek alapvetően különböznek a Minkowski-metrikáktól. Ezek közül a legfontosabb az úgynevezett Mahalanobis távolság, amely meglehetősen sajátos tulajdonságokkal rendelkezik. Kifejezés ehhez a mérőszámhoz:

Itt keresztül x énés x j Az i-edik és a j-edik objektum változó értékeinek oszlopvektorai vannak feltüntetve. Szimbólum T kifejezésben (x én - x j ) T az úgynevezett vektortranszpozíciós műveletet jelöli. Szimbólum S a közös csoporton belüli variancia-kovariancia mátrix van feltüntetve. Egy szimbólum -1 felett S azt jelenti, hogy meg kell invertálnia a mátrixot S . A Minkowski-metrikától és az euklideszi metrikától eltérően a Mahalanobis-távolság a variancia-kovariancia mátrixon keresztül S változók korrelációihoz kapcsolódik. Ha a változók közötti korreláció nulla, a Mahalanobis-távolság ekvivalens az euklideszi távolság négyzetével.

Dichotóm (csak két értékkel rendelkező) minőségi jellemzők alkalmazása esetén a Hamming-távolság széles körben használatos.

egyenlő az i-edik és a j-edik objektum megfelelő jellemzőinek értékei közötti eltérések számával.

2. 3 A KLASZTEREK SŰRŰSÉGE ÉS LOKALITÁSA

A klaszteranalízis fő célja, hogy a mintában egymáshoz hasonló objektumcsoportokat találjunk. Tegyük fel, hogy néhány lehetséges módszerrel ilyen csoportokat - klasztereket - kaptunk. Figyelembe kell venni a klaszterek fontos tulajdonságait. Az egyik ilyen tulajdonság a pontok, megfigyelések eloszlási sűrűsége egy klaszteren belül. Ez a tulajdonság lehetővé teszi, hogy egy klasztert egy többdimenziós térben lévő pontok klasztereként definiáljunk, amely viszonylag sűrű a tér más olyan régióihoz képest, amelyek vagy egyáltalán nem tartalmaznak pontokat, vagy csak kis számú megfigyelést tartalmaznak. Más szóval, mennyire kompakt ez a klaszter, vagy fordítva, mennyire ritka. Ennek a tulajdonságnak elegendő bizonyítéka ellenére nincs egyértelmű módszer egy ilyen mutató (sűrűség) kiszámítására. Egy adott klaszterben a többdimenziós megfigyelések tömörségét, "pakolódásának" sűrűségét jellemző legsikeresebb mutató a klaszter középpontja és a klaszter egyes pontjai közötti távolság szórása. Minél kisebb ennek a távolságnak a szórása, minél közelebb vannak a megfigyelések a klaszter középpontjához, annál nagyobb a klaszter sűrűsége. És fordítva, minél nagyobb a távolság szórása, annál ritkább ez a klaszter, és ennek következtében vannak olyan pontok, amelyek a klaszter középpontjához közel és a klaszter középpontjától meglehetősen távol helyezkednek el.

A klaszterek következő tulajdonsága a méretük. A klaszter méretének fő mutatója a "sugár". Ez a tulajdonság akkor tükrözi a legteljesebben a tényleges klaszterméretet, ha a vizsgált klaszter kerek és hipergömb a többdimenziós térben. Ha azonban a klaszterek hosszúkás alakúak, akkor a sugár vagy átmérő fogalma már nem tükrözi a klaszter valódi méretét.

A klaszter másik fontos tulajdonsága a lokalitás, az elkülöníthetőség. Ez jellemzi a klaszterek átfedésének mértékét és egymástól való kölcsönös távolságát egy többdimenziós térben. Vegyük például három klaszter eloszlását az új, integrált szolgáltatások terén az alábbi ábrán. Az 1. és 2. tengelyt speciális módszerrel kaptuk a vörösvértestek különböző formáinak reflexiós tulajdonságainak 12 jellemzőjéből, amelyeket elektronmikroszkóppal vizsgáltunk.

1. kép

Látjuk, hogy az 1. klaszter mérete a minimális, míg a 2. és 3. klaszter megközelítőleg azonos méretű. Ugyanakkor elmondhatjuk, hogy a minimális sűrűség, és így a maximális távolsági szóródás a 3. klaszterre jellemző. Ezenkívül az 1. klasztert kellően nagy üres térszakaszok választják el mind a 2., mind a 3. klasztertől. Ezzel szemben a klasztereket 2 és 3 részben átfedik egymást. Érdekes tény, hogy az 1. klaszter az 1. tengely mentén sokkal nagyobb eltérést mutat a 2. és 3. klaszterhez képest, mint a 2. tengely mentén. Ezzel szemben a 2. és 3. klaszter megközelítőleg egyenlő mértékben különbözik egymástól mind az 1., mind a 2. tengely mentén. Nyilvánvalóan egy ilyen vizuális elemzéshez szükség van arra, hogy a minta összes megfigyelését speciális tengelyekre vetítsük, amelyekben a klaszterelemek vetületei külön klaszterként lesznek láthatók.

2. 4 KLASZTER KÖZÖTTI TÁVOLSÁG

Tágabb értelemben az objektumok nemcsak a kutatás eredeti alanyaiként értelmezhetők, amelyeket a "objektum-tulajdonság" mátrixban külön sorként, vagy egy többdimenziós jellemzőtér egyedi pontjaként mutatnak be, hanem az ilyen pontok különálló csoportjaként is. , amelyeket egyik vagy másik algoritmus egyesít egy klaszterbe. Ebben az esetben felmerül a kérdés, hogyan lehet megérteni az ilyen pontok (klaszterek) közötti távolságot, és hogyan lehet kiszámítani. Ebben az esetben a lehetőségek változatossága még nagyobb, mint egy többdimenziós térben két megfigyelés távolságának kiszámításakor. Ezt az eljárást bonyolítja, hogy a pontokkal ellentétben a klaszterek bizonyos mennyiségű többdimenziós teret foglalnak el, és sok pontból állnak. A klaszteranalízis során széles körben alkalmazzák a klaszterek közötti távolságokat, amelyeket a legközelebbi szomszéd (legközelebbi szomszéd), súlypont, legtávolabbi szomszéd, mediánok elve alapján számítanak ki. Négy módszert használnak a legszélesebb körben: egyetlen link, teljes hivatkozás, átlagos hivatkozás és Ward módszere. Az egylinkes metódusban egy objektum egy már létező fürthöz lesz csatolva, ha a fürt legalább egyik eleme ugyanolyan szintű hasonlóságot mutat, mint a csatlakoztatott objektum. A teljes hivatkozások módszerénél egy objektumot csak akkor csatolunk a klaszterhez, ha a felvételre jelölt és a klaszter bármely eleme közötti hasonlóság nem kisebb, mint egy bizonyos küszöb. Az átlagos csatlakozási módhoz számos módosítás létezik, amelyek kompromisszumot jelentenek az egyszeri és a teljes kapcsolat között. Kiszámítják a felvételre jelölt és a meglévő klaszter összes objektumával való hasonlóságának átlagos értékét. A csatolás akkor történik meg, ha a talált átlagos hasonlósági érték elér vagy meghalad egy bizonyos küszöböt. A leggyakrabban használt számtani átlag hasonlóság a klaszter objektumai és a klaszterbe való felvételre jelölt között.

Sok klaszterezési módszer abban különbözik egymástól, hogy az algoritmusaik minden lépésben különféle particionálási minőségi függvényeket számítanak ki. A népszerű Ward-módszert úgy alakították ki, hogy optimalizálja a klaszteren belüli távolságok minimális eltérését. Első lépésben minden klaszter egy objektumból áll, aminek köszönhetően a távolságok klaszteren belüli szórása 0. Ezzel a módszerrel azokat az objektumokat kombináljuk, amelyek a minimális diszperziónövekedést adják, aminek következtében ez a módszer hajlamos hiperszférikus klasztereket generálnak.

A klaszterelemzési módszerek osztályozására tett többszöri kísérlet több tucat vagy akár több száz különböző osztályhoz vezet. Egy ilyen változatosságot az egyes megfigyelések közötti távolság kiszámításának számos lehetséges módja, nem kevesebb módszer az egyes klaszterek közötti távolság kiszámítására a klaszterezés során, valamint a végső klaszterstruktúra optimálisságának különféle becslései generálnak.

A legnépszerűbb statisztikai csomagokban a klaszterelemzési algoritmusok két csoportját használják a legszélesebb körben: a hierarchikus agglomerációs módszereket és az iteratív csoportosítási módszereket.

3. CSOPORTOSÍTÁSI MÓDSZEREK

3. 1 A HIERARCHIKUS AGGLOMERATIV MÓDSZEREK JELLEMZŐI

A valódi orvosbiológiai kutatásokban gyakrabban használt agglomeratív hierarchikus algoritmusokban kezdetben az összes objektumot (megfigyelést) különálló, független, egyetlen elemből álló klaszternek tekintik. Hatékony számítógépes technológia alkalmazása nélkül a klaszter adatelemzés megvalósítása nagyon problematikus.

A mérőszám kiválasztását a kutató végzi. A távolságmátrix kiszámítása után kezdődik a folyamat agglomerációk (a latin agglomero szóból - csatolom, felhalmozom), szekvenciálisan haladva lépésről lépésre. Ennek a folyamatnak az első lépésében két, egymástól legkisebb távolságú kezdeti megfigyelést (monoklasztert) egyesítenek egy klaszterbe, amely már két objektumból (megfigyelésből) áll. Így a korábbi N monoklaszter (egy objektumból álló klaszter) helyett az első lépés után N-1 klaszter lesz, amelyek közül egy klaszter két objektumot (megfigyelést) tartalmaz majd, N-2 klaszter pedig továbbra is csak egy tárgy. A második lépésben az N-2 klaszterek kombinálásának különféle módszerei lehetségesek. Ennek az az oka, hogy az egyik fürt már tartalmaz két objektumot. Emiatt két fő kérdés merül fel:

· hogyan kell kiszámítani egy ilyen két (és további kettőnél több) objektumból álló klaszter koordinátáit;

· hogyan lehet kiszámítani a távolságot az ilyen "poli-objektum" klaszterektől a "monocluster"-től és a "poli-objektum" klaszterek között.

Végső soron ezek a kérdések határozzák meg a végső klaszterek végső struktúráját (a klaszterek szerkezete az egyes klaszterek összetételét és egymáshoz viszonyított helyzetét jelenti egy többdimenziós térben). A mérőszámok és a klaszterek koordinátáinak és kölcsönös távolságainak kiszámítására szolgáló módszerek különféle kombinációi a klaszterelemzési módszerek sokféleségét eredményezik. A második lépésben a több objektumból álló klaszter koordinátáinak kiszámítására választott módszertől és a klaszterközi távolságok számítási módszerétől függően lehetőség van két különálló megfigyelés újraegyesítésére egy új klaszterbe, vagy egy új klaszter összekapcsolására. megfigyelés egy két objektumból álló klaszterbe. A kényelem kedvéért a legtöbb agglomeratív-hierarchikus módszerek programja a munka végén két fő grafikont tud biztosítani a megtekintéshez. Az első gráfot dendrogramnak nevezik (a görög dendron - fa szóból), amely az agglomeráció folyamatát, az egyes megfigyelések egyetlen végső klaszterbe való egyesülését tükrözi. Adjunk példát egy 5 megfigyelésből álló dendrogramra, két változóban.

Menetrend1

Egy ilyen gráf függőleges tengelye a klaszterközi távolság tengelye, a vízszintes tengely mentén pedig az objektumok száma - az elemzésben használt esetek - jelölve. Ebből a dendrogramból látható, hogy az 1. és 2. számú objektumokat először egy klaszterbe vonják össze, mivel a köztük lévő távolság a legkisebb és egyenlő 1-gyel. Ezt az összevonást a grafikonon a függőleges szegmenseket összekötő vízszintes vonal jelzi. a C_1 és C_2 jelű pontokból kilépve. Figyeljünk arra, hogy maga a vízszintes vonal pontosan az 1-gyel egyenlő klaszterközi távolság szintjén halad át. Továbbá a második lépésben a 3. számú, C_3-nak nevezett objektum csatlakozik ehhez a már két objektumot tartalmazó klaszterhez. A következő lépés a #4 és #5 objektumok egyesítése, amelyek távolsága 1,41. Az utolsó lépésben pedig az 1., 2. és 3. objektumok klaszterét kombináljuk a 4. és 5. objektumok klaszterével. A grafikonon látható, hogy a két utolsó előtti klaszter közötti távolság (az utolsó klaszter mind az 5 objektumot tartalmazza) nagyobb, mint 5 , de kevesebb, mint 6, mivel a két utolsó előtti klasztert összekötő felső vízszintes vonal megközelítőleg 7-es szinten halad át, a 4. és 5. objektumok kapcsolódási szintje pedig 1,41.

Az alábbi dendrogramot egy 70 feldolgozottból álló valós adatkészlet elemzésével kaptuk vegyi minták, amelyek mindegyikét 12 jellemző jellemezte.

2. diagram

A grafikonon látható, hogy az utolsó lépésben, amikor az utolsó két klaszter egyesül, a köztük lévő távolság körülbelül 200 egység. Látható, hogy az első klaszter sokkal kevesebb objektumot tartalmaz, mint a második klaszter.Az alábbiakban a dendrogram egy kinagyított része látható, amelyen jól láthatóak a megfigyelési számok, C_65, C_58 stb. (balról jobbra): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 stb.

3. ábra A fenti 2. táblázat kinagyított része

Látható, hogy a 44-es objektum egy monoklaszter, amely az utolsó előtti lépésben egyesül a jobb oldali klaszterrel, majd az utolsó lépésben az összes megfigyelést egy klaszterbe egyesítik.

Az ilyen eljárásokban felépített másik grafikon a klaszterek közötti távolságok grafikonja az egyesülés minden lépésében. Az alábbiakban egy hasonló diagram látható a fenti dendrogramhoz.

4. diagram

Számos programban lehetőség van arra, hogy a fürtözés egyes lépéseinél táblázatos formában jelenítsék meg az objektumok kombinálásának eredményeit. A legtöbb ilyen táblázatban a félreértések elkerülése érdekében különböző terminológiát használnak a kezdeti megfigyelések - monoklaszterek és a két vagy több megfigyelésből álló tényleges klaszterek megjelölésére. Az angol nyelvű statisztikai csomagokban a kezdeti megfigyeléseket (az adatmátrix sorait) "case" - case-nek jelöljük. Annak szemléltetésére, hogy a klaszterstruktúra mennyire függ a metrika megválasztásától és a klaszteruniós algoritmus megválasztásától, az alábbiakban a teljes kapcsolódási algoritmusnak megfelelő dendrogramot mutatunk be. És itt látjuk, hogy a 44-es objektum a legutolsó lépésben egyesül a kijelölés többi részével.

5. diagram

Hasonlítsuk össze egy másik diagrammal, amelyet ugyanazon az adatokon az egyetlen hivatkozás módszerével kaptunk. A teljes kapcsolódási módszerrel ellentétben látható, hogy ez a módszer egymáshoz szekvenciálisan kapcsolódó objektumok hosszú láncait generálja. Mindhárom esetben azonban elmondhatjuk, hogy két fő csoport emelkedik ki.

6. diagram

Figyeljünk arra is, hogy a 44-es objektum mindhárom esetben monoklaszterként csatlakozik, bár a klaszterezési folyamat különböző lépéseiben. Az ilyen monoklaszterek kiválasztása jó eszköz a rendellenes megfigyelések, az úgynevezett outlierek kimutatására. Töröljük ezt a „gyanús” 44-es objektumot, és hajtsuk végre ismét a klaszterezést. A következő dendrogramot kapjuk:

7. ábra

Látható, hogy a „lánc” hatás megmarad, csakúgy, mint a megfigyelések két lokális csoportjára való felosztás.

3. 2 AZ ITERATÍV KLUSTEREZÉSI MÓDSZEREK JELLEMZŐI

Az iteratív módszerek közül a legnépszerűbb a McKean-féle k-közép módszer. A hierarchikus módszerekkel ellentétben ennek a módszernek a legtöbb megvalósításában a felhasználónak magának kell megadnia a végső klaszterek kívánt számát, amelyet általában "k"-vel jelölnek. A hierarchikus klaszterezési módszerekhez hasonlóan a felhasználó választhat egy vagy másik típusú metrikát. A k-means módszer különböző algoritmusai az adott klaszterek kezdeti középpontjainak kiválasztásában is különböznek. A módszer egyes változataiban a felhasználó maga is megadhat (vagy kell) ilyen kezdeti pontokat, akár úgy, hogy valódi megfigyelésekből választja ki őket, akár úgy, hogy minden változóhoz megadja ezeknek a pontoknak a koordinátáit. A módszer más megvalósításaiban egy adott k számú kezdőpont kiválasztása véletlenszerűen történik, és ezek a kezdőpontok (klaszterszemcsék) a későbbiekben több lépésben finomíthatók. Az ilyen módszereknek 4 fő szakasza van:

· válasszon ki vagy rendeljen hozzá k megfigyelést, amelyek a klaszterek elsődleges központjai lesznek;

· szükség esetén közbülső klasztereket alakítanak ki úgy, hogy minden megfigyelést a legközelebbi meghatározott klaszterközpontokhoz rendelnek;

· miután az összes megfigyelést az egyes klaszterekhez rendeltük, az elsődleges klaszterközpontokat klaszterátlagokkal helyettesítjük;

· az előző iterációt addig ismételjük, amíg a klaszterközéppontok koordinátáinak változása minimálisra nem csökken.

A módszer egyes verzióiban a felhasználó beállíthatja a feltétel számértékét, amelyet a rendszer az új klaszterközéppontok kiválasztásának minimális távolságaként értelmez. A megfigyelő nem tekinthető jelöltnek új központ klaszter, ha távolsága a klaszter lecserélt középpontjától meghaladja a megadott számot. Ezt a paramétert egyes programokban "sugárnak" nevezik. Ezen a paraméteren kívül lehetőség van az iterációk maximális számának beállítására vagy egy bizonyos, általában meglehetősen kicsi szám elérésére is, amellyel az összes klaszterközéppont távolságváltozását összehasonlítjuk. Ezt a beállítást általában "konvergenciának" nevezik, mert tükrözi az iteratív klaszterezési folyamat konvergenciáját. Az alábbiakban bemutatunk néhány olyan eredményt, amelyet a McKean k-means módszerével kaptunk az előző adatokhoz. A kívánt klaszterek számát kezdetben 3-ra, majd 2-re állítottuk be. Első részük egytényezős eredményt tartalmaz. varianciaanalízis, amelyben a klaszterszám csoportosító tényezőként működik. Az első oszlop egy 12 változóból álló lista, ezt követi a négyzetösszegek (SS) és a szabadságfokok (df), majd a Fisher-féle F-próba, az utolsó oszlopban pedig az elért „p” szignifikancia szint.

2. táblázat McKean k-mean adatok 70 vizsgálati mintára vonatkoztatva.

Változók

Amint ebből a táblázatból látható, a három csoport átlagainak egyenlőségére vonatkozó nullhipotézist elvetik. Az alábbiakban az egyes klaszterekre vonatkozó összes változó átlagának grafikonja látható. A változók azonos klaszterátlagait az alábbiakban táblázat formájában mutatjuk be.

3. táblázat Az adatok részletes áttekintése három klaszter példáján.

Változó

1. klaszter

2. klaszter

3. klaszter

8. ábra

Az egyes klaszterek változóinak átlagértékeinek elemzése arra enged következtetni, hogy az X1 jellemző szerint az 1. és 3. klaszter közeli, míg a 2. klaszter átlagos értéke jóval alacsonyabb, mint a másik két klaszteré. Éppen ellenkezőleg, az X2 jellemző szerint az első klaszter a legalacsonyabb, míg a 2. és 3. klaszter magasabb és közeli átlagértékkel rendelkezik. Az X3-X12 jellemzők esetében az 1. klaszter átlagértékei szignifikánsan magasabbak, mint a 2. és 3. klaszterben. A két klaszterbe történő klaszterezés eredményeinek ANOVA elemzésének alábbi táblázata is azt mutatja, hogy el kell vetni az egyenlőségre vonatkozó nullhipotézist. csoportátlagok szinte mind a 12 jellemzőre, kivéve az X4 változót, amelynél az elért szignifikanciaszint 5% felettinek bizonyult.

4. táblázat. A két klaszterbe történő klaszterezés eredményeinek diszperziós elemzésének táblázata.

Változók

Az alábbiakban egy grafikon és táblázat látható a csoport átlagairól a két klaszterbe való csoportosítás esetére.

5. táblázat. Táblázat a két klaszterbe történő klaszterezés esetére.

Változók

1. klaszter

2. klaszter

9. ábra.

Abban az esetben, ha a kutató nem tudja előre meghatározni a klaszterek legvalószínűbb számát, kénytelen megismételni a számításokat, más szám beállításával, hasonlóan a fentiekhez. Ezután a kapott eredményeket összehasonlítva álljunk meg az egyik legelfogadhatóbb klaszterezési lehetőségnél.

4 . JELLEMZŐK CSOPORTOSÍTÁSA

Az egyedi megfigyelések klaszterezésén kívül léteznek jellemző klaszterező algoritmusok is. Az egyik első ilyen módszer a korrelációs plejádok módszere Terentiev P.V. Az ilyen plejádok primitív képei gyakran megtalálhatók az orvosbiológiai publikációkban, kör alakjában, amelyet nyilakkal tarkítottak a jelek, amelyek között a szerzők összefüggést találtak. Számos objektum és szolgáltatás fürtözésére szolgáló program külön eljárásokkal rendelkezik. Például a SAS-csomagban a szolgáltatásfürtözéshez a VARCLUS eljárást (VARiable - változó és CLUSter - cluster) használják, míg a megfigyelések klaszterelemzését más eljárások - FASTCLUS és CLUSTER - végzik. A dendrogram felépítése mindkét esetben a TREE (fa) eljárással történik.

Más statisztikai csomagokban a klaszterezéshez szükséges elemek - objektumok vagy jellemzők - kiválasztása ugyanabban a modulban történik. A jellemzők klaszterezésének mérőszámaként gyakran olyan kifejezéseket használnak, amelyek tartalmazzák bizonyos együtthatók értékét, amelyek tükrözik egy jellemzőpár kapcsolatának erősségét. Ebben az esetben nagyon kényelmes az eggyel egyenlő kapcsolati erősségű jeleknek (funkcionális függőség), ha a jelek közötti távolságot nullával egyenlőnek veszik. Valójában funkcionális kapcsolat esetén az egyik jellemző értéke pontosan ki tudja számítani egy másik jellemző értékét. A jelek közötti kapcsolat erősségének csökkenésével a távolság ennek megfelelően nő. Az alábbiakban egy grafikon látható, amely 12 jellemző kombinációjának dendrogramját mutatja, amelyeket fentebb 70 analitikai minta klaszterezésekor használtunk.

10. grafikon Dendrogram12 jellemző klaszterezése.

Amint ebből a dendrogramból is látható, a jellemzők két helyi csoportosításával van dolgunk: X1-X10 és X11-X12. Az X1-X10 jellemzők csoportját a klaszterközi távolságok meglehetősen kis értéke jellemzi, amely nem haladja meg a 100 egységet. Itt is látunk néhány belső párosított alcsoportot: X1 és X2, X3 és X4, X6 és X7. E párok jellemzői közötti távolság, amely nagyon közel van a nullához, erős párkapcsolatukat jelzi. Míg az X11 és X12 pár esetében a klaszterek közötti távolság értéke sokkal nagyobb, és körülbelül 300 egység. Végül, a bal (X1-X10) és a jobb (X11-X12) klaszterek közötti nagyon nagy távolság, amely körülbelül 1150 egységnek felel meg, azt jelzi, hogy a két jellemzőcsoport közötti kapcsolat meglehetősen minimális.

5. A KLASZTEREZÉS STABILITÁSA ÉS MINŐSÉGE

Nyilvánvalóan abszurd lenne feltenni azt a kérdést, hogy mennyire abszolút a klaszterelemzési módszerekkel kapott osztályozás. A klaszterezési módszer megváltoztatásakor a stabilitás abban nyilvánul meg, hogy két klaszter elég jól látható a dendrogramokon.

A klaszterelemzési eredmények stabilitásának ellenőrzésének egyik lehetséges módjaként a különböző klaszterező algoritmusoknál kapott eredmények összehasonlításának módszere használható. További módok a B. Efron által 1977-ben javasolt úgynevezett bootstrap módszer, a "jackknife" és a "sliding control" módszerek. A klasztermegoldás stabilitásának ellenőrzésének legegyszerűbb módja az lehet, ha a kezdeti mintát véletlenszerűen két nagyjából egyenlő részre osztjuk, mindkét részt klaszterezzük, majd összehasonlítjuk az eredményeket. Egy időigényesebb módszer magában foglalja az első objektum szekvenciális kizárását az elején, és a többi (N - 1) objektum csoportosítását. Továbbá, ezt az eljárást egymás után végrehajtva, kivéve a második, harmadik stb. objektumok esetén az összes N kapott klaszter szerkezetét elemzi. Egy másik stabilitás-ellenőrzési algoritmus magában foglalja az N objektum eredeti mintájának többszöri reprodukálását, az eredeti minta megkettőzését, majd az összes duplikált minta egy nagy mintává (pszeudo-általános sokaság) egyesítését, és egy új, N objektumból álló minta véletlenszerű kinyerését. Ezt követően ezt a mintát klaszterezzük, majd egy új véletlenszerű mintát veszünk, és ismét klaszterezést hajtunk végre stb. Ez is elég munkaigényes.

Nem kevesebb probléma merül fel a klaszterezés minőségének értékelése során. A klasztermegoldások optimalizálására jó néhány algoritmus ismert. Az 50-es években jelentek meg az első munkák, amelyek tartalmazták a klaszteren belüli variancia minimalizálására vonatkozó kritérium megfogalmazásait és az optimális megoldás megtalálására szolgáló (k-means típusú) algoritmust. 1963-ban J. Ward cikke is bemutatott egy hasonló optimalizálási hierarchikus algoritmust. A fürtmegoldás optimalizálására nincs univerzális kritérium. Mindez megnehezíti a kutató számára az optimális megoldás kiválasztását. Ilyen helyzetben a lehető legjobb módon annak állítása, hogy a talált klasztermegoldás a vizsgálat ezen szakaszában optimális, csak ennek a megoldásnak a konzisztenciája a többváltozós statisztika más módszereivel kapott következtetésekkel.

A klaszterezés optimálisságára vonatkozó következtetés mellett pozitív eredmények születtek a kapott megoldás prediktív mozzanatainak már más vizsgálati tárgyakon történő ellenőrzése is. A klaszteranalízis hierarchikus módszereinek alkalmazásakor több grafikon összehasonlítását javasolhatjuk egymással fokozatos változás klaszterek közötti távolság. Ebben az esetben előnyben kell részesíteni azt a lehetőséget, amelynél az első lépéstől több utolsó előtti lépésig egy ilyen növekmény sík vonala figyelhető meg, a grafikonon éles függőleges emelkedéssel a klaszterezés utolsó 1-2 lépésében.

KÖVETKEZTETÉSEK

Munkám során nem csak az ilyen típusú elemzések bonyolultságát, hanem az optimális adatfeldolgozási képességeket is igyekeztem bemutatni, mert az eredmények pontosságához gyakran több tíztől százig terjedő mintát kell felhasználni. Ez a típus az elemzés segíti az eredmények osztályozását és feldolgozását. Nem tartom lényegtelennek a számítástechnikai technológiák elfogadhatóságát sem ebben az elemzésben, amely lehetővé teszi az eredmények feldolgozási folyamatának kevésbé időigényessé tételét, és így nagyobb figyelmet fordít az elemzési mintavétel helyességére.

A klaszteranalízis alkalmazása során vannak olyan finomságok, részletek, amelyek egyedi konkrét esetekben jelennek meg, és nem azonnal láthatók. Például a jellemzők skálájának szerepe minimális lehet, és bizonyos esetekben domináns lehet. Ilyen esetekben változó transzformációt kell alkalmazni. Ez különösen akkor hatékony, ha olyan módszereket használunk, amelyek nemlineáris jellemzőtranszformációkat hoznak létre, amelyek általában növelik a jellemzők közötti összefüggések általános szintjét.

Még nagyobb a specifikusság a klaszteranalízis olyan objektumokkal kapcsolatban, amelyeket csak minőségi jellemzők írnak le. Ebben az esetben a kvalitatív jellemzők előzetes digitalizálásának és az új jellemzőkkel történő klaszteranalízis módszerei meglehetősen sikeresek. Munkám során kimutattam, hogy a klaszteranalízis nagyon sok új és eredeti információval szolgál mind a kellően tanulmányozott rendszerekben való alkalmazása, mind az ismeretlen szerkezetű rendszerek vizsgálata során.

Azt is meg kell jegyezni, hogy a klaszteranalízis nélkülözhetetlenné vált az evolúciós kutatásban, lehetővé téve az evolúciós utakat mutató filogenetikai fák építését. Ezeket a módszereket széles körben használják a programokban tudományos kutatás a fizikai és analitikai kémiából.

BIBLIOGRÁFIA

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Az alkalmazott statisztikai elemzéshez szükséges szoftvercsomag felépítéséről és tartalmáról//Algoritmikus és szoftver alkalmazott statisztikai elemzés.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. A többdimenziós megfigyelések osztályozása.--M.: Statisztika, 1974.

3) Becker V. A., Lukatskaya M. L. A csatolási együtthatók mátrixának szerkezetének elemzéséről//A gazdasági és statisztikai modellezés és előrejelzés kérdései az iparban.-- Novoszibirszk, 1970.

4) Braverman E. M., Muchnik I. B. Strukturális módszerek adatfeldolgozás.--M.: Nauka, 1983.

5) Voronin Yu. A. Osztályozási elmélet és alkalmazásai. - Novoszibirszk: Nauka, 1987.

6) Jó I. J. Botryology of botryology//Osztályozás és klaszter.--M.: Mir, 1980.

7) Dubrovsky S. A. Alkalmazott többváltozós statisztikai elemzés.--M.: Pénzügy és statisztika, 1982.

8) Duran N., Odell P. Klaszterelemzés.--M.: Statisztika, 1977.

9) Eliseeva I.I., Rukavishnikov V.S. Csoportosítás, korreláció, mintafelismerés.--M.: Statisztika, 1977.

10) Zagoruiko N. G. Felismerési módszerek és alkalmazásuk.--M .: Szovjet rádió, 1972.

11) Zade L. A. Fuzzy halmazok és alkalmazásuk a mintafelismerésben és a klaszteranalízisben//Classification and cluster.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Többdimenziós csoportosítások.--M.: Statisztika, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA A particionálás érvényességének ellenőrzésének egyik módja a klaszteranalízisben.//Többváltozós statisztikai elemzés alkalmazása a közgazdaságtanban és a termékminőség-értékelésben.--Ch. P. Tartu, 1977.

14) Shurygin A. M. Interpoint távolságok és különbségek megoszlása ​​// Szoftver és algoritmikus támogatás az alkalmazott többdimenziós statisztikai elemzéshez.--M., 1983.

15) Eeremaa R. Klaszterrendszerek tervezésének általános elmélete és numerikus ábrázolásaik megtalálására szolgáló algoritmusok: Proceedings of the Computing Center of TSU.--Tartu, 1978.

16) Yastremsky B.S. Válogatott művek.--M.: Statisztika, 1964.

Hasonló dokumentumok

    A piaci szegmentáció céljai ben marketing tevékenység. A klaszteranalízis lényege, megvalósításának főbb állomásai. Válassza ki a távolság vagy a hasonlóság mérésének módját. Hierarchikus, nem hierarchikus klaszterezési módszerek. Megbízhatóság és megbízhatóság értékelése.

    jelentés, hozzáadva 2009.11.02

    Főbb jellemzők pénzügyi helyzet vállalkozások. Vállalkozási válságok, okai, típusai és következményei. Modern módszerekés klaszterelemző eszközök, használatuk jellemzői a vállalkozás pénzügyi és gazdasági értékeléséhez.

    szakdolgozat, hozzáadva: 2013.10.09

    Végezze el a vállalkozások klaszterelemzését a Statgraphics Plus segítségével. Lineáris regressziós egyenlet felépítése. Rugalmassági együtthatók számítása regressziós modellekkel. Az egyenlet statisztikai szignifikanciájának és a determinációs együttható értékelése.

    feladat, hozzáadva 2014.03.16

    Tipológiai regressziók felépítése az egyes megfigyelési csoportokhoz. Térbeli adatok és időbeli információk. A klaszteranalízis alkalmazási köre. A tárgyak homogenitásának fogalma, a távolságmátrix tulajdonságai. Tipológiai regresszió végrehajtása.

    bemutató, hozzáadva 2013.10.26

    Kombinált modellek és módszerek létrehozása mint modern módon előrejelzés. ARIMA alapú modell stacionárius és nem stacionárius idősorok leírására klaszterezési problémák megoldásában. Autoregresszív AR modellek és korrelogramok alkalmazása.

    bemutató, hozzáadva: 2015.01.05

    Különböző típusú mérőszámok jellemzői. Legközelebbi szomszéd módszer és általánosításai. Legközelebbi szomszéd algoritmus. Parzen ablak módszer. Általános metrikus osztályozó. A mérőszám kiválasztásának problémája. Manhattan és Euklideszi távolság. koszinusz mérték.

    szakdolgozat, hozzáadva 2015.08.03

    A Krasznodar Terület építőiparának jellemzői. A lakásépítés fejlődésének előrejelzése. A klaszteranalízis korszerű módszerei és eszközei. Többdimenziós statisztikai módszerek egy vállalkozás gazdasági állapotának diagnosztizálására.

    szakdolgozat, hozzáadva: 2015.07.20

    A jelzáloghitelezés jellemzői a Brjanszki régió példáján. Matematikai döntéshozatali módszerek áttekintése: szakértői értékelések, szekvenciális és páros összehasonlítások, hierarchiaelemzés. Az optimális jelzáloghitel keresőprogramjának kidolgozása.

    szakdolgozat, hozzáadva 2012.11.29

    A rendszerelemzés alkalmazási területei, helye, szerepe, céljai és funkciói modern tudomány. A rendszerelemzés módszereinek fogalma, tartalma, informális módszerei. A heurisztikus és szakértői kutatási módszerek jellemzői és alkalmazásuk jellemzői.

    szakdolgozat, hozzáadva 2013.05.20

    Ökonometriai módszerek fejlesztése, kutatása a gazdasági adatok sajátosságait figyelembe véve és az igényeknek megfelelően közgazdaságtanés gyakorlatok. Ökonometriai módszerek és modellek alkalmazása gazdasági adatok statisztikai elemzésére.

Egyetem: VZFEI

Év és város: Moszkva 2008


1. Bemutatkozás. A klaszterelemzési módszer fogalma.

2. A klaszteranalízis alkalmazási módszertanának ismertetése. Kontroll példa a problémamegoldásra.

4. Felhasznált irodalom jegyzéke

  1. Bevezetés. A klaszterelemzési módszer fogalma.

A klaszteranalízis olyan módszerek összessége, amelyek lehetővé teszik a többdimenziós megfigyelések osztályozását, amelyek mindegyikét X1, X2, ..., Xk jellemzők (paraméterek) írják le.

A klaszteranalízis célja egymáshoz hasonló objektumcsoportok kialakítása, amelyeket általában klasztereknek (osztály, taxon, koncentráció) neveznek.

A klaszteranalízis a statisztikai kutatások egyik területe. Különösen fontos helyet foglal el azokban a tudományágakban, amelyek a tömegjelenségek és -folyamatok vizsgálatához kapcsolódnak. A klaszteranalízis módszereinek kidolgozásának és alkalmazásának szükségességét az diktálja, hogy elősegítik a tudományosan megalapozott osztályozások felépítését, azonosítását. belső kommunikáció a megfigyelt populáció egységei között. Ezen kívül klaszterelemzési módszerek is használhatók az információk tömörítésére, ami fontos tényező a statisztikai adatfolyamok állandó növekedése és összetettsége esetén.

A klaszterelemzési módszerek a következő problémák megoldását teszik lehetővé:

A tárgyak osztályozásának elvégzése, figyelembe véve a tárgyak lényegét, természetét tükröző jellemzőket. Egy ilyen probléma megoldása általában a besorolandó objektumok összességével kapcsolatos ismeretek elmélyítéséhez vezet;

A vizsgált objektumhalmazban valamilyen struktúra jelenlétére vonatkozó feltételezések ellenőrzése, pl. meglévő struktúra keresése;

Új osztályozások felépítése a gyengén vizsgált jelenségekre, amikor a populáción belüli kapcsolatok jelenlétét kell megállapítani, és meg kell próbálni ebbe strukturálni (1. 85-86. o.).

2. A klaszteranalízis alkalmazási módszertanának ismertetése. Kontroll példa a problémamegoldásra.

A klaszteranalízis lehetővé teszi, hogy n objektumból homogén csoportokra (klaszterekre) bontsa ki, amelyeket k jellemzővel jellemez. Az objektumok homogenitását a p(xi xj) távolság határozza meg, ahol xi = (xi1, …., xik) és xj= (xj1,…,xjk) az i k attribútumának értékéből álló vektorok. -edik és j-edik objektumok.

A numerikus jellemzőkkel jellemezhető objektumok távolságát a következő képlet határozza meg:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Az objektumokat homogénnek tekintjük, ha p(xi xj)< p предельного.

Az unió grafikus ábrázolása egy fürt uniófa - dendrogram - segítségével érhető el. (2. 39. fejezet).

Teszteset (92. példa).

Az értékesítés volumene

Osztályozzuk ezeket az objektumokat a „közeli szomszéd” elv alapján. Határozzuk meg az objektumok közötti távolságokat az (1)* képlet segítségével. Töltsük ki a táblázatot.

Magyarázzuk el, hogyan kell kitölteni a táblázatot.

Az i sor és a j oszlop metszéspontjában a p(xi xj) távolság látható (az eredményt két tizedesjegyre kerekítjük).

Például az 1. sor és a 3. oszlop metszéspontjában a p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10 távolság látható, a 3. sor és oszlop metszéspontjában pedig 5, a távolság p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6,08. Mivel p(xi, xj) = p(xj,xi), a táblázat alsó részét nem kell kitölteni.

Alkalmazzuk a „közeli szomszéd” elvet. A táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van, akkor bármelyiket választjuk). Ez p 1,2 ≈ p 4,5 \u003d 2,24. Legyen p min = p 4,5 = 2,24. Ekkor a 4-es és 5-ös objektumot egy csoportba vonhatjuk, azaz a 4-es és 5-ös összevont oszlopban lesz a legkisebb az eredeti távolságtáblázat megfelelő számú 4-es és 5-ös oszlopa. Ugyanezt tesszük a 4. és 5. sorral is. Kapunk egy új táblázatot.

A kapott táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van, akkor bármelyiket választjuk): р min = р 1,2 = 2,24. Ekkor az 1,2,3 objektumokat összevonhatjuk egy csoportba, vagyis az 1,2,3 egyesített oszlop az előző távolságtáblázat 1., 2. és 3. oszlopának megfelelő számú oszlopát tartalmazza majd. Ugyanezt tesszük az 1., 2. és 3. sorral is. Új táblázatot kapunk.

Két klasztert kaptunk: (1,2,3) és (4,5).

3. Feladatok megoldása az irányítási munkához.

85. probléma.

Feltételek:Öt gyártóüzemet két jellemző jellemez: az értékesítési volumen és a tárgyi eszközök átlagos éves költsége.

Az értékesítés volumene

Átlagos éves költségálló termelési eszközök

Megoldás: Határozzuk meg az objektumok közötti távolságokat az (1)* képlettel (két tizedesjegyre kerekítünk):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1,2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3,61

p 1,3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2,2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2,3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 \u003d √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

A számítások eredményei alapján kitöltjük a táblázatot:

Alkalmazzuk a legközelebbi szomszéd elvét. Ehhez a táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van belőlük, válassza ki bármelyiket). Ez p 2,3=2,24. Legyen p min = p 2,3 = 2,24, akkor kombinálhatjuk a "2" és "3" oszlopok objektumait, valamint kombinálhatjuk a "2" és "3" objektumok sorait is. Az új táblázatban az eredeti táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

Az új táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van belőlük, akkor bármelyiket kiválasztjuk). Ez p 4,5=3,16. Legyen p min = p 4,5 = 3,16, akkor kombinálhatjuk a "4" és "5" oszlopok objektumait, valamint kombinálhatjuk a "4" és "5" objektumok sorait is. Az új táblázatban az eredeti táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

Az új táblázatban megtaláljuk a távolságok közül a legkisebbet (ha több van belőlük, akkor bármelyiket kiválasztjuk). Ezek p 1, 2 és 3=3,61. Legyen p min = p 1, 2 és 3 = 3,61, akkor összevonhatjuk az "1" és a "2 és 3" oszlopobjektumokat, illetve sorokat is egyesíthetünk. Az új táblázatban az eredeti táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

Két klasztert kapunk: (1,2,3) és (4,5).

A dendrogram megmutatja az elemek kiválasztásának sorrendjét és a megfelelő minimális távolságokat pmin.

Válasz: A "legközelebbi szomszéd" elve szerinti klaszteranalízis eredményeként 2 egymáshoz hasonló objektumcsoport jön létre: (1,2,3) és (4,5).

211. feladat.

Feltételek:Öt gyártóüzemre két jellemző jellemző: az értékesítési volumen és a tárgyi eszközök átlagos éves értéke.

Az értékesítés volumene

Állandó termelési eszközök éves átlagos költsége

Osztályozza ezeket az objektumokat a legközelebbi szomszéd elv alapján.

Megoldás: A probléma megoldásához az adatokat az eredeti táblázatban mutatjuk be. Határozzuk meg az objektumok közötti távolságokat. Az objektumokat a „legközelebbi szomszéd” elv szerint osztályozzuk. Az eredményeket dendrogram formájában mutatjuk be.

Az értékesítés volumene

Állandó termelési eszközök éves átlagos költsége

Az (1)* képlet segítségével megtaláljuk az objektumok közötti távolságokat:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2, 3 = 7,07, p 2,4 = 2, p 2,5 = 3,3, p 2,5 = 3,3 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4, 4 = 0, p 4,5 = 1, p 5,5 = 0.

Az eredményeket a táblázat tartalmazza:

A táblázatban szereplő távolságok legkisebb értéke p 4,5=1. Legyen p min = p 4,5 = 1, akkor kombinálhatjuk a "4" és "5" oszlopok objektumait, valamint kombinálhatjuk a "4" és "5" objektumok sorait is. Az új táblázatban az eredeti táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

Az új táblázatban szereplő távolságok legkisebb értéke p 2, 4 és 5=2. Legyen p min = p 2, 4 és 5=2, ekkor kombinálhatjuk a "4 és 5" és a "3" oszlopok objektumait, valamint kombinálhatjuk a "4 és 5" és a "3" objektumok sorait is. Az új táblázatban a táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

A távolságok legkisebb értéke az új táblázatban p 3,4,5=2. Legyen p min = p 3,4,5=2, akkor kombinálhatjuk a "3,4,5" és a "2" oszlopok objektumait, valamint kombinálhatjuk a "3,4,5" és "" objektumok sorait is. 2" Az új táblázatban a táblázat legkisebb értékeit írjuk be a kombinált csoportokba.

vagy jelentkezzen be az oldalra.

Fontos! Minden bemutatott, ingyenesen letölthető tesztanyag célja, hogy tervet vagy alapot készítsen saját tudományos munkájához.

Barátok! Neked van egyedülálló lehetőség segíts a hozzád hasonló tanulóknak! Ha oldalunk segített megtalálni a megfelelő munkát, akkor biztosan megérti, hogy az Ön által hozzáadott munka hogyan könnyíti meg mások munkáját.

Ha az ellenőrzés működik, az Ön véleménye szerint Rossz minőség, vagy már találkozott ezzel a munkával, tudassa velünk.

Lásd KLUSTER ELEMZÉS. Antinazi. Szociológiai Enciklopédia, 2009... Szociológiai Enciklopédia

klaszteranalízis- ez egy olyan módszerkészlet, amely lehetővé teszi többdimenziós megfigyelések osztályozását, amelyek mindegyikét egy bizonyos változókészlet írja le. A klaszteranalízis célja egymáshoz hasonló objektumcsoportok kialakítása, amelyeket általában ... ... Szociológiai szótár Socium

klaszteranalízis- egy matematikai eljárás többdimenziós elemzéshez, amely lehetővé teszi számos objektumot (például alanyokat) jellemző mutatószámok alapján, hogy osztályokba (klaszterekbe) csoportosítsuk őket úgy, hogy az egy osztályba tartozó objektumok több . .. ... Nagy Pszichológiai Enciklopédia

Klaszteranalízis- egy matematikai eljárás, amely lehetővé teszi, hogy bármely halmaz egyes objektumára (például alanyára) jellemző több jellemző mennyiségi értékének hasonlósága alapján ezeket az objektumokat bizonyos osztályokba vagy klaszterekbe csoportosítsa. .. Pszichológiai szótár

klaszteranalízis- - [L.G. Sumenko. Angol orosz információs technológiai szótár. M.: GP TsNIIS, 2003.] Témák Információs technológiaáltalános EN klaszteranalízis… Műszaki fordítói kézikönyv

klaszteranalízis- * klaszterelemzés * A klaszterelemzés vagy adatfürtözés egy többdimenziós statisztikai eljárás, amely információkat gyűjt bizonyos objektumokról, majd az objektumokat viszonylag homogén klasztercsoportokba rendezi (Q ... ... Genetika. enciklopédikus szótár

klaszteranalízis- Kívánatos-e ezt a cikket matematikából javítani?: Lábjegyzetek készítése, a források pontosabb megjelölése. Javítsd ki a cikket a Wikipédia stilisztikai szabályai szerint. Recycle ofo ... Wikipédia

KLASZTERANALÍZIS- - matematikai eljárás többdimenziós elemzéshez, amely lehetővé teszi számos objektumot (például alanyokat) jellemző indikátorkészlet alapján, hogy azokat osztályokba (klaszterekbe) csoportosítsuk, így az egy osztályba tartozó objektumok több ... ... Pszichológiai és pedagógiai enciklopédikus szótár

KLASZTERANALÍZIS - Gyakori név komplex adatok mélyszerkezetének meghatározására szolgáló különféle matematikai módszerekhez. A klaszteranalízis sok tekintetben hasonló a faktoranalízishez. Mindkettő magában foglalja olyan egységes elemek (tényezők vagy klaszterek) keresését, amelyek... ... Pszichológiai magyarázó szótár

KLASZTERANALÍZIS- (klaszteranalízis) olyan objektumok vagy emberek csoportjainak azonosítására használt technika, amelyek relatív eltérést mutathatnak egy adathalmazban. Ezután megvizsgálják az ilyen emberek jellemzőit az egyes csoportokon belül. A piackutatásban ...... Nagy magyarázó szociológiai szótár

KLASZTERANALÍZIS- (KLUSTERANALÍZIS) Statisztikai technikák csoportja, amelyeket az adatok belső szerkezetének meghatározására használnak több változóra vonatkozó kutatási információk elemzése során. A klaszteranalízis célja az objektumok csoportjainak azonosítása ... ... szociológiai szótár

Ezt a könyvet a többdimenziós folyamatok és jelenségek ilyen értelemben vett elemzésének egyik legígéretesebb megközelítésének – a klaszteranalízisnek – szenteljük.

A klaszteranalízis a többdimenziós objektumok csoportosításának egyik módja, amely az egyes megfigyelések eredményeinek megfelelő geometriai tér pontjai szerinti bemutatásán alapul, majd a csoportok kiválasztását ezeknek a pontoknak a "csomójaként". Valójában a "klaszter" (klaszter) benne van angol nyelvés jelentése „rög”, „fürt (szőlő)”, „csillagfürt” stb. Ez a kifejezés szokatlanul jól illeszkedik a tudományos terminológiába, mivel első szótagja a hagyományos „osztály” kifejezésnek felel meg, a második pedig mintegy mesterséges eredetét jelzi. Nincs kétségünk afelől, hogy a klaszteranalízis terminológiája felvált minden korábban erre a célra használt konstrukciót (felügyelet nélküli mintázatfelismerés, rétegződés, taxonómia, automatikus osztályozás stb.). A klaszterelemzés lehetséges lehetőségei nyilvánvalóak például a hasonló körülmények között vagy hasonló eredménnyel működő vállalkozási csoportok, az élet vagy általában az életmód különböző területein homogén népességcsoportok azonosításának problémáinak megoldására.

Tudományos irányként a klaszteranalízis a hatvanas évek közepén deklarálta magát, és azóta rohamosan fejlődik, a statisztikatudomány legintenzívebb növekedésének egyik ága. Elég, ha azt mondjuk, hogy csak a különböző országokban eddig megjelent klaszteranalízis-monográfiák számát mérik százban (miközben mondjuk a többváltozós statisztikai elemzés olyan „megérdemelt” módszere szerint, mint pl. faktoranalízis, aligha lehet több tucat könyvet összeszámolni). És ez teljesen érthető. Hiszen tulajdonképpen a csoportosítási művelet modellezéséről beszélünk, ami nemcsak a statisztikában, hanem általában - mind a megismerésben, mind a döntéshozatalban - az egyik legfontosabb.

Hazánkban számos monográfia jelent meg konkrét társadalmi-gazdasági problémák klaszterelemzéssel (1), a klaszterelemzés társadalmi-gazdasági kutatásokban való alkalmazásának módszertanával (2), a klaszterelemzés módszertanával, mint olyannal foglalkozó monográfia (1). 3) (A statisztikai elemzés alapjai )

I. D. Mandel javasolt könyve mintegy merőleges erre a besorolásra: tartalma e három terület mindegyikéhez kapcsolódik.

A könyv célja az összefoglalás a legkorszerűbb klaszterelemzés, elemezze felhasználási lehetőségeit és a továbbfejlesztés feladatait. Ez a gondolat önmagában is tiszteletet ébreszt: az elfogulatlan elemzés és általánosítás sok munkát, műveltséget, bátorságot igényel, és a tudományos közösség jóval alacsonyabbra értékeli, mint saját terveinek népszerűsítését és fejlesztését. (A könyv azonban tartalmazza a szerző eredeti fejlesztéseit is, amelyek az „intenzionális” elemzéshez és az osztályozás kettősségéhez kapcsolódnak.)

A könyv előnyei és hiányosságai egyaránt e cél megvalósításához kapcsolódnak. Az előnyök között szerepelnie kell:

· a homogenitás, csoportosítás és osztályozás fogalmainak módszertani vizsgálata a jelenségek és folyamatok többdimenziós voltát figyelembe véve;

· a klaszteranalízis megközelítéseinek és módszereinek szisztematikus áttekintése (beleértve akár 150 specifikus algoritmust);

· klaszterelemzési eljárások kísérleti összehasonlításának technológiájának és eredményeinek bemutatása; Ezt a könyvet a többdimenziós folyamatok és jelenségek ilyen értelemben vett elemzésének egyik legígéretesebb megközelítésének – a klaszteranalízisnek – szenteljük.

A klaszteranalízis a többdimenziós objektumok csoportosításának egyik módja, amely az egyes megfigyelések eredményeinek megfelelő geometriai tér pontjai szerinti bemutatásán alapul, majd a csoportok kiválasztását ezeknek a pontoknak a "csomójaként". Valójában a „fürt” (cluster) angolul „rögöt”, „fürt (szőlő)”, „fürt (csillagok)” stb. jelent. Ez a kifejezés szokatlanul jól illeszkedik a tudományos terminológiába, mivel az első szótagja a hagyományosnak felel meg. „osztály” kifejezés, a második pedig mintegy mesterséges eredetét jelzi. Nincs kétségünk afelől, hogy a klaszteranalízis terminológiája felvált minden korábban erre a célra használt konstrukciót (felügyelet nélküli mintázatfelismerés, rétegződés, taxonómia, automatikus osztályozás stb.). A klaszterelemzés lehetséges lehetőségei nyilvánvalóak például a hasonló körülmények között vagy hasonló eredménnyel működő vállalkozási csoportok, az élet vagy általában az életmód különböző területein homogén népességcsoportok azonosításának problémáinak megoldására.

Tudományos irányként a klaszteranalízis a hatvanas évek közepén deklarálta magát, és azóta rohamosan fejlődik, a statisztikatudomány legintenzívebb növekedésének egyik ága. Elég, ha csak annyit mondunk, hogy a klaszterelemzésről, a fejlesztésről csak néhány monográfia általános sémák a meglehetősen szemléletes táblázatokban megvalósított klaszterelemzési módszerek alkalmazása; az előadás ajánló jellege.

Ezek az előnyök határozzák meg I. D. Mandel könyvének önálló helyét a többi publikáció között.

A könyv hiányosságai az egyes ajánlások kétértelműsége, valamint a klaszterelemzési módszerek tantárgyi társadalmi-gazdasági alkalmazásokban való alkalmazásának kérdéskörének szisztematikus elemzésének hiánya. Igaz, ez utóbbi annak tudható be, hogy ezen a területen a klaszterelemzést nem alkalmazzák kellőképpen.

A könyv olyan ugródeszkát ad, amelynek használata elősegíti az előrehaladást bármely elmélet legnehezebb kérdésében - az általa biztosított eszközök gyakorlati használatában.

B. G. Mirkin

A kutatási témák az Új-Guineában élő mumifikálódott rágcsálók morfológiájának elemzésétől az amerikai szenátorok szavazatainak tanulmányozásáig, a fagyasztott csótányok viselkedési funkcióinak felolvasztás utáni elemzésétől a földrajzi elterjedés vizsgálatáig terjednek. bizonyos típusú zuzmók Saskatchewanban.

A publikációknak ez a robbanása óriási hatással volt a klaszteranalízis fejlesztésére és alkalmazására. De sajnos vannak negatív oldalai is. A klaszteranalízissel foglalkozó publikációk rohamos növekedése a felhasználók csoportosulásainak kialakulásához vezetett, és ennek következtében olyan szakzsargonok létrejöttéhez, amelyeket csak az azt létrehozó csoportosulások használnak (Blashfield és Aldenderfer, 1978; Blashfield, 1980).

A szakzsargon kialakításáról a szakterület szakemberei társadalomtudományok amit például a Ward-módszerrel kapcsolatos változatos terminológia bizonyít. A "Ward-módszert" a szakirodalom másként nevezi. Legalább négy további neve ismert: "minimális variancia módszer", "négyzetes hibaösszeg módszer", "hierarchikus csoportosítás minimalizálása" és "HGROUP". Az első két név egyszerűen arra a kritériumra utal, amelynek optimumát Ward módszere határozza meg, míg a harmadik a négyzetes hibák összegére vonatkozik, amely a W mátrix, a csoporton belüli kovarianciamátrix monoton nyomtranszformációja. Végül, a széles körben használt "HGROUP" név egy népszerű neve számítógépes program, amely a Ward-módszert valósítja meg (Veldman, 1967).

A zsargon kialakulása akadályozza az interdiszciplináris kapcsolatok kialakulását, akadályozza hatékony összehasonlítás a klaszteranalízis alkalmazásának módszertana és eredményei a tudomány különböző területein, szükségtelen erőfeszítésekhez vezet (ugyanazok az algoritmusok újbóli feltalálása), és végül nem ad az új felhasználóknak mély megértést az általuk választott módszerekről (Blashfield és aldenderfer, 1978). ). Például egy társadalomtudományi tanulmány (Rogers és Linden, 1973) három különböző klaszterezési módszert hasonlított össze ugyanazon adatok felhasználásával. Ezeket a módszereket a következőképpen nevezték el: "hierarchikus csoportosítás", "hierarchikus klaszterezés vagy HCG" és "klaszterelemzés". És ezen elnevezések egyike sem volt ismerős a klaszterezési módszerek számára. A fürtelemző programok kezdő felhasználóját összezavarja az összes létező név, és nem fogja tudni társítani őket a fürtözési módszerek más leírásaihoz. A tapasztalt felhasználók nehéz helyzetbe kerülnek, amikor kutatásaikat hasonló munkával hasonlítják össze. Lehet, hogy túlzásokba esünk, de a zsargon komoly probléma.

Az elmúlt években a klaszteranalízis fejlődése némileg lelassult, a publikációk számából és azon tudományágak számából ítélve, ahol ezt a módszert alkalmazzák. Azt mondhatjuk, hogy jelenleg pszichológia, szociológia, biológia, statisztika és néhány műszaki tudományágak a klaszteranalízissel kapcsolatos konszolidációs szakaszba lép.

Fokozatosan csökken a klaszterelemzés erényeit dicsérő cikkek száma. Ugyanakkor egyre több olyan munka jelenik meg, amelyben a különböző klaszterezési módszerek alkalmazhatóságát hasonlítják össze a kontrolladatokon. A szakirodalomban nagyobb figyelmet fordítottak az alkalmazásokra. Számos tanulmány célja gyakorlati intézkedések kidolgozása a klaszteranalízissel kapott eredmények érvényességének tesztelésére. Mindez komoly kísérletekről tanúskodik a klaszterezési módszerek ésszerű statisztikai elméletének megalkotására.


A CSENGŐ

Vannak, akik előtted olvassák ezt a hírt.
Iratkozzon fel a legújabb cikkekért.
Email
Név
Vezetéknév
Hogy szeretnéd olvasni a Harangszót
Nincs spam