KELL

On neid, kes loevad seda uudist enne sind.
Tellige uusimate artiklite saamiseks.
Meil
Nimi
Perekonnanimi
Kuidas teile meeldiks Kellukest lugeda
Rämpsposti pole

Saada oma head tööd teadmistebaasi on lihtne. Kasutage allolevat vormi

Üliõpilased, magistrandid, noored teadlased, kes kasutavad teadmistebaasi oma õpingutes ja töös, on teile väga tänulikud.

Sissejuhatus

1. "Kobaranalüüsi" ajalugu

2. Terminoloogia

2.1 Objekt ja funktsioon

2.2 Objektide vaheline kaugus (meetriline)

2.3 Klastrite tihedus ja paiknemine

2.4 Klastrite vaheline kaugus

3. Rühmitamise meetodid

3.1 Hierarhiliste aglomeratiivsete meetodite omadused

3.2Iteratiivsete klastrimeetodite omadused

4. Funktsioonide rühmitamine

5. Klastrite stabiilsus ja kvaliteet

Bibliograafia

SISSEJUHATUS

"Kobaranalüüs on matemaatiliste meetodite kogum, mis on loodud moodustama üksteisest suhteliselt "kaugeid" "lähedaste" objektide rühmi vastavalt teabele nendevaheliste kauguste või seoste (lähedusmõõtude) kohta. See on oma tähenduselt sarnane terminitele: automaatne. klassifikatsioon, taksonoomia, mustrituvastus ilma õpetajata." See klasteranalüüsi määratlus on toodud statistikasõnastiku viimases väljaandes. Tegelikult on "klastrianalüüs" üldistatud nimetus üsna suurele algoritmide komplektile, mida kasutatakse klassifikatsiooni loomiseks. Mitmed väljaanded kasutavad klastrianalüüsi jaoks ka selliseid sünonüüme nagu klassifitseerimine ja jaotamine. Klasteranalüüsi kasutatakse teaduses laialdaselt tüpoloogilise analüüsi vahendina. Igas teaduslikus tegevuses on klassifikatsioon üks fundamentaalseid komponente, ilma milleta on võimatu ehitada ja kontrollida teaduslikke hüpoteese ja teooriaid. Seega pean oma töös vajalikuks käsitleda klasteranalüüsi küsimusi (klasteranalüüsi aluseid), samuti käsitleda selle terminoloogiat ja tuua mõned näited selle meetodi kasutamisest, mille põhieesmärk on andmetöötlus.

1. "KLASTERANALÜÜSI" AJALUGU

Kodu- ja välismaiste väljaannete analüüs näitab, et klasteranalüüsi kasutatakse väga erinevates teadusvaldkondades: keemias, bioloogias, meditsiinis, arheoloogias, ajaloos, geograafias, majanduses, filoloogias jne. VV Nalimovi raamat "Keele tõenäosuslik mudel" kirjeldab klasteranalüüsi kasutamist 70 analüütilise valimi uurimisel. Suurem osa klastrianalüüsi käsitlevast kirjandusest on ilmunud viimase kolme aastakümne jooksul, kuigi esimesed klastermeetodeid mainivad tööd ilmusid üsna kaua aega tagasi. Poola antropoloog K. Chekanowski esitas "struktuurilise klassifitseerimise" idee, mis sisaldas klasteranalüüsi peamist ideed - kompaktsete objektide rühmade jaotamist.

1925. aastal avaldas nõukogude hüdrobioloog P.V. Terentjev töötas välja niinimetatud "korrelatsiooniplejaadide meetodi", mis on mõeldud korrelatsioonitunnuste rühmitamiseks. See meetod andis tõuke graafikute abil rühmitamismeetodite väljatöötamisele. Termini "klastrianalüüs" pakkus esmakordselt välja Trion. Sõna "klaster" on inglise keelest tõlgitud kui "hunnik, pintsel, kobar, rühm". Sel põhjusel nimetati seda tüüpi analüüsi algselt "klastrianalüüsiks". 1950. aastate alguses ilmusid R. Lewise, E. Fixi ja J. Hodgesi publikatsioonid hierarhiliste klastrianalüüsi algoritmide kohta. Märgatava tõuke klasteranalüüsi alase töö arendamisele andis R. Rosenblatti töö tuvastusseadme (perceptron) alal, mis pani aluse "mustrituvastuse ilma õpetajata" teooria arengule.

Klasterdamismeetodite väljatöötamise tõukejõud oli 1963. aastal ilmunud raamat "Numerilise taksonoomia põhimõtted". kaks bioloogi - Robert Sokal ja Peter Sneath. Käesoleva raamatu autorid lähtusid sellest, et efektiivsete bioloogiliste klassifikatsioonide loomiseks peaks klastrite moodustamise protseduur tagama erinevate uuritavaid organisme iseloomustavate näitajate kasutamise, hindama nende organismide sarnasuse astet ning tagama sarnaste organismide paiknemise. samas rühmas. Sel juhul peaksid moodustatud rühmad olema piisavalt "kohalikud", st. objektide (organismide) sarnasus rühmade sees peaks ületama rühmade omavahelist sarnasust. Hilisem tuvastatud rühmade analüüs võib autorite arvates selgitada, kas need rühmad vastavad erinevatele bioloogilistele liikidele. Seega eeldasid Sokal ja Sneath, et objektide rühmadesse jaotamise struktuuri paljastamine aitab paika panna nende struktuuride moodustumise protsessi. Ja erinevate klastrite (rühmade) organismide erinevus ja sarnasus võib olla aluseks käimasoleva evolutsiooniprotsessi mõistmisel ja selle mehhanismi selgitamisel.

Samadel aastatel pakkusid paljud algoritmid välja sellised autorid nagu J. McKean, G. Ball ja D. Hall, kasutades k-keskmiste meetodeid; G. Lance ja W. Williams, N. Jardine jt – hierarhilistest meetoditest. Olulise panuse klastrianalüüsi meetodite väljatöötamisse andsid kodumaised teadlased - E.M. Braverman, A.A. Dorofeyuk, I.B. Muchnik, L.A. Rastrigin, Yu.I. Eelkõige 60.–70. Paljud Novosibirski matemaatikute N. G. Zagoruiko, V. N. Elkina ja G. S. Lbovi välja töötatud algoritmid nautisid suurt populaarsust. Need on sellised tuntud algoritmid nagu FOREL, BIGFOR, KRAB, NTTP, DRET, TRF jne. Nende pakettide põhjal loodi spetsiaalne OTEX tarkvarapakett. Mitte vähem huvitav tarkvaratooted PPSA ja Klass-Masteri lõid Moskva matemaatikud S. A. Aivazyan, I. S. Enjukov ja B. G. Mirkin.

Mingil määral on klasteranalüüsi meetodid saadaval enamikes tuntuimates kodu- ja välismaistes statistikapakettides: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS jne. Loomulikult on 10 aastat pärast selle ülevaate avaldamist üsna palju muutunud, paljudest statistikaprogrammidest on ilmunud uued versioonid ja täiesti uued programmid, mis kasutavad nii uusi algoritme kui ka oluliselt suurenenud võimsust. arvutiteadus. Enamik statistikapakette kasutab aga 60-70ndatel välja pakutud ja välja töötatud algoritme.

Ekspertide ligikaudsete hinnangute kohaselt kahekordistub iga kolme aasta järel klasteranalüüsi ja selle rakendusi erinevates teadmusvaldkondades käsitlevate publikatsioonide arv. Mis on sellise tormilise huvi põhjus seda tüüpi analüüside vastu? Objektiivselt on sellel nähtusel kolm peamist põhjust. See on võimsa arvutustehnoloogia tekkimine, ilma milleta pole reaalsete andmete klastrianalüüs praktiliselt teostatav. Teine põhjus on see, et kaasaegne teadus tugineb oma konstruktsioonides järjest enam klassifitseerimisele. Pealegi süveneb see protsess üha enam, kuna paralleelselt sellega toimub ka teadmiste spetsialiseerumine, mis on võimatu ilma piisavalt objektiivse liigituseta.

Kolmas põhjus - eriteadmiste süvendamine toob paratamatult kaasa teatud objektide ja nähtuste analüüsimisel arvesse võetavate muutujate hulga suurenemise. Selle tulemusena osutub subjektiivne klassifikatsioon, mis varem põhines üsna vähesel arvul arvesse võetud tunnustel, sageli ebausaldusväärseks. Ja objektiivne klassifitseerimine koos järjest suureneva objekti omaduste hulgaga nõuab keerukate klasterdamisalgoritmide kasutamist, mida saab rakendada ainult kaasaegsete arvutite baasil. Just need põhjused põhjustasid "klastribuumi". Arstide ja bioloogide seas pole aga klasteranalüüsist saanud veel päris populaarne ja levinud uurimismeetod.

2 TERMINOLOOGIA

2. 1 OBJEKT JA MÄRK

Tutvustame esmalt selliseid mõisteid nagu objekt ja atribuut. Objekt – ladina sõnast objectum – subjekt. Seoses keemia ja bioloogiaga peame objektide all silmas konkreetseid uurimisobjekte, mida uuritakse füüsikaliste, keemiliste ja muude meetoditega. Sellisteks objektideks võivad olla näiteks proovid, taimed, loomad jne. Teatud objektide kogumit, mis on uurijale uurimiseks kättesaadav, nimetatakse valimiks või näidiskomplektiks. Sellises populatsioonis olevate objektide arvu nimetatakse tavaliselt valimi suuruseks. Tavaliselt tähistatakse valimi suurust ladina tähega "n" või "N".

Märk (sünonüümid - omadus, muutuja, tunnus; inglise keeles - muutuja - muutuja.) - on objekti spetsiifiline omadus. Neid omadusi saab väljendada numbriliste või mittenumbriliste väärtustena. Näiteks vererõhku (süstoolset või diastoolset) mõõdetakse elavhõbeda millimeetrites, kaalu kilogrammides, pikkust sentimeetrites jne. Sellised märgid on kvantitatiivsed. Erinevalt nendest pidevatest numbrilistest karakteristikutest (skaaladest) võivad paljudel tunnustel olla diskreetsed, katkendlikud väärtused. Omakorda jagunevad sellised diskreetsed tunnused tavaliselt kahte rühma.

1) Esimene rühm on auastmemuutujad või nagu neid nimetatakse ka järgmuutujateks (skaalad). Selliseid märke iseloomustab nende väärtuste järjestamise omadus. Nende hulka kuuluvad konkreetse haiguse etapid, vanuserühmad, õpilaste teadmiste hinded, 12-punktiline Richteri maavärina magnituudi skaala jne.

2) Teine diskreetsete tunnuste rühm ei oma sellist järjestust ja seda nimetatakse nominaalseteks (sõnast "nominaalne" - valim) või klassifitseerimistunnusteks. Selliste märkide näide võib olla patsiendi seisund - "terve" või "haige", patsiendi sugu, vaatlusperiood - "enne ravi" ja "pärast ravi" jne. Nendel juhtudel on kombeks öelda, et sellised tunnused kuuluvad nimede skaalasse.

Objekti ja tunnuse mõisteid nimetatakse tavaliselt maatriksiks "Objekt-omadus" või "Objekt-omadus". Maatriks on ristkülikukujuline tabel, mis koosneb uuritavate vaatluste valimi omadusi kirjeldavate tunnuste väärtustest. Selles kontekstis registreeritakse üks vaatlus eraldi reana, mis koosneb kasutatud tunnuste väärtustest. Sellise andmemaatriksi eraldi atribuuti esindab veerg, mis koosneb selle atribuudi väärtustest kõigi proovi objektide jaoks.

2. 2 OBJEKTIDE VAHELINE KAUGUS (METRIC)

Tutvustame mõistet "objektidevaheline kaugus". See kontseptsioon on objektide üksteisega sarnasuse lahutamatu mõõt. Objektide vaheline kaugus objektiruumis on selline väärtus d ij, mis rahuldab järgmisi aksioome:

1. d ij > 0 (kauguse mittenegatiivsus)

2. d ij = d ji (sümmeetria)

3. d ij + d jk > d ik (kolmnurga ebavõrdsus)

4. Kui d ij ei ole võrdne 0-ga, siis i ei võrdu j-ga (mitteidentsete objektide eristatavus)

5. Kui d ij = 0, siis i = j (identsete objektide eristamatus)

Mugav on esitada objektide läheduse (sarnasuse) mõõdet kui vastastikune objektide vahelise kauguse kohta. Arvukad klasteranalüüsile pühendatud väljaanded kirjeldavad enam kui 50 erinevat viisi objektidevahelise kauguse arvutamiseks. Lisaks terminile "kaugus" leidub kirjanduses sageli ka teist terminit - "meetria", mis tähendab konkreetse vahemaa arvutamise meetodit. Kvantitatiivsete tunnuste puhul on tajumiseks ja mõistmiseks kõige kättesaadavam nn "eukleidiline kaugus" või "eukleidiline meetrika". Selle vahemaa arvutamise valem on järgmine:

See valem kasutab järgmist tähistust:

· d ij - i-nda ja j-nda objekti vaheline kaugus;

· x ik - k-nda muutuja arvväärtus i-nda objekti jaoks;

· x jk - k-nda muutuja arvväärtus j-nda objekti jaoks;

· v – objekte kirjeldavate muutujate arv.

Seega juhul v=2, kui meil on ainult kaks kvantitatiivset märki, on kaugus d ij võrdne täisnurkse kolmnurga hüpotenuusi pikkusega, mis ühendab kahte punkti ristkülikukujulises koordinaatsüsteemis. Need kaks punkti vastavad valimi i-ndale ja j-ndale vaatlusele. Sageli kasutatakse tavapärase eukleidilise kauguse asemel selle ruutu d 2 ij. Lisaks kasutatakse mõnel juhul "kaalutud" eukleidilist kaugust, mille arvutamisel kasutatakse üksikute terminite kaalukoefitsiente. Eukleidilise meetrika kontseptsiooni illustreerimiseks kasutame lihtsat koolitusnäidet. Allolevas tabelis näidatud andmemaatriks koosneb 5 vaatlusest ja kahest muutujast.

Tabel 1

Viie vaadeldud valimi ja kahe muutuja andmemaatriks.

Eukleidilise meetrika abil arvutame objektidevaheliste kauguste maatriksi, mis koosneb väärtustest d ij - i-nda ja j-nda objekti vaheline kaugus. Meie puhul on i ja j objekti, vaatluse arv. Kuna valimi suurus on 5, võivad i ja j vastavalt võtta väärtused 1 kuni 5. Samuti on ilmne, et kõigi võimalike paaride vahemaade arv on 5*5=25. Tõepoolest, esimese objekti puhul on need järgmised vahemaad: 1-1; 1-2; 1-3; 1-4; 1-5. Objekti 2 jaoks on samuti 5 võimalikku kaugust: 2-1; 2-2; 2-3; 2-4; 2-5 jne. Siiski number erinevad vahemaad on väiksem kui 25, kuna on vaja arvestada identsete objektide eristamatuse omadusega - d ij = 0, kui i = j. See tähendab, et objekti nr 1 ja sama objekti nr 1 vaheline kaugus on null. Samad nullkaugused on ka kõigil muudel juhtudel i = j. Lisaks tuleneb sümmeetriaomadusest, et d ij = d ji mis tahes i ja j korral. Need. objektide #1 ja #2 vaheline kaugus võrdub objektide #2 ja #1 vahelise kaugusega.

Eukleidilise kauguse avaldis on väga sarnane nn üldistatud Minkowski võimsuskaugusega, milles astmetes kasutatakse kahe väärtuse asemel teist väärtust. Üldjuhul tähistatakse seda väärtust sümboliga "p".

Kui p = 2 saame tavalise Eukleidilise kauguse. Seega on üldistatud Minkowski mõõdiku avaldis järgmine:

Eksponenti "p" konkreetse väärtuse valiku teeb uurija ise.

Minkowski kauguse erijuhtum on nn Manhattani kaugus ehk "linnaploki kaugus", mis vastab p=1:

Seega on Manhattani kaugus objektide vastavate tunnuste erinevuste moodulite summa. Kui p kaldub lõpmatuseni, saame "dominantsi" ehk Sup-mõõdiku:

mida saab esitada ka kujul d ij = max| x ik - x jk |.

Minkowski mõõdik on tegelikult suur mõõdikute perekond, sealhulgas kõige populaarsemad mõõdikud. Siiski on olemas meetodid objektide vahelise kauguse arvutamiseks, mis erinevad põhimõtteliselt Minkowski mõõdikutest. Olulisim neist on nn Mahalanobise distants, millel on üsna spetsiifilised omadused. Selle mõõdiku väljend:

Siit läbi X i ja X j on näidatud i-nda ja j-nda objekti muutuvate väärtuste veeruvektorid. Sümbol T väljenduses (X i - X j ) T tähistab niinimetatud vektori transponeerimise operatsiooni. Sümbol S on näidatud ühine rühmasisene dispersioon-kovariantsimaatriks. Sümbol -1 eespool S tähendab, et peate maatriksi ümber pöörama S . Erinevalt Minkowski meetrikast ja Eukleidilise meetrikast on Mahalanobise kaugus läbi dispersioon-kovariantsi maatriksi S seotud muutujate korrelatsioonidega. Kui muutujate vahelised korrelatsioonid on nullid, on Mahalanobi kaugus võrdne Eukleidilise kauguse ruuduga.

Dihhotoomsete (ainult kahe väärtusega) kvalitatiivsete tunnuste kasutamise korral kasutatakse laialdaselt Hammingi kaugust

võrdne i-nda ja j-nda objekti vastavate tunnuste väärtuste mittevastavuste arvuga.

2. 3 KLASTRITE TIHEDUS JA PAIKALUS

Klasteranalüüsi põhieesmärk on leida proovist üksteisega sarnaste objektide rühmad. Oletame, et mõne võimaliku meetodi abil oleme saanud sellised rühmad – klastrid. Tuleb märkida klastrite olulisi omadusi. Üks neist omadustest on punktide jaotustihedus, vaatlused klastri sees. See omadus võimaldab meil määratleda klastri kui punktide kobarat mitmemõõtmelises ruumis, mis on suhteliselt tihe võrreldes selle ruumi teiste piirkondadega, mis kas ei sisalda üldse punkte või sisaldavad vähe vaatlusi. Teisisõnu, kui kompaktne see klaster on või vastupidi, kui hõre see on. Vaatamata selle omaduse piisavatele tõenditele ei ole sellise näitaja (tiheduse) arvutamiseks ühemõtteliselt võimalik. Kõige edukam näitaja, mis iseloomustab antud klastris mitmemõõtmeliste vaatluste kompaktsust, "pakkimise" tihedust, on klastri keskpunkti ja klastri üksikute punktide vahelise kauguse hajumine. Mida väiksem on selle kauguse dispersioon, seda lähemal on vaatlused klastri keskpunktile, seda suurem on klastri tihedus. Ja vastupidi, mida suurem on kauguse hajumine, seda hõredam on see klaster ja järelikult on punkte, mis asuvad nii klastri keskpunkti lähedal kui ka üsna kaugel klastri keskpunktist.

Klastrite järgmine omadus on nende suurus. Klastri suuruse peamine näitaja on selle "raadius". See omadus peegeldab kõige paremini klastri tegelikku suurust, kui vaadeldav klaster on mitmemõõtmelises ruumis ümmargune ja hüpersfäär. Kui aga klastrid on pikliku kujuga, siis raadiuse või läbimõõdu mõiste ei kajasta enam klastri tegelikku suurust.

Teine oluline klastri omadus on nende lokaliseerimine, eraldatavus. See iseloomustab klastrite kattumise astet ja vastastikust kaugust üksteisest mitmemõõtmelises ruumis. Näiteks vaadake alloleval joonisel kolme klastri jaotust uute integreeritud funktsioonide ruumis. Teljed 1 ja 2 saadi erimeetodil erütrotsüütide erinevate vormide peegeldavate omaduste 12 tunnusest, mida uuriti elektronmikroskoopia abil.

1. pilt

Näeme, et klastril 1 on minimaalne suurus, samas kui klastritel 2 ja 3 on ligikaudu võrdsed suurused. Samas võib öelda, et minimaalne tihedus ja seega ka maksimaalne kauguse dispersioon on iseloomulik klastrile 3. Lisaks eraldavad klastri 1 piisavalt suured tühja ruumi osad nii kobarast 2 kui ka kobarast 3. Seevastu klastrid 2 ja 3 kattuvad osaliselt üksteisega. Huvitav on asjaolu, et klastri 1 erinevus 2. ja 3. klastrist piki telge 1 on palju suurem kui piki telge 2. Vastupidi, klastrid 2 ja 3 erinevad üksteisest ligikaudu võrdselt nii piki telge 1 kui ka piki telge 2. Ilmselgelt on sellise visuaalse analüüsi jaoks vaja kõik proovi vaatlused projitseerida spetsiaalsetele telgedele, kus klastri elementide projektsioonid on nähtavad eraldi klastritena.

2. 4 KLASTITE VAHELINE KAUGUS

Laiemas plaanis võib objekte mõista mitte ainult algsete uurimisobjektidena, mis on "objekt-omadus" maatriksis esitatud eraldi reana või üksikute punktidena mitmemõõtmelises tunnusruumis, vaid ka selliste punktide eraldi rühmadena. , mis on ühe või teise algoritmi abil ühendatud klastriks. Sel juhul tekib küsimus, kuidas mõista selliste punktide (klastrite) kogunemiste vahelist kaugust ja kuidas seda arvutada. Sel juhul on võimaluste mitmekesisus isegi suurem kui kahe mitmemõõtmelises ruumis toimuva vaatluse vahelise kauguse arvutamisel. Selle protseduuri teeb keeruliseks asjaolu, et erinevalt punktidest hõivavad klastrid teatud hulga mitmemõõtmelist ruumi ja koosnevad paljudest punktidest. Klasteranalüüsis kasutatakse laialdaselt klastritevahelisi kaugusi, mis arvutatakse lähima naabri (lähima naabri), raskuskeskme, kaugema naabri, mediaanide põhimõttel. Kõige laialdasemalt kasutatakse nelja meetodit: üksiklink, täislink, keskmine link ja Wardi meetod. Ühe lingi meetodi puhul lisatakse objekt juba olemasolevasse klastrisse, kui vähemalt ühel klastri elemendil on sama sarnasusaste kui ühendatava objektiga. Täielike linkide meetodi puhul seotakse objekt klastriga ainult siis, kui kaasamise kandidaadi ja klastri mõne elemendi sarnasus ei ole väiksem kui teatud lävi. Keskmise ühendusmeetodi jaoks on mitmeid muudatusi, mis on kompromiss üksik- ja täisühenduse vahel. Nad arvutavad keskmise väärtuse kandidaadi sarnasuse kohta kõigi olemasoleva klastri objektidega. Kinnitamine toimub siis, kui leitud keskmine sarnasuse väärtus saavutab või ületab teatud läve. Kõige sagedamini kasutatav on klastri objektide ja klastrisse lisatava kandidaadi aritmeetiline keskmine sarnasus.

Paljud klasterdamismeetodid erinevad üksteisest selle poolest, et nende algoritmid arvutavad igal etapil erinevaid partitsioonikvaliteedi funktsioone. Populaarne Wardi meetod on üles ehitatud selliselt, et optimeerida klastrisisese kauguse minimaalset dispersiooni. Esimeses etapis koosneb iga klaster ühest objektist, mille tõttu on kauguste klastrisisene dispersioon võrdne 0-ga. Selle meetodi abil kombineeritakse need objektid, mis annavad minimaalse dispersiooni juurdekasvu, mille tulemusena see meetod kaldub luua hüpersfäärilisi klastreid.

Mitmed katsed klassifitseerida klasteranalüüsi meetodeid viivad kümnete või isegi sadade erinevate klassideni. Sellise mitmekesisuse loovad suur hulk võimalikke viise üksikute vaatluste vahelise kauguse arvutamiseks, mitte vähem meetodeid üksikute klastrite vahelise kauguse arvutamiseks klastrite moodustamise protsessis ja erinevad hinnangud lõpliku klastri struktuuri optimaalsuse kohta.

Populaarsetes statistikapakettides kasutatakse kõige laialdasemalt kahte klasteranalüüsi algoritmide rühma: hierarhilised aglomeratiivsed meetodid ja iteratiivsed rühmitamise meetodid.

3. RÜHMITAMISE MEETODID

3. 1 HIERARHILISTE AGGLOMERATIIVSETE MEETODITE OMADUSED

Reaalsetes biomeditsiinilistes uuringutes sagedamini kasutatavates aglomeratiivsetes hierarhilistes algoritmides käsitletakse esialgu kõiki objekte (vaatlusi) eraldiseisvate, ainult ühest elemendist koosnevate klastritena. Ilma võimsat arvutitehnoloogiat kasutamata on klastriandmete analüüsi rakendamine väga problemaatiline.

Mõõdiku valiku teeb uurija. Pärast kaugusmaatriksi arvutamist algab protsess linnastuid (ladina keelest agglomero - kinnitan, kogun), möödudes järjestikku samm-sammult. Selle protsessi esimeses etapis ühendatakse kaks väikseima vahemaaga esialgset vaatlust (monoklastrit) üheks klastriks, mis koosneb juba kahest objektist (vaatlused). Seega on endise N monoklastri (ühest objektist koosnevad klastrid) asemel pärast esimest sammu N-1 klastrit, millest üks klaster sisaldab kahte objekti (vaatlusi) ja N-2 klastrit koosneb endiselt ainult üks objekt. Teises etapis on võimalikud erinevad meetodid N-2 klastrite ühendamiseks. Selle põhjuseks on asjaolu, et üks neist klastritest sisaldab juba kahte objekti. Sel põhjusel kerkib esile kaks peamist küsimust:

· kuidas arvutada sellise kahe (ja veelgi enam kui kahe) objekti klastri koordinaate;

· kuidas arvutada kaugust selliste "polüobjektide" klastriteni "monoklastrite" ja "polüobjekti" klastrite vahel.

Lõppkokkuvõttes määravad need küsimused lõplike klastrite lõpliku struktuuri (klastrite struktuur tähendab üksikute klastrite koostist ja nende suhtelist asukohta mitmemõõtmelises ruumis). Erinevad mõõdikute ja klastrite koordinaatide ja vastastikuste kauguste arvutamise meetodite kombinatsioonid toovad kaasa klastrite analüüsimeetodite mitmekesisuse. Teises etapis, olenevalt mitmest objektist koosneva klastri koordinaatide arvutamise meetoditest ja parvedevaheliste kauguste arvutamise meetodist, on võimalik kas kaks eraldiseisvat vaatlust uuesti uude kobaraks ühendada või ühendada üks uus. vaatlus kahest objektist koosnevale klastrile. Mugavuse huvides võib enamik aglomeratiiv-hierarhiliste meetodite programme töö lõpus pakkuda vaatamiseks kahte peamist graafikut. Esimest graafikut nimetatakse dendrogrammiks (kreeka keelest dendron - puu), mis kajastab aglomeratsiooni protsessi, üksikute vaatluste liitmist üheks lõplikuks klastriks. Toome näite kahe muutuja 5 vaatluse dendrogrammist.

Ajakava1

Sellise graafiku vertikaalteljeks on parvedevahelise kauguse telg ja piki horisontaaltelge on märgitud objektide arvud – analüüsis kasutatud juhtumid. Sellelt dendrogrammilt on näha, et objektid nr 1 ja nr 2 liidetakse esmalt üheks klastriks, kuna nende vaheline kaugus on väikseim ja võrdub 1-ga. Seda liitumist kuvatakse graafikul vertikaalseid segmente ühendava horisontaalse joonega. väljudes punktidest, mis on märgitud kui C_1 ja C_2. Pöörame tähelepanu asjaolule, et horisontaaljoon ise läbib täpselt 1-ga võrduva parvevahelise kauguse tasandil. Edasi, teises etapis, liitub selle klastriga, mis sisaldab juba kahte objekti, objekt nr 3, tähistatud kui C_3. Järgmine samm on ühendada objektid #4 ja #5, mille vaheline kaugus on 1,41. Ja viimases etapis ühendatakse objektide 1, 2 ja 3 klaster objektide 4 ja 5 klastriga. Graafik näitab, et nende kahe eelviimase klastri vaheline kaugus (viimase klastri hulka kuuluvad kõik 5 objekti) on suurem kui 5 , kuid vähem kui 6, kuna kahte eelviimast klastrit ühendav ülemine horisontaaljoon läbib tasemel, mis on ligikaudu võrdne 7-ga ning objektide 4 ja 5 ühenduse tase on 1,41.

Allolev dendrogramm saadi 70 töödeldud reaalse andmestiku analüüsimisel keemilised proovid, millest igaüht iseloomustas 12 tunnust.

Diagramm 2

Graafikult on näha, et viimases etapis, kui kaks viimast klastrit ühinevad, on nende vaheline kaugus umbes 200 ühikut. On näha, et esimene klaster sisaldab palju vähem objekte kui teine ​​klaster Allpool on dendrogrammi suurendatud osa, millel on selgelt nähtavad vaatlusnumbrid, tähistatud kui C_65, C_58 jne. (vasakult paremale): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 jne.

Diagramm 3 Suurendatud osa ülaltoodud diagrammist nr 2

On näha, et objekt 44 on monoklaster, mis eelviimasel etapil ühendub parempoolse kobaraga ja seejärel liidetakse viimases etapis kõik vaatlused üheks klastriks.

Teine graafik, mis sellistes protseduurides koostatakse, on klastritevaheliste kauguste graafik ühenduse igal etapil. Allpool on ülaltoodud dendrogrammi sarnane graafik.

4. diagramm

Paljudes programmides on võimalik kuvada tabelina objektide kombineerimise tulemusi igal rühmitamise etapil. Enamikus nendes tabelites kasutatakse segaduse vältimiseks esialgsete vaatluste tähistamiseks erinevat terminoloogiat - monoklastreid ja tegelikke kahest või enamast vaatlusest koosnevaid klastreid. Ingliskeelsetes statistikapakettides on esialgsed vaatlused (andmemaatriksi read) tähistatud kui "case" - case. Et näidata klastri struktuuri sõltuvust mõõdiku valikust ja klastri ühenduse algoritmi valikust, esitame allpool dendrogrammi, mis vastab täisühendusalgoritmile. Ja siin näeme, et objekt nr 44 liidetakse kõige viimases etapis ülejäänud valikuga.

Diagramm 5

Nüüd võrdleme seda teise diagrammiga, mis on saadud ühe lingi meetodil samadel andmetel. Erinevalt täisühendusmeetodist on näha, et see meetod genereerib üksteisega järjestikku ühendatud objektide pikki ahelaid. Kõigil kolmel juhul võib aga öelda, et silma paistavad kaks põhirühma.

Diagramm 6

Pöörakem tähelepanu ka sellele, et kõigil kolmel juhul liitub objekt nr 44 monoklastrina, kuigi klastri moodustamise protsessi erinevatel etappidel. Selliste monoklastrite valimine on hea vahend anomaalsete vaatluste tuvastamiseks, mida nimetatakse kõrvalekalleteks. Kustutame selle "kahtlase" objekti nr 44 ja teeme uuesti klasterdamise. Saame järgmise dendrogrammi:

Diagramm 7

On näha, et "ahela" efekt on säilinud, nagu ka jagunemine kaheks lokaalseks vaatlusrühmaks.

3. 2 ITERATIIVSETE KLASTERIMISMEETODITE OMADUSED

Iteratiivsete meetodite hulgas on kõige populaarsem McKeani k-keskmiste meetod. Erinevalt hierarhilistest meetoditest peab enamikus selle meetodi rakendustes kasutaja ise määrama soovitud lõppklastrite arvu, mida tavaliselt tähistatakse kui "k". Nagu hierarhilistes rühmitusmeetodites, saab kasutaja valida üht või teist tüüpi mõõdiku. K-keskmiste meetodi erinevad algoritmid erinevad ka antud klastrite algtsentrite valimise viisi poolest. Mõnes meetodi versioonis saab (või peab) kasutaja ise selliseid algpunkte täpsustama, valides need reaalsete vaatluste hulgast või määrates iga muutuja jaoks nende punktide koordinaadid. Selle meetodi teistes rakendustes valitakse etteantud arv k algpunkte juhuslikult ja neid lähtepunkte (klastri terad) saab seejärel mitmes etapis täpsustada. Sellistel meetoditel on 4 peamist etappi:

· valida või määrata k vaatlust, millest saavad klastrite esmased keskused;

· vajadusel moodustatakse vaheklastrid, määrates iga vaatluse lähimatele määratud klastri keskustele;

· pärast kõigi vaatluste määramist üksikutele klastritele asendatakse esmased klastri keskused klastri keskmiste väärtustega;

· eelmist iteratsiooni korratakse seni, kuni muutused klastri tsentrite koordinaatides muutuvad minimaalseks.

Selle meetodi mõnes versioonis saab kasutaja määrata kriteeriumi arvväärtuse, mida tõlgendatakse uute klastri keskuste valimise minimaalse kaugusena. Vaatlust ei peeta kandidaadiks uus keskus klastri, kui selle kaugus klastri asendatud keskpunktist ületab määratud arvu. Seda parameetrit nimetatakse mõnes programmis "raadiuseks". Lisaks sellele parameetrile on võimalik määrata ka maksimaalne iteratsioonide arv või jõuda teatud, tavaliselt üsna väikese arvuni, millega võrreldakse kauguse muutust kõigi klastri keskuste puhul. Seda seadet nimetatakse tavaliselt "konvergentsiks", kuna peegeldab iteratiivse klastrite moodustamise protsessi konvergentsi. Allpool esitame mõned tulemused, mis saadi McKean k-means meetodil varasematele andmetele. Soovitud klastrite arvuks määrati algselt 3 ja seejärel 2. Nende esimene osa sisaldab ühe teguri tulemusi dispersioonanalüüs, milles klastri number toimib rühmitustegurina. Esimene veerg on 12 muutuja loend, millele järgneb ruutude (SS) ja vabadusastmete (df) summad, seejärel Fisheri F-test ja viimases veerus saavutatud olulisuse tase "p".

Tabel 2 McKeani k-keskmised andmed, mis kehtivad 70 katseproovi kohta.

Muutujad

Nagu sellest tabelist näha, lükatakse nullhüpotees kolme rühma keskmiste võrdsuse kohta tagasi. Allpool on graafik üksikute klastrite kõigi muutujate keskmiste kohta. Samad muutujate klastri keskmised on toodud allpool tabeli kujul.

Tabel 3. Andmete üksikasjalik ülevaade kolme klastri näitel.

Muutuv

Klaster nr 1

Klaster nr 2

Klaster nr 3

Diagramm 8

Iga klastri muutujate keskmiste väärtuste analüüs võimaldab järeldada, et X1 tunnuse järgi on klastritel 1 ja 3 lähedased väärtused, samas kui klastri 2 keskmine väärtus on palju madalam kui kahes teises klastris. Vastupidi, X2 funktsiooni järgi on esimesel klastril madalaim väärtus, samas kui 2. ja 3. klastri keskmised väärtused on kõrgemad ja lähedased. Tunnuste X3-X12 puhul on keskmised väärtused klastris 1 oluliselt kõrgemad kui klastrites 2 ja 3. Järgmine kaheks klastriks rühmitamise tulemuste ANOVA analüüsi tabel näitab samuti vajadust lükata tagasi nullhüpotees võrdsuse kohta grupi keskmistest peaaegu kõigi 12 tunnuse puhul, välja arvatud muutuja X4 puhul, mille puhul osutus saavutatud olulisuse tase üle 5%.

Tabel 4. Kaheks klastriks rühmitamise tulemuste dispersioonanalüüsi tabel.

Muutujad

Allpool on graafik ja tabel rühma keskmiste kohta kaheks klastriks rühmitamise korral.

Tabel 5. Kaheks klastriks rühmitamise tabel.

Muutujad

Klaster nr 1

Klaster nr 2

Diagramm 9.

Juhul, kui uurija ei suuda ette kindlaks määrata kõige tõenäolisemat klastrite arvu, on ta sunnitud arvutusi kordama, määrates teistsuguse arvu, sarnaselt ülaltoodule. Ja seejärel, võrreldes saadud tulemusi omavahel, peatuge ühe kõige vastuvõetavama klastrite valiku juures.

4 . FUNKTSIOONIDE KLASTERIMINE

Lisaks üksikute vaatluste rühmitamisele on olemas ka funktsioonide rühmitamise algoritmid. Üks esimesi selliseid meetodeid on korrelatsiooniplejaadide meetod Terentiev P.V. Biomeditsiinilistes väljaannetes võib sageli leida primitiivseid pilte sellistest plejaadidest, mis kujutavad endast märke ühendavate nooltega punktiirjoonelist ringi, mille autorid leidsid korrelatsiooni. Paljudel objektide ja funktsioonide rühmitamise programmidel on eraldi protseduurid. Näiteks funktsioonide klasterdamiseks mõeldud SAS-i paketis kasutatakse VARCLUS-protseduuri (VARiable - muutuja ja CLUSter - cluster), vaatluste klasteranalüüsi aga teevad teised protseduurid - FASTCLUS ja CLUSTER. Dendrogrammi konstrueerimine toimub mõlemal juhul TREE (puu) protseduuri abil.

Teistes statistikapakettides tehakse klasterdamiseks elementide – objektide või tunnuste – valik samas moodulis. Funktsioonide rühmitamise mõõdikuna kasutatakse sageli avaldisi, mis sisaldavad teatud koefitsientide väärtust, mis kajastavad paari tunnuse seose tugevust. Sel juhul on märkidel, mille ühendustugevus on võrdne ühega (funktsionaalne sõltuvus), on väga mugav võtta märkide vaheline kaugus nulliga. Tõepoolest, funktsionaalse ühenduse korral saab ühe tunnuse väärtuse täpselt arvutada teise funktsiooni väärtuse. Märkide vahelise seose tugevuse vähenemisega suureneb kaugus vastavalt. Allpool on graafik, mis näitab dendrogrammi 12 tunnuse kombinatsioonist, mida kasutati ülal 70 analüütilise proovi rühmitamisel.

Graafik 10. Dendrogramm12 funktsiooni rühmitamine.

Nagu sellest dendrogrammist näha, on tegemist kahe lokaalse tunnuste rühmitusega: X1-X10 ja X11-X12 Tunnuste rühma X1-X10 iseloomustab üsna väike klastritevahelise kauguse väärtus, mis ei ületa ligikaudu 100 ühikut. Siin näeme ka mõningaid sisemisi paarisalarühmi: X1 ja X2, X3 ja X4, X6 ja X7. Nende paaride tunnuste vaheline kaugus, mis on väga nullilähedane, näitab nende tugevat paarisuhet. Paari X11 ja X12 puhul on klastritevahelise kauguse väärtus palju suurem ja on umbes 300 ühikut. Lõpuks näitab väga suur vahemaa vasakpoolse (X1-X10) ja parema (X11-X12) klastrite vahel, mis võrdub umbes 1150 ühikuga, et nende kahe tunnusrühma vaheline seos on üsna minimaalne.

5. KLASTERIMISE STABIILSUS JA KVALITEET

Ilmselgelt oleks absurdne tõstatada küsimust, kui absoluutne on see või teine ​​klasteranalüüsi meetodite abil saadud klassifikatsioon. Klasterdamismeetodi muutmisel avaldub stabiilsus selles, et kaks klastrit on dendrogrammidel üsna selgelt näha.

Ühe võimaliku viisina klasteranalüüsi tulemuste stabiilsuse kontrollimiseks saab kasutada erinevate klasterdamisalgoritmide puhul saadud tulemuste võrdlemise meetodit. Teised võimalused on B. Efroni poolt 1977. aastal välja pakutud nn bootstrap meetod, "jacknife" ja "sliding control" meetodid. Lihtsaim viis kobarlahenduse stabiilsuse kontrollimiseks võib olla esialgse valimi juhuslik jagamine kaheks ligikaudu võrdseks osaks, mõlema osa rühmitamine ja tulemuste võrdlemine. Aeganõudvam viis hõlmab esimese objekti järjestikust väljajätmist alguses ja ülejäänud (N - 1) objektide rühmitamist. Lisaks viiakse see protseduur läbi järjest, välja arvatud teine, kolmas jne. objektide puhul analüüsitakse kõigi N saadud klastri struktuuri. Teine stabiilsuse kontrollimise algoritm hõlmab mitmekordset reprodutseerimist, N objekti algse valimi dubleerimist, seejärel kõigi dubleeritud proovide ühendamist üheks suureks valimiks (pseudoüldine populatsioon) ja sellest juhuslikult uue N objekti valimi ekstraheerimist. Pärast seda rühmitatakse see proov, seejärel võetakse uus juhuslik proov ja tehakse uuesti klasterdamine jne. See on ka üsna töömahukas.

Vähem probleeme pole ka klasterdamise kvaliteedi hindamisel. Klastrilahenduste optimeerimise algoritme on teada üsna palju. Esimesed tööd, mis sisaldasid klastrisisese dispersiooni minimeerimise kriteeriumi sõnastusi ja algoritmi (k-means tüüpi) optimaalse lahenduse leidmiseks, ilmusid 50ndatel. 1963. aastal Sarnast optimeerimishierarhilist algoritmi esitas ka J. Wardi artikkel. Klasterlahenduse optimeerimiseks pole universaalset kriteeriumi. Kõik see muudab uurijal optimaalse lahenduse valiku keeruliseks. Sellises olukorras parimal võimalikul viisil väita, et leitud klastrilahendus on uuringu selles etapis optimaalne, on ainult selle lahenduse kooskõla teiste mitmemõõtmelise statistika meetodite abil saadud järeldustega.

Klasterdamise optimaalsuse järelduse kasuks on positiivsed tulemused ka saadud lahenduse ennustusmomentide kontrollimisel juba teistel uurimisobjektidel. Klasteranalüüsi hierarhiliste meetodite kasutamisel võib soovitada mitut graafikut omavahel võrrelda järkjärguline muutus parvedevaheline kaugus. Sel juhul tuleks eelistada valikut, mille puhul vaadeldakse sellise juurdekasvu tasast joont esimesest kuni mitme eelviimase astmeni koos järsu vertikaalse tõusuga sellel graafikul rühmitamise viimasel 1-2 etapil.

JÄRELDUSED

Oma töös püüdsin näidata mitte ainult seda tüüpi analüüsi keerukust, vaid ka optimaalseid andmetöötlusvõimalusi, sest sageli tuleb tulemuste täpsuse huvides kasutada kümneid kuni sadu proove. Seda tüüpi analüüs aitab tulemusi klassifitseerida ja töödelda. Vähetähtsaks pean antud analüüsi juures ka arvutitehnoloogiate vastuvõetavust, mis võimaldab muuta tulemuste töötlemise protsessi vähem aeganõudvaks ning seeläbi saab rohkem tähelepanu pöörata analüüsiks valimi võtmise õigsusele.

Klasteranalüüsi kasutamisel on selliseid peensusi ja detaile, mis ilmnevad üksikutel konkreetsetel juhtudel ja pole kohe näha. Näiteks võib funktsioonide skaala roll olla minimaalne ja mõnel juhul domineeriv. Sellistel juhtudel on vaja kasutada muutujate teisendusi. See on eriti tõhus, kui kasutatakse meetodeid, mis toodavad mittelineaarseid tunnuste teisendusi, mis üldiselt suurendavad tunnustevaheliste korrelatsioonide üldist taset.

Veelgi suurem spetsiifilisus on klasteranalüüsi kasutamisel objektide puhul, mida kirjeldavad ainult kvalitatiivsed tunnused. Sel juhul on kvalitatiivsete tunnuste eeldigiteerimise ja uute funktsioonidega klasteranalüüsi meetodid üsna edukad. Oma töös näitasin, et klasteranalüüs annab palju uut ja originaalset informatsiooni nii selle rakendamisel piisavalt uuritud süsteemides kui ka tundmatu struktuuriga süsteemide uurimisel.

Samuti tuleb märkida, et klastrite analüüs on muutunud evolutsiooniuuringutes asendamatuks, võimaldades ehitada fülogeneetilisi puid, mis näitavad evolutsiooniteed. Neid meetodeid kasutatakse programmides laialdaselt teaduslikud uuringud füüsikalises ja analüütilises keemias.

BIBLIOGRAAFIA

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Rakendatava statistilise analüüsi tarkvarapaketi struktuurist ja sisust//Algoritmiline ja tarkvara rakenduslik statistiline analüüs.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Mitmemõõtmeliste vaatluste klassifikatsioon.--M.: Statistika, 1974.

3) Becker V. A., Lukatskaja M. L. Seostuskoefitsientide maatriksi struktuuri analüüsist//Majandusliku ja statistilise modelleerimise ja prognoosimise küsimused tööstuses.-- Novosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. Struktuursed meetodid andmetöötlus.--M.: Nauka, 1983.

5) Voronin Yu.A. Klassifikatsiooniteooria ja selle rakendused.--Novosibirsk: Nauka, 1987.

6) Hea I. J. Botrüoloogia botrüoloogia//Klassifikatsioon ja klaster.--M.: Mir, 1980.

7) Dubrovsky S. A. Rakenduslik mitme muutujaga statistiline analüüs.--M.: Rahandus ja statistika, 1982.

8) Duran N., Odell P. Klastrianalüüs.--M.: Statistika, 1977.

9) Eliseeva I.I., Rukavishnikov V.S. Rühmitamine, korrelatsioon, mustrite tuvastamine.--M.: Statistika, 1977.

10) Zagoruiko N. G. Tuvastamismeetodid ja nende rakendamine.--M .: Nõukogude raadio, 1972.

11) Zade L. A. Hägused komplektid ja nende rakendamine mustrituvastuses ja klastrianalüüsis//Classification and cluster.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Mitmemõõtmelised rühmitused.--M.: Statistika, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA Umbes üks viis partitsioonide kehtivuse kontrollimiseks klasteranalüüsis.//Mitme muutujaga statistilise analüüsi rakendamine majanduses ja tootekvaliteedi hindamises.--Ch. P. Tartu, 1977.

14) Shurygin A. M. Punktidevaheliste kauguste ja erinevuste jaotus // Tarkvara ja algoritmiline tugi rakenduslikule mitmemõõtmelisele statistilisele analüüsile.--M., 1983.

15) Eeremaa R. Klastrite süsteemide projekteerimise üldteooria ja algoritmid nende arvuliste esituste leidmiseks: TSU Arvutuskeskuse toimetised.--Tartu, 1978.

16) Yastremsky B.S. Valitud teosed - M.: Statistika, 1964.

Sarnased dokumendid

    Turu segmenteerimise eesmärgid aastal turundustegevused. Klasteranalüüsi olemus, selle rakendamise peamised etapid. Valige, kuidas mõõta kaugust või sarnasust. Hierarhilised, mittehierarhilised klastrimeetodid. Töökindluse ja töökindluse hindamine.

    aruanne, lisatud 02.11.2009

    Peamised omadused rahaline seisukord ettevõtetele. Kriis ettevõttes, selle põhjused, liigid ja tagajärjed. Kaasaegsed meetodid ja klasteranalüüsi tööriistad, nende kasutamise tunnused ettevõtte finants- ja majandushinnanguks.

    lõputöö, lisatud 09.10.2013

    Tehke Statgraphics Plusi abil ettevõtete klasteranalüüs. Lineaarse regressiooni võrrandi konstrueerimine. Elastsuskordajate arvutamine regressioonimudelite abil. Võrrandi statistilise olulisuse ja määramiskordaja hindamine.

    ülesanne, lisatud 16.03.2014

    Tüpoloogiliste regressioonide konstrueerimine üksikute vaatlusrühmade jaoks. Ruumiandmed ja ajaline teave. Klasteranalüüsi rakendusala. Objektide homogeensuse mõiste, kaugusmaatriksi omadused. Tüpoloogilise regressiooni läbiviimine.

    esitlus, lisatud 26.10.2013

    Kombineeritud mudelite ja meetodite loomine nagu kaasaegsel viisil prognoosimine. ARIMA-põhine mudel statsionaarsete ja mittestatsionaarsete aegridade kirjeldamiseks klasterdamisülesannete lahendamisel. Autoregressiivsed AR mudelid ja korrelogrammide rakendamine.

    esitlus, lisatud 01.05.2015

    Erinevat tüüpi mõõdikute tunnused. Lähima naabri meetod ja selle üldistused. Lähima naabri algoritm. Parzen akna meetod. Üldistatud meetriline klassifikaator. Mõõdiku valimise probleem. Manhattani ja Eukleidese kaugus. koosinusmõõt.

    kursusetöö, lisatud 03.08.2015

    Krasnodari territooriumi ehitustööstuse omadused. Elamuehituse arengu prognoos. Klasteranalüüsi kaasaegsed meetodid ja vahendid. Mitmemõõtmelised statistilised meetodid ettevõtte majandusliku olukorra diagnoosimiseks.

    lõputöö, lisatud 20.07.2015

    Hüpoteeklaenude andmise tunnused Brjanski piirkonna näitel. Matemaatiliste otsustusmeetodite ülevaade: eksperthinnangud, järjestikused ja paarisvõrdlused, hierarhiaanalüüs. Optimaalse hüpoteeklaenu otsinguprogrammi väljatöötamine.

    kursusetöö, lisatud 29.11.2012

    Süsteemianalüüsi rakendusvaldkonnad, selle koht, roll, eesmärgid ja funktsioonid kaasaegne teadus. Süsteemianalüüsi meetodite mõiste ja sisu, selle mitteformaalsed meetodid. Heuristiliste ja ekspertuuringute meetodite tunnused ja nende rakendamise tunnused.

    kursusetöö, lisatud 20.05.2013

    Ökonomeetriliste meetodite väljatöötamine ja uurimine, arvestades majandusandmete spetsiifikat ja vastavalt vajadustele majandusteadus ja tavad. Ökonomeetriliste meetodite ja mudelite rakendamine majandusandmete statistilisel analüüsil.

Ülikool: VZFEI

Aasta ja linn: Moskva 2008


1. Sissejuhatus. Klasteranalüüsi meetodi kontseptsioon.

2. Klasteranalüüsi rakendamise metoodika kirjeldus. Probleemilahenduse kontrollnäide.

4. Kasutatud kirjanduse loetelu

  1. Sissejuhatus. Klasteranalüüsi meetodi kontseptsioon.

Klasteranalüüs on meetodite kogum, mis võimaldab klassifitseerida mitmemõõtmelisi vaatlusi, millest igaüks on kirjeldatud tunnuste (parameetrite) komplektiga X1, X2, ..., Xk.

Klasteranalüüsi eesmärk on üksteisega sarnaste objektide rühmade moodustamine, mida tavaliselt nimetatakse klastriteks (klass, takson, kontsentratsioon).

Klasteranalüüs on üks statistilise uurimistöö valdkondi. Sellel on eriti oluline koht nendes teadusharudes, mis on seotud massinähtuste ja -protsesside uurimisega. Klasteranalüüsi meetodite väljatöötamise ja nende kasutamise vajaduse tingib asjaolu, et need aitavad luua teaduslikult põhjendatud klassifikatsioone, tuvastada sisekommunikatsioonid vaadeldava populatsiooni üksuste vahel. Lisaks saab klasteranalüüsi meetodeid kasutada teabe tihendamiseks, mis on statistiliste andmevoogude pideva suurenemise ja keerukuse korral oluline tegur.

Klasteranalüüsi meetodid võimaldavad lahendada järgmisi probleeme:

Objektide klassifitseerimise läbiviimine, võttes arvesse objektide olemust, olemust peegeldavaid tunnuseid. Sellise probleemi lahendamine viib reeglina teadmiste süvenemiseni klassifitseeritavate objektide kogumi kohta;

Kontrollides tehtud oletusi mingi struktuuri olemasolu kohta uuritavas objektide komplektis, s.o. olemasoleva struktuuri otsimine;

Uute klassifikatsioonide koostamine väheuuritud nähtustele, kui on vaja tuvastada seoste olemasolu populatsiooni sees ja püüda sellesse struktuuri juurutada (1. lk. 85-86).

2. Klasteranalüüsi rakendamise metoodika kirjeldus. Probleemilahenduse kontrollnäide.

Klasteranalüüs võimaldab moodustada jaotuse homogeenseteks rühmadeks (klastriteks) n objektist, mida iseloomustab k tunnus. Objektide homogeensuse määrab kaugus p(xi xj), kus xi = (xi1, …., xik) ja xj= (xj1,…,xjk) on vektorid, mis koosnevad i atribuudi k väärtustest. -ndas ja j-ndas objektid vastavalt.

Numbriliste tunnustega objektide puhul määratakse kaugus järgmise valemiga:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Objektid loetakse homogeenseteks, kui p(xi xj)< p предельного.

Ühenduse graafilise esituse saab saada klastri ühendusepuu - dendrogrammi - abil. (2. 39. peatükk).

Katsejuhtum (näide 92).

Müügimaht

Klassifitseerime need objektid "lähinaabri" põhimõttel. Leiame valemi (1)* abil objektide vahelised kaugused. Täidame tabeli.

Selgitame, kuidas tabel on täidetud.

Rea i ja veeru j ristumiskohas näidatakse kaugust p(xi xj) (tulemus ümardatakse kahe kümnendkohani).

Näiteks 1. rea ja 3. veeru ristumiskohas on näidatud kaugus p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10 ning 3. rea ja veeru ristumiskohas 5, kaugus p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6,08. Kuna p(xi, xj) = p(xj,xi), ei pea tabeli alumist osa täitma.

Rakendame "lähinaabri" põhimõtet. Tabelist leiame vahemaadest väikseima (kui neid on mitu, siis valime neist ükskõik millise). See on p 1,2 ≈ p 4,5 \u003d 2,24. Olgu p min = p 4,5 = 2,24. Seejärel saame objektid 4 ja 5 ühendada üheks rühmaks, see tähendab, et kombineeritud veerg 4 ja 5 sisaldab algse kaugustabeli veergude 4 ja 5 vastavatest arvudest väikseimat arvu. Teeme sama ridadega 4 ja 5. Saame uue tabeli.

Saadud tabelist leiame vahemaadest väikseima (kui neid on mitu, siis valime neist ükskõik millise): р min = р 1,2 = 2,24. Seejärel saame objektid 1,2,3 ühendada üheks rühmaks, see tähendab, et kombineeritud veerg 1,2,3 sisaldab väikseimat eelmise kaugustabeli veergude 1, 2 ja 3 vastavatest arvudest. Teeme sama ridadega 1 ja 2 ning 3. Saame uue tabeli.

Saime kaks klastrit: (1,2,3) ja (4,5).

3. Ülesannete lahendamine kontrolltööks.

Ülesanne 85.

Tingimused: Viit tootmisüksust iseloomustavad kaks tunnust: müügimaht ja põhivara aasta keskmine maksumus.

Müügimaht

Keskmine aastane kulu tootmispõhivara

Lahendus: Leiame objektide vahelised kaugused valemiga (1)* (ümmardame kahe kümnendkohani):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1,2 \u003d √ (2–5) 2 + (7–9) 2 ≈ 3,61

p 1,3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2,2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2,3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 \u003d √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

Arvutuste tulemuste põhjal täidame tabeli:

Rakendame lähima naabri põhimõtet. Selleks leiame tabelist vahemaadest väikseima (kui neid on mitu, siis valige mõni neist). See on p 2,3=2,24. Olgu p min = p 2,3 = 2,24, siis saame kombineerida veergude "2" ja "3" objekte ning kombineerida ka objektide ridu "2" ja "3". Uues tabelis sisestame kombineeritud rühmadesse väikseimad väärtused algsest tabelist.

Uuest tabelist leiame vahemaadest väikseima (kui neid on mitu, siis valime neist suvalise). See on p 4,5=3,16. Olgu p min = p 4,5 = 3,16, siis saame kombineerida veergude "4" ja "5" objekte ning kombineerida ka objektide ridu "4" ja "5". Uues tabelis sisestame kombineeritud rühmadesse väikseimad väärtused algsest tabelist.

Uuest tabelist leiame vahemaadest väikseima (kui neid on mitu, siis valime neist suvalise). Need on p 1, 2 ja 3=3,61. Olgu p min = p 1, 2 ja 3 = 3,61, siis saame liita veeruobjektid "1" ja "2 ja 3" ning liita ka ridu. Uues tabelis sisestame kombineeritud rühmadesse väikseimad väärtused algsest tabelist.

Saame kaks klastrit: (1,2,3) ja (4,5).

Dendrogramm näitab elementide valiku järjekorda ja vastavaid minimaalseid kaugusi pmin.

Vastus: Klasteranalüüsi tulemusena "lähima naabri" põhimõttel moodustub 2 üksteisega sarnaste objektide klastrit: (1,2,3) ja (4,5).

Ülesanne 211.

Tingimused: Viit tootmisüksust iseloomustavad kaks tunnust: müügimaht ja põhivara aasta keskmine väärtus.

Müügimaht

Tootmispõhivara aasta keskmine maksumus

Klassifitseerige need objektid lähima naabri põhimõtet kasutades.

Lahendus: Probleemi lahendamiseks esitame andmed algses tabelis. Määrame objektide vahelised kaugused. Objektid liigitame “lähima naabri” põhimõtte järgi. Tulemused esitatakse dendrogrammi kujul.

Müügimaht

Tootmispõhivara aasta keskmine maksumus

Valemi (1)* abil leiame objektide vahelised kaugused:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2,3 = 7,07, p 2,4 = 2, p 2,5 = 3,3, p 2,5 = 3,3 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4, 4 = 0, p 4,5 = 1, p 5,5 = 0.

Tulemused on esitatud tabelis:

Tabeli vahemaade väikseim väärtus on p 4,5=1. Olgu p min = p 4,5 = 1, siis saame kombineerida veergude "4" ja "5" objekte ning kombineerida ka objektide ridu "4" ja "5". Uues tabelis sisestame kombineeritud rühmadesse väikseimad väärtused algsest tabelist.

Uues tabelis on kauguste väikseim väärtus p 2, 4 ja 5=2. Olgu p min = p 2, 4 ja 5=2, siis saame kombineerida veergude "4 ja 5" ja "3" objekte ning kombineerida ka objektide ridu "4 ja 5" ja "3". Uues tabelis sisestame tabeli väikseimad väärtused kombineeritud rühmadesse.

Distantside väikseim väärtus uues tabelis on p 3,4,5=2. Olgu p min = p 3,4,5=2, siis saame kombineerida veergude "3,4,5" ja "2" objekte ning kombineerida ka objektide ridu "3,4,5" ja " 2". Uues tabelis sisestame tabeli väikseimad väärtused kombineeritud rühmadesse.

või logige saidile sisse.

Tähtis! Kõik tasuta allalaaditavad testitööd on mõeldud teie enda teadusliku töö plaani või aluse koostamiseks.

Sõbrad! Sul on ainulaadne võimalus aidake teiesuguseid õpilasi! Kui meie sait aitas teil leida õige töö, siis mõistate kindlasti, kuidas teie lisatud töö võib teiste tööd lihtsamaks teha.

Kui kontroll teie arvates töötab, Halb kvaliteet, või olete selle tööga juba kohtunud, andke meile sellest teada.

Vt KLASTRIANALÜÜS. Antinazi. Sotsioloogia entsüklopeedia, 2009 ... Sotsioloogia entsüklopeedia

klastri analüüs- see on meetodite kogum, mis võimaldab klassifitseerida mitmemõõtmelisi vaatlusi, millest igaüks on kirjeldatud teatud muutujate komplektiga. Klasteranalüüsi eesmärk on üksteisega sarnaste objektide rühmade moodustamine, mida tavaliselt nimetatakse ... ... Sotsioloogiline sõnaraamat Socium

klastri analüüs- matemaatiline protseduur mitmemõõtmeliseks analüüsiks, mis võimaldab mitmeid objekte (näiteks subjekte) iseloomustavate näitajate kogumi alusel rühmitada need klassidesse (klastritesse), nii et ühte klassi kuuluvaid objekte oleks rohkem . .. ... Suur psühholoogiline entsüklopeedia

Klastri analüüs- matemaatiline protseduur, mis võimaldab mis tahes komplekti igale objektile (näiteks subjektile) iseloomulike mitme tunnuse kvantitatiivsete väärtuste sarnasuse põhjal rühmitada need objektid teatud klassidesse või klastritesse. .. Psühholoogiline sõnaraamat

klastri analüüs- - [L.G. Sumenko. Inglise vene infotehnoloogia sõnaraamat. M.: GP TsNIIS, 2003.] Teemad Infotehnoloogiaüldiselt EN klastrite analüüs … Tehnilise tõlkija käsiraamat

klastri analüüs- * klastrite analüüs * klastrite analüüs või andmete rühmitamine on mitmemõõtmeline statistiline protseduur, mis kogub andmeid, mis sisaldavad teavet valitud objektide kohta, ja korraldab seejärel objektid suhteliselt homogeenseteks klastrirühmadeks (Q ... ... Geneetika. entsüklopeediline sõnaraamat

klastri analüüs- Kas seda artiklit on soovitav matemaatikas täiustada?: Tehke joonealused märkused, täpsustage allikaid. Parandage artiklit vastavalt Vikipeedia stiilireeglitele. Recycle ofo ... Wikipedia

KLASTERANALÜÜS- - matemaatiline protseduur mitmemõõtmeliseks analüüsiks, mis võimaldab mitmeid objekte (näiteks subjekte) iseloomustavate näitajate komplekti alusel rühmitada need klassidesse (klastritesse), nii et ühte klassi kuuluvad objektid on rohkem ... ... Psühholoogia ja pedagoogika entsüklopeediline sõnastik

KLASTERANALÜÜS - Üldnimetus mitmesuguste matemaatiliste meetodite jaoks keerukate andmete süvastruktuuri määramiseks. Klasteranalüüs on paljuski sarnane faktoranalüüsiga. Mõlemad hõlmavad ühtsete elementide (tegurite või klastrite) otsimist, mis... ... Psühholoogia seletav sõnaraamat

KLASTERANALÜÜS- (klastrianalüüs) tehnika, mida kasutatakse objektide või inimeste rühmade tuvastamiseks, mis võivad andmehulga suhtelisi erinevusi näidata. Seejärel uuritakse selliste inimeste omadusi igas rühmas. Turu-uuringutes ...... Suur seletav sotsioloogiline sõnaraamat

KLASTERANALÜÜS- (KLASTERANALÜÜS) Statistiliste meetodite rühm, mida kasutatakse andmete sisemise struktuuri määramiseks mitut muutujat käsitleva uurimisteabe analüüsimisel. Klasteranalüüsi eesmärk on tuvastada objektide rühmad ... ... sotsioloogiline sõnaraamat

See raamat on pühendatud vaid ühele kõige lootustandvamale lähenemisviisile selles mõttes mitmemõõtmeliste protsesside ja nähtuste analüüsimisel – klastrianalüüsile.

Klasteranalüüs on mitmemõõtmeliste objektide rühmitamise viis, mis põhineb üksikute vaatluste tulemuste esitamisel sobiva geomeetrilise ruumi punktide kaupa, millele järgneb rühmade valimine nende punktide "klompideks". Tegelikult on "klaster" (klaster) sees inglise keel ja tähendab "trombi", "viinamarjakobarat", "tähtede kobarat" jne. See termin sobib ebatavaliselt hästi teadusterminoloogiasse, kuna selle esimene silp vastab traditsioonilisele terminile "klass" ja teine, viitab justkui selle kunstlikule päritolule. Meil pole kahtlustki, et klasteranalüüsi terminoloogia asendab kõik selleks otstarbeks varem kasutatud konstruktsioonid (järelvalveta mustrituvastus, kihistumine, taksonoomia, automaatne klassifitseerimine jne). Klasteranalüüsi potentsiaalsed võimalused on ilmselged näiteks probleemide lahendamiseks sarnastes tingimustes või sarnaste tulemustega tegutsevate ettevõtete rühmade, elu või elustiili erinevates aspektides homogeensete elanikkonnarühmade jms tuvastamisel.

Teadusliku suunana kuulutas klasteranalüüs end välja 60. aastate keskel ja on sellest ajast alates kiiresti arenenud, olles statistikateaduse üks intensiivsema kasvu harusid. Piisab, kui öelda, et ainult eri riikides seni avaldatud klasteranalüüsi monograafiate arvu mõõdetakse sadades (kui näiteks sellise mitmemõõtmelise statistilise analüüsi „teenitud” meetodi järgi nagu faktoranalüüs, vaevalt on võimalik mitukümmend raamatut kokku lugeda). Ja see on täiesti arusaadav. Jutt käib ju tegelikult rühmitamisoperatsiooni modelleerimisest, mis on üks olulisemaid mitte ainult statistikas, vaid üldiselt – nii tunnetuses kui ka otsustamises.

Meie riigis on avaldatud mitmeid monograafiaid, mis on pühendatud konkreetsete sotsiaalmajanduslike probleemide uurimisele klasteranalüüsi abil (1), klasteranalüüsi kasutamise metoodikale sotsiaal-majanduslikes uuringutes (2), klasteranalüüsi metoodikale kui sellisele (1). 3) (Statistilise analüüsi alused )

I.D. Mandeli pakutud raamat on selle klassifikatsiooniga justkui risti: selle sisu on seotud kõigi nende kolme valdkonnaga.

Raamatu eesmärk on teha kokkuvõte tipptasemel klasteranalüüs, analüüsida selle kasutusvõimalusi ja edasiarendamise ülesandeid. See idee ei saa iseenesest äratada austust: erapooletu analüüs ja üldistamine nõuavad palju tööd, eruditsiooni, julgust ning teadusringkonnad hindavad seda palju madalamalt kui omaenda kavandite propageerimist ja arendamist. (Samas on raamatus ka autori algupäraseid arendusi, mis on seotud "intensionaalse" analüüsi ja liigituste duaalsusega.)

Selle eesmärgi elluviimisega on seotud nii raamatu eelised kui ka puudused. Eelised peaksid hõlmama:

· homogeensuse, rühmitamise ja klassifitseerimise mõistete metoodiline uurimine, võttes arvesse nähtuste ja protsesside mitmemõõtmelisust;

· klasteranalüüsi lähenemisviiside ja meetodite süstemaatiline ülevaade (sh kuni 150 spetsiifilist algoritmi);

· klasteranalüüsi protseduuride eksperimentaalse võrdluse tehnoloogia ja tulemuste tutvustamine; See raamat on pühendatud vaid ühele kõige lootustandvamale lähenemisviisile selles mõttes mitmemõõtmeliste protsesside ja nähtuste analüüsimisel – klastrianalüüsile.

Klasteranalüüs on mitmemõõtmeliste objektide rühmitamise viis, mis põhineb üksikute vaatluste tulemuste esitamisel sobiva geomeetrilise ruumi punktide kaupa, millele järgneb rühmade valimine nende punktide "klompideks". Tegelikult tähendab "cluster" (cluster) inglise keeles "klomb", "kobar (viinamarjadest)", "klaster (tähtedest)" jne. See termin sobib ebatavaliselt hästi teadusterminoloogiasse, kuna selle esimene silp vastab traditsioonilisele. mõiste "klass" ja teine, nagu see oli, näitab selle kunstlikku päritolu. Meil pole kahtlustki, et klasteranalüüsi terminoloogia asendab kõik selleks otstarbeks varem kasutatud konstruktsioonid (järelvalveta mustrituvastus, kihistumine, taksonoomia, automaatne klassifitseerimine jne). Klasteranalüüsi potentsiaalsed võimalused on ilmselged näiteks probleemide lahendamiseks sarnastes tingimustes või sarnaste tulemustega tegutsevate ettevõtete rühmade, elu või elustiili erinevates aspektides homogeensete elanikkonnarühmade jms tuvastamisel.

Teadusliku suunana kuulutas klasteranalüüs end välja 60. aastate keskel ja on sellest ajast alates kiiresti arenenud, olles statistikateaduse üks intensiivsema kasvu harusid. Piisab, kui öelda, et ainult mitmed monograafiad klasteranalüüsi, arengu kohta üldised skeemid küllalt illustreerivates tabelites rakendatud klasteranalüüsi meetodite kasutamine; ettekande soovituslik iseloom.

Need eelised määravad I. D. Mandeli raamatu iseseisva koha teiste väljaannete seas.

Raamatu puudusteks on mõnede soovituste ebaselgus ja süstemaatilise analüüsi puudumine klasteranalüüsi meetodite kasutamise küsimustes ainete sotsiaal-majanduslikes rakendustes. Tõsi, viimane on tingitud klasteranalüüsi ebapiisavast kasutamisest selles valdkonnas.

Raamat annab hüppelaua, mille kasutamine hõlbustab edasiminekut mis tahes teooria kõige raskemas küsimuses – selles pakutavate vahendite praktilises kasutamises.

B. G. Mirkin

Uurimisteemad ulatuvad Uus-Guinea mumifitseerunud näriliste morfoloogia analüüsist USA senaatorite hääletustulemuste uurimiseni, külmutatud prussakate käitumuslike funktsioonide analüüsist nende sulatamisel kuni geograafilise leviku uurimiseni. teatud tüüpi samblike kohta Saskatchewanis.

See publikatsioonide plahvatuslik hulk on avaldanud tohutut mõju klasteranalüüsi arendamisele ja rakendamisele. Kuid kahjuks on ka negatiivseid külgi. Klasteranalüüsi käsitlevate publikatsioonide kiire kasv on viinud kasutajate rühmituste tekkeni ja sellest tulenevalt žargooni tekkeni, mida kasutavad ainult selle loonud rühmitused (Blashfield ja Aldenderfer, 1978; Blashfield, 1980).

Eriala spetsialistide žargooni kujundamisest sotsiaalteadused mida tõendab näiteks Wardi meetodiga seotud mitmekesine terminoloogia. "Wardi meetodit" nimetatakse kirjanduses erinevalt. Teada on veel vähemalt neli selle nimetust: "minimaalse dispersiooni meetod", "vea summa ruudu meetod", "hierarhilise rühmituse minimeerimine" ja "HGROUP". Esimesed kaks nimetust viitavad lihtsalt kriteeriumile, mille optimum määratakse Wardi meetodiga, kolmas aga on seotud vigade ruudu summaga, mis on maatriksi W, rühmasisese kovariatsioonimaatriksi monotoonne jäljeteisendus. Lõpuks on laialdaselt kasutatav nimi "HGROUP" populaarse nimi arvutiprogramm, mis rakendab Wardi meetodit (Veldman, 1967).

Žargoni kujunemine takistab interdistsiplinaarsete seoste teket, takistab tõhus võrdlus klastrianalüüsi rakendamise metoodika ja tulemused erinevates teadusvaldkondades, toob kaasa tarbetuid jõupingutusi (samade algoritmide uuesti leiutamist) ega anna uutele kasutajatele sügavat arusaamist nende valitud meetoditest (Blashfield ja aldenderfer, 1978). ). Näiteks ühes sotsiaalteaduslikus uuringus (Rogers ja Linden, 1973) võrreldi kolme erinevat klasterdamismeetodit, kasutades samu andmeid. Nad nimetasid neid meetodeid järgmiselt: "hierarhiline rühmitamine", "hierarhiline rühmitamine või HCG" ja "klastrianalüüs". Ja ükski neist nimedest ei olnud klastrimeetoditele tuttav. Algaja klastrianalüüsi programmide kasutaja ajab kõik olemasolevad nimed segadusse ega saa neid seostada muude klasterdamismeetodite kirjeldustega. Kogenud kasutajad satuvad raskesse olukorda, kui võrrelda oma uurimistööd sarnase tööga. Me võime minna äärmustesse, kuid kõnepruuk on tõsine probleem.

Viimastel aastatel on klasteranalüüsi areng mõnevõrra aeglustunud, kui otsustada nii publikatsioonide arvu kui ka erialade arvu järgi, kus seda meetodit rakendatakse. Võime öelda, et praegu psühholoogia, sotsioloogia, bioloogia, statistika ja mõned tehnilised distsipliinid siseneda klasteranalüüsi konsolideerimisfaasi.

Klasteranalüüsi voorusi ülistavate artiklite arv väheneb tasapisi. Samas on järjest rohkem töid, milles võrreldakse erinevate klasterdamismeetodite rakendatavust kontrollandmetel. Kirjanduses on rohkem tähelepanu pööratud rakendustele. Paljud uuringud on suunatud praktiliste meetmete väljatöötamisele, et testida klasteranalüüsi abil saadud tulemuste paikapidavust. Kõik see annab tunnistust tõsistest katsetest luua klasterdamismeetodite kohta mõistlik statistiline teooria.


KELL

On neid, kes loevad seda uudist enne sind.
Tellige uusimate artiklite saamiseks.
Meil
Nimi
Perekonnanimi
Kuidas teile meeldiks Kellukest lugeda
Rämpsposti pole