QO‘NG‘IROQ

Bu xabarni sizdan oldin o'qiganlar bor.
Eng so'nggi maqolalarni olish uchun obuna bo'ling.
Elektron pochta
Ism
Familiya
Qo'ng'iroqni qanday o'qishni xohlaysiz
Spam yo'q

Yaxshi ishingizni bilimlar bazasiga yuborish oddiy. Quyidagi shakldan foydalaning

Talabalar, aspirantlar, bilimlar bazasidan o‘z o‘qishlarida va ishlarida foydalanayotgan yosh olimlar sizdan juda minnatdor bo‘lishadi.

Kirish

1. “Klaster tahlili” tarixi

2. Terminologiya

2.1 Ob'ekt va xususiyat

2.2 Ob'ektlar orasidagi masofa (metrik)

2.3Klasterlarning zichligi va joylashishi

2.4 Klasterlar orasidagi masofa

3. Guruhlash usullari

3.1Ierarxik aglomerativ usullarning xususiyatlari

3.2Iterativ klasterlash usullarining xususiyatlari

4. Xususiyatlarni klasterlash

5. Klasterlashning barqarorligi va sifati

Bibliografiya

KIRISH

"Klaster tahlili - bu ular orasidagi masofalar yoki bog'lanishlar (yaqinlik o'lchovlari) haqidagi ma'lumotlarga ko'ra "yaqin" ob'ektlarning bir-biridan nisbatan "uzoq" guruhlarini shakllantirish uchun mo'ljallangan matematik usullar to'plami. Bu atamalarga ma'no jihatidan o'xshash: avtomatik. klassifikatsiya, taksonomiya, qolipni o‘qituvchisiz aniqlash”. Klaster tahlilining ushbu ta'rifi Statistik lug'atning so'nggi nashrida berilgan. Aslida, "klaster tahlili" - bu tasnifni yaratish uchun ishlatiladigan juda katta algoritmlar to'plamining umumlashtirilgan nomi. Bir qator nashrlarda klaster tahlili uchun tasniflash va bo'linish kabi sinonimlardan ham foydalaniladi. Klaster tahlili fanda tipologik tahlil vositasi sifatida keng qo‘llaniladi. Har qanday ilmiy faoliyatda tasniflash asosiy tarkibiy qismlardan biri bo'lib, ularsiz ilmiy faraz va nazariyalarni qurish va sinab ko'rish mumkin emas. Shunday qilib, men o'z ishimda klaster tahlili (klaster tahlilining asosi) masalalarini ko'rib chiqishni, shuningdek, uning terminologiyasini ko'rib chiqishni va ma'lumotlarni qayta ishlash bilan ushbu usuldan foydalanishga ba'zi misollar berishni asosiy maqsadim deb bilaman.

1. “KLASTER TAHLILI” TARIXI

Mahalliy va xorijiy nashrlarning tahlili shuni ko'rsatadiki, klaster tahlili turli xil ilmiy yo'nalishlarda: kimyo, biologiya, tibbiyot, arxeologiya, tarix, geografiya, iqtisodiyot, filologiya va boshqalarda qo'llaniladi. V.V.Nalimovning “Tilning ehtimollik modeli” kitobida 70 ta analitik namunani o‘rganishda klaster tahlilidan foydalanish yo‘lga qo‘yilgan. Klaster tahlili bo'yicha adabiyotlarning aksariyati so'nggi o'ttiz yil ichida paydo bo'ldi, garchi klaster usullari haqida birinchi ishlar ancha oldin paydo bo'lgan. Polsha antropologi K.Chekanovski “strukturaviy tasnif” gʻoyasini ilgari surdi, unda klaster tahlilining asosiy gʻoyasi – obʼyektlarning ixcham guruhlarini taqsimlash nazarda tutilgan.

1925 yilda sovet gidrobiologi P.V. Terentyev o'zaro bog'liq xususiyatlarni guruhlash uchun mo'ljallangan "korrelyatsiya pleiadelari usuli" ni ishlab chiqdi. Bu usul grafiklar yordamida guruhlash usullarini ishlab chiqishga turtki berdi. "Klaster tahlili" atamasi birinchi marta Trion tomonidan taklif qilingan. "Klaster" so'zi ingliz tilidan "dasta, cho'tka, dasta, guruh" deb tarjima qilingan. Shuning uchun ham bu turdagi tahlil dastlab “klaster tahlili” deb atalgan. 1950-yillarning boshlarida ierarxik klasterli tahlil algoritmlari bo'yicha R.Lyuis, E.Fiks va J.Xodjesning nashrlari paydo bo'ldi. Klaster tahlili boʻyicha ishlarning rivojlanishiga R.Rozenblatning “oʻqituvchisiz qolipni tanib olish” nazariyasining rivojlanishiga asos solgan tanib olish qurilmasi (perseptron) ustida olib borgan ishlari sezilarli turtki boʻldi.

Klasterlash usullarining rivojlanishiga turtki bo'lib, 1963 yilda nashr etilgan "Raqamli taksonomiya tamoyillari" kitobi bo'ldi. ikki biolog - Robert Sokal va Piter Snit. Ushbu kitob mualliflari samarali biologik tasniflarni yaratish uchun klasterlash tartibi o'rganilayotgan organizmlarni tavsiflovchi turli ko'rsatkichlardan foydalanishni ta'minlashi, bu organizmlar o'rtasidagi o'xshashlik darajasini baholashi va o'xshash organizmlarning joylashishini ta'minlashi kerakligidan kelib chiqqan. xuddi shu guruhda. Bunday holda, tuzilgan guruhlar etarli darajada "mahalliy" bo'lishi kerak, ya'ni. guruhlar ichidagi ob'ektlarning (organizmlarning) o'xshashligi guruhlarning o'zaro o'xshashligidan oshishi kerak. Belgilangan guruhlarning keyingi tahlili, mualliflarning fikriga ko'ra, bu guruhlarning turli biologik turlarga mos kelishini aniqlab berishi mumkin. Shunday qilib, Sokal va Snit ob'ektlarni guruhlarga taqsimlash strukturasini ochib berish ushbu tuzilmalarning shakllanish jarayonini o'rnatishga yordam beradi, deb taxmin qilishdi. Va turli klasterlar (guruhlar) organizmlarining farqi va o'xshashligi davom etayotgan evolyutsiya jarayonini tushunish va uning mexanizmini tushuntirish uchun asos bo'lib xizmat qilishi mumkin.

Xuddi shu yillarda J. MakKin, G. Ball va D. Xoll kabi mualliflar tomonidan k-o'rtacha usullaridan foydalangan holda ko'plab algoritmlar taklif qilindi; G. Lens va V. Uilyams, N. Jardin va boshqalar - ierarxik usullar bo'yicha. Klasterli tahlil usullarining rivojlanishiga mamlakatimiz olimlari - E.M.Braverman, A.A.Dorofeyuk, I.B.Muchnik, L.A.Rastrigin, Yu.I. Xususan, 60-70-yillarda katta hissa qo‘shdilar. Novosibirsk matematiklari N.G.Zagoruiko, V.N.Elkina va G.S.Lbov tomonidan ishlab chiqilgan koʻplab algoritmlar katta shuhrat qozondi. Bular FOREL, BIGFOR, KRAB, NTTP, DRET, TRF va boshqalar kabi mashhur algoritmlardir. Ushbu paketlar asosida maxsus OTEX dasturiy paketi yaratilgan. Bundan kam qiziqarli emas dasturiy mahsulotlar PPSA va Klass-Master moskvalik matematiklar S.A.Aivazyan, I.S.Enyukov va B.G.Mirkin tomonidan yaratilgan.

Klaster tahlil usullari ma'lum darajada mahalliy va xorijiy eng mashhur statistik paketlarning ko'pchiligida mavjud: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS va boshqalar. Albatta, ushbu sharh chiqqanidan 10 yil o'tgach, juda ko'p narsa o'zgardi, ko'plab statistik dasturlarning yangi versiyalari paydo bo'ldi va yangi algoritmlardan foydalanadigan va quvvatni sezilarli darajada oshiradigan mutlaqo yangi dasturlar paydo bo'ldi. Kompyuter fanlari. Biroq, aksariyat statistik paketlar 60-70-yillarda taklif qilingan va ishlab chiqilgan algoritmlardan foydalanadi.

Mutaxassislarning taxminiy hisob-kitoblariga ko'ra, klaster tahlili va uning bilimlarning turli sohalarida qo'llanilishi bo'yicha nashrlar soni har uch yilda ikki baravar ko'payadi. Ushbu turdagi tahlilga bo'ronli qiziqishning sabablari nimada? Ob'ektiv ravishda, bu hodisaning uchta asosiy sababi bor. Bu kuchli hisoblash texnologiyasining paydo bo'lishi bo'lib, ularsiz real ma'lumotlarni klaster tahlili amalda amalga oshirib bo'lmaydi. Ikkinchi sabab - zamonaviy fan o'z konstruktsiyalarida tobora ko'proq tasnifga asoslanadi. Bundan tashqari, bu jarayon tobora chuqurlashib bormoqda, chunki bunga parallel ravishda bilimlarning ixtisoslashuvi kuchaymoqda, bu etarli darajada ob'ektiv tasnifsiz mumkin emas.

Uchinchi sabab - maxsus bilimlarning chuqurlashishi muqarrar ravishda ma'lum ob'ektlar va hodisalarni tahlil qilishda hisobga olinadigan o'zgaruvchilar sonining ko'payishiga olib keladi. Natijada, ilgari hisobga olingan juda oz sonli xususiyatlarga tayangan sub'ektiv tasnif ko'pincha ishonchsiz bo'lib chiqadi. Ob'ektiv tasniflash esa, ob'ekt xususiyatlarining tobora ortib borayotgan to'plami bilan faqat zamonaviy kompyuterlar asosida amalga oshirilishi mumkin bo'lgan murakkab klasterlash algoritmlaridan foydalanishni talab qiladi. Aynan mana shu sabablar “klaster bumi”ni keltirib chiqardi. Biroq, shifokorlar va biologlar orasida klaster tahlili hali juda mashhur va keng tarqalgan tadqiqot usuliga aylanmagan.

2 TERMINOLOGIYA

2. 1 OBYEKT VA IMZO

Keling, avvalo ob'ekt va atribut kabi tushunchalarni kiritaylik. Ob'ekt - lotincha obyektum - sub'ektdan. Kimyo va biologiyaga nisbatan ob'ektlar deganda fizikaviy, kimyoviy va boshqa usullar yordamida o'rganiladigan aniq tadqiqot predmetlarini tushunamiz. Bunday ob'ektlar, masalan, namunalar, o'simliklar, hayvonlar va boshqalar bo'lishi mumkin. Tadqiqotchiga o'rganish uchun mavjud bo'lgan muayyan ob'ektlar to'plami namuna yoki namunalar to'plami deb ataladi. Bunday populyatsiyadagi ob'ektlar soni odatda tanlama hajmi deb ataladi. Odatda, namuna hajmi lotincha "n" yoki "N" harfi bilan belgilanadi.

Belgi (sinonimlar - xossa, o'zgaruvchan, xarakterli; inglizcha - variable - o'zgaruvchan.) - ob'ektning o'ziga xos xususiyati. Bu xususiyatlar sonli yoki raqamli bo'lmagan qiymatlar sifatida ifodalanishi mumkin. Masalan, qon bosimi (sistolik yoki diastolik) simob millimetrlari, vazni kilogramm, bo'yi santimetr va boshqalar bilan o'lchanadi. Bunday belgilar miqdoriydir. Ushbu uzluksiz raqamli xarakteristikalardan (shkalalar) farqli o'laroq, bir qator xususiyatlar diskret, uzluksiz qiymatlarga ega bo'lishi mumkin. O'z navbatida, bunday diskret xususiyatlar odatda ikki guruhga bo'linadi.

1) Birinchi guruh darajali o'zgaruvchilar yoki ular tartibli o'zgaruvchilar (shkalalar) deb ham ataladi. Bunday belgilar ushbu qiymatlarni tartibga solish xususiyati bilan tavsiflanadi. Bularga ma'lum bir kasallikning bosqichlari, yosh guruhlari, talabalar bilimi ballari, 12 balli Rixter zilzila shkalasi va boshqalar kiradi.

2) Diskret belgilarning ikkinchi guruhi bunday tartibga ega emas va nominal ("nominal" so'zidan - namuna) yoki tasniflash belgilari deb ataladi. Bunday belgilarga misol sifatida bemorning ahvoli - "sog'lom" yoki "kasal", bemorning jinsi, kuzatuv davri - "davolashdan oldin" va "davolashdan keyin" va boshqalar bo'lishi mumkin. Bunday hollarda, bunday xususiyatlar nomlar masshtabiga tegishli ekanligini aytish odat tusiga kiradi.

Ob'ekt va xususiyat tushunchalari odatda "Ob'ekt-xususiyat" yoki "Ob'ekt-xususiyat" matritsasi deb ataladi. Matritsa o'rganilayotgan kuzatishlar namunasining xususiyatlarini tavsiflovchi xususiyatlar qiymatlaridan iborat to'rtburchaklar jadval bo'ladi. Shu nuqtai nazardan, bitta kuzatuv ishlatilgan xususiyatlarning qiymatlaridan iborat alohida satr sifatida qayd etiladi. Bunday ma'lumotlar matritsasidagi alohida atribut namunadagi barcha ob'ektlar uchun ushbu atributning qiymatlaridan iborat ustun bilan ifodalanadi.

2. 2 OBYEKTLAR ORASI (METRIC)

Keling, "ob'ektlar orasidagi masofa" tushunchasini kiritamiz. Bu tushuncha ob'ektlarning bir-biriga o'xshashligining ajralmas o'lchovidir. Xususiyat fazosidagi ob'ektlar orasidagi masofa shunday qiymat d ij bo'lib, quyidagi aksiomalarni qondiradi:

1. d ij > 0 (masofaning manfiy emasligi)

2. d ij = d ji (simmetriya)

3. d ij + d jk > d ik (uchburchak tengsizligi)

4. Agar d ij 0 ga teng bo'lmasa, i j ga teng emas (bir xil bo'lmagan ob'ektlarning farqlanishi)

5. Agar d ij = 0 bo'lsa, u holda i = j (bir xil ob'ektlarning farqlanmasligi)

Ob'ektlarning yaqinligi (o'xshashligi) o'lchovini sifatida ifodalash qulay o'zaro ob'ektlar orasidagi masofa bo'yicha. Klaster tahliliga bag'ishlangan ko'plab nashrlar ob'ektlar orasidagi masofani hisoblashning 50 dan ortiq turli usullarini tavsiflaydi. Adabiyotda "masofa" atamasidan tashqari yana bir atama ko'pincha uchraydi - "metrik" bu ma'lum masofani hisoblash usulini nazarda tutadi. Miqdoriy xususiyatlar holatida idrok etish va tushunish uchun eng qulay bo'lgan "Yevklid masofasi" yoki "Yevklid metrikasi" deb ataladi. Ushbu masofani hisoblash formulasi:

Ushbu formulada quyidagi belgilar qo'llaniladi:

· d ij - i-chi va j-chi jismlar orasidagi masofa;

· x ik - i-ob'ekt uchun k-chi o'zgaruvchining son qiymati;

· x jk - j-ob'ekt uchun k-chi o'zgaruvchining son qiymati;

· v - ob'ektlarni tavsiflovchi o'zgaruvchilar soni.

Shunday qilib, v=2 holat uchun bizda faqat ikkita miqdoriy xususiyat mavjud bo'lganda, d ij masofasi to'rtburchaklar koordinatalar sistemasidagi ikkita nuqtani bog'laydigan to'g'ri burchakli uchburchakning gipotenuzasi uzunligiga teng bo'ladi. Bu ikki nuqta namunaning i-chi va j-chi kuzatuvlariga mos keladi. Ko'pincha odatdagi Evklid masofasi o'rniga uning kvadrati d 2 ij ishlatiladi. Bundan tashqari, ba'zi hollarda "vaznli" Evklid masofasi qo'llaniladi, uni hisoblashda alohida atamalar uchun og'irlik koeffitsientlari qo'llaniladi. Evklid metrikasi kontseptsiyasini tasvirlash uchun biz oddiy o'qitish misolidan foydalanamiz. Quyidagi jadvalda ko'rsatilgan ma'lumotlar matritsasi 5 ta kuzatish va ikkita o'zgaruvchidan iborat.

1-jadval

Beshta kuzatilgan namuna va ikkita o'zgaruvchining ma'lumotlar matritsasi.

Evklid metrikasidan foydalanib, biz d ij qiymatlaridan iborat bo'lgan ob'ektlar orasidagi masofalar matritsasi - i-chi va j-chi ob'ektlar orasidagi masofani hisoblaymiz. Bizning holatlarimizda i va j - ob'ektning soni, kuzatish. Namuna hajmi 5 bo'lganligi sababli, i va j mos ravishda 1 dan 5 gacha qiymatlarni qabul qilishi mumkin. Bundan tashqari, barcha mumkin bo'lgan juftlik masofalari soni 5 * 5 = 25 bo'lishi aniq. Darhaqiqat, birinchi ob'ekt uchun bu quyidagi masofalar bo'ladi: 1-1; 1-2; 1-3; 1-4; 1-5. 2-ob'ekt uchun 5 ta mumkin bo'lgan masofa ham bo'ladi: 2-1; 2-2; 2-3; 2-4; 2-5 va boshqalar. Biroq, raqam turli masofalar 25 dan kam bo'ladi, chunki bir xil ob'ektlarning farqlanmaslik xususiyatini hisobga olish kerak - i = j uchun d ij = 0. Bu shuni anglatadiki, №1 ob'ekt va bir xil №1 ob'ekt orasidagi masofa nolga teng bo'ladi. Boshqa barcha holatlar uchun bir xil nol masofalar i = j bo'ladi. Bundan tashqari, simmetriya xossasidan kelib chiqadiki, har qanday i va j uchun d ij = d ji. Bular. №1 va №2 ob'ektlar orasidagi masofa №2 va №1 ob'ektlar orasidagi masofaga teng.

Evklid masofasining ifodasi umumiy Minkovskiy quvvat masofasi deb ataladigan narsaga juda o'xshaydi, unda ikkita kuch o'rniga boshqa qiymat ishlatiladi. Umumiy holatda bu qiymat "p" belgisi bilan belgilanadi.

p = 2 uchun biz odatdagi Evklid masofasini olamiz. Shunday qilib, umumlashtirilgan Minkovskiy metrikasi uchun ifoda quyidagi shaklga ega:

“p” ko‘rsatkichining o‘ziga xos qiymatini tanlash tadqiqotchining o‘zi tomonidan amalga oshiriladi.

Minkovski masofasining alohida holati p=1 ga mos keladigan Manxetten masofasi yoki "shahar-blok masofasi" deb ataladi:

Shunday qilib, Manxetten masofasi ob'ektlarning tegishli belgilarining farqlari modullarining yig'indisidir. Agar p cheksizlikka moyil bo'lsa, biz "hukmronlik" ko'rsatkichini yoki Sup-metrikani olamiz:

d ij = max| shaklida ham ifodalanishi mumkin x ik - x jk |.

Minkowski ko'rsatkichi aslida eng mashhur ko'rsatkichlarni o'z ichiga olgan katta ko'rsatkichlar oilasidir. Biroq, ob'ektlar orasidagi masofani hisoblash uchun Minkovskiy ko'rsatkichlaridan tubdan farq qiladigan usullar mavjud. Ulardan eng muhimi o'ziga xos xususiyatlarga ega bo'lgan Mahalanobis masofasi deb ataladi. Ushbu ko'rsatkich uchun ifoda:

Mana orqali X i va X j i-chi va j-chi ob'ektlar uchun o'zgaruvchan qiymatlarning ustun vektorlari ko'rsatilgan. Belgi T ifodada (X i - X j ) T vektor transpozitsiyasi deb ataladigan operatsiyani bildiradi. Belgi S umumiy guruh ichidagi variatsiya-kovariatsiya matritsasi ko'rsatilgan. Belgi -1 yuqorida S matritsani o'zgartirishingiz kerakligini anglatadi S . Minkovski metrikasi va Evklid metrikasidan farqli o'laroq, Mahalanobis masofasi dispersiya-kovariatsiya matritsasi orqali. S o'zgaruvchilarning korrelyatsiyasi bilan bog'liq. O'zgaruvchilar orasidagi korrelyatsiya nolga teng bo'lsa, Mahalanobis masofasi Evklid masofasining kvadratiga ekvivalent bo'ladi.

Dichotomous (faqat ikkita qiymatga ega) sifat xususiyatlaridan foydalanganda, Hamming masofasi keng qo'llaniladi.

ko'rib chiqilayotgan i-chi va j-chi ob'ektlar uchun mos belgilarning qiymatlaridagi nomuvofiqliklar soniga teng.

2. 3 KLASTERLARNING ZIZLIGI VA YERLILIGI

Klaster tahlilining asosiy maqsadi namunada bir-biriga o'xshash ob'ektlar guruhlarini topishdir. Faraz qilaylik, ba'zi mumkin bo'lgan usullar bilan biz bunday guruhlarni - klasterlarni oldik. Klasterlarning muhim xususiyatlarini ta'kidlash kerak. Bu xususiyatlardan biri nuqtalarning taqsimlanish zichligi, klaster ichidagi kuzatishlardir. Bu xususiyat bizga klasterni ko'p o'lchovli fazodagi nuqtalar klasteri sifatida aniqlash imkonini beradi, bu fazoning boshqa mintaqalariga nisbatan nisbatan zichroq bo'lib, ularda nuqtalar umuman bo'lmaydi yoki oz sonli kuzatishlar mavjud. Boshqacha qilib aytganda, bu klaster qanchalik ixcham yoki aksincha, qanchalik siyrak. Ushbu xususiyatning etarli dalillariga qaramay, bunday ko'rsatkichni (zichlikni) hisoblashning aniq usuli yo'q. Muayyan klasterdagi ko'p o'lchovli kuzatuvlarning ixchamligini, "qadoqlash" zichligini tavsiflovchi eng muvaffaqiyatli ko'rsatkich bu klaster markazidan klasterning alohida nuqtalarigacha bo'lgan masofaning tarqalishidir. Bu masofaning dispersiyasi qanchalik kichik bo'lsa, kuzatishlar klaster markaziga qanchalik yaqin bo'lsa, klasterning zichligi shunchalik katta bo'ladi. Va aksincha, masofa dispersiyasi qanchalik katta bo'lsa, bu klaster shunchalik siyrak bo'ladi va shuning uchun ham klaster markaziga yaqin, ham klaster markazidan ancha uzoqda joylashgan nuqtalar mavjud.

Klasterlarning keyingi xossasi ularning kattaligidir. Klaster kattaligining asosiy ko'rsatkichi uning "radiusi" dir. Agar ko'rib chiqilayotgan klaster ko'p o'lchovli fazoda dumaloq va gipersfera bo'lsa, bu xususiyat klasterning haqiqiy hajmini to'liq aks ettiradi. Biroq, agar klasterlar cho'zilgan shakllarga ega bo'lsa, u holda radius yoki diametr tushunchasi endi klasterning haqiqiy hajmini aks ettirmaydi.

Klasterning yana bir muhim xususiyati ularning joylashishi, ajralishidir. U ko'p o'lchovli makonda klasterlarning bir-biridan o'zaro uzoqligi va o'zaro bog'liqlik darajasini tavsiflaydi. Misol uchun, quyidagi rasmda uchta klasterning yangi, birlashtirilgan funktsiyalar maydonida taqsimlanishini ko'rib chiqing. 1 va 2 o'qlar elektron mikroskop yordamida o'rganilgan eritrotsitlarning turli shakllarining aks ettiruvchi xususiyatlarining 12 xususiyatidan maxsus usul bilan olingan.

1-rasm

Ko'ramizki, 1-klaster minimal o'lchamga ega, 2 va 3-klasterlar esa taxminan teng o'lchamlarga ega. Shu bilan birga, shuni aytishimiz mumkinki, minimal zichlik, demak, maksimal masofa dispersiyasi 3-klasterga xosdir. Bundan tashqari, 1-klaster 2-klasterdan ham, 3-klasterdan ham yetarlicha katta boʻsh maydonlar bilan ajratilgan. Klasterlar esa 2 va 3 qisman bir-biriga mos keladi. Shuningdek, 1-klaster 2-oʻq boʻylab 1-oʻq boʻyicha 2- va 3-klasterlardan ancha katta farqga ega ekanligi ham qiziq. Aksincha, 2 va 3-klasterlar bir-biridan 1-oʻq boʻylab ham, 2 oʻqlari boʻyicha ham taxminan teng farqlanadi. Ko'rinib turibdiki, bunday vizual tahlil qilish uchun namunaning barcha kuzatuvlari maxsus o'qlarga proyeksiyalangan bo'lishi kerak, bunda klaster elementlarining proyeksiyalari alohida klasterlar sifatida ko'rinadi.

2. 4 KLASTERLAR ORASI

Kengroq ma'noda ob'ektlarni nafaqat "ob'ekt-mulk" matritsasida alohida chiziq sifatida yoki ko'p o'lchovli xususiyat fazosining alohida nuqtalari sifatida taqdim etilgan tadqiqotning dastlabki ob'ektlari sifatida, balki bunday nuqtalarning alohida guruhlari sifatida ham tushunish mumkin. , u yoki bu algoritm bilan klasterga birlashtirilgan. Bunday holda, bunday nuqtalar (klasterlar) klasterlari orasidagi masofani qanday tushunish va uni qanday hisoblash kerakligi haqida savol tug'iladi. Bunday holda, ko'p o'lchovli fazoda ikkita kuzatish orasidagi masofani hisoblashdan ko'ra ko'proq turli xil imkoniyatlar mavjud. Ushbu protsedura nuqtalardan farqli o'laroq, klasterlar ma'lum miqdordagi ko'p o'lchovli maydonni egallaganligi va ko'plab nuqtalardan iboratligi bilan murakkablashadi. Klaster tahlilida eng yaqin qo'shni (eng yaqin qo'shni), og'irlik markazi, eng uzoq qo'shni va medianalar asosida hisoblangan klasterlararo masofalar keng qo'llaniladi. To'rtta usul eng ko'p qo'llaniladi: bitta havola, to'liq havola, o'rtacha havola va Vard usuli. Yagona bog'lanish usulida, agar klaster elementlaridan kamida bittasi biriktirilgan ob'ekt bilan bir xil darajada o'xshash bo'lsa, ob'ekt allaqachon mavjud klasterga biriktiriladi. To'liq bog'lanish usuli uchun ob'ekt klasterga qo'shilish uchun nomzod va klasterning biron bir elementi o'rtasidagi o'xshashlik ma'lum bir chegaradan kam bo'lmasa, biriktiriladi. O'rtacha ulanish usuli uchun bir nechta modifikatsiyalar mavjud bo'lib, ular bitta va to'liq ulanish o'rtasida bir oz murosaga ega. Ular qo'shilish uchun nomzodning mavjud klasterning barcha ob'ektlari bilan o'xshashligining o'rtacha qiymatini hisoblab chiqadilar. Topilgan o'rtacha o'xshashlik qiymati ma'lum chegaraga yetganda yoki undan oshib ketganda qo'shilish amalga oshiriladi. Eng ko'p ishlatiladigan klaster ob'ektlari va klasterga qo'shilish uchun nomzod o'rtasidagi o'rtacha arifmetik o'xshashlik.

Ko'pgina klasterlash usullari bir-biridan farq qiladi, chunki ularning algoritmlari har bir bosqichda bo'lim sifatining turli funktsiyalarini hisoblab chiqadi. Mashhur Ward usuli klaster ichidagi masofalarning minimal farqini optimallashtiradigan tarzda ishlab chiqilgan. Birinchi bosqichda har bir klaster bitta ob'ektdan iborat bo'lib, buning natijasida masofalarning klaster ichidagi dispersiyasi 0 ga teng. Ushbu usulga ko'ra, dispersiyaning minimal o'sishini beradigan ob'ektlar birlashtiriladi, buning natijasida bu usul tendentsiyaga ega. gipersferik klasterlarni hosil qilish.

Klaster tahlil usullarini tasniflash uchun bir nechta urinishlar o'nlab yoki hatto yuzlab turli sinflarga olib keladi. Bunday xilma-xillik alohida kuzatuvlar orasidagi masofani hisoblashning ko'plab mumkin bo'lgan usullari, klasterlash jarayonida alohida klasterlar orasidagi masofani hisoblash usullari va yakuniy klaster tuzilmasining optimalligining turli xil baholari bilan yaratiladi.

Mashhur statistik paketlarda klasterli tahlil algoritmlarining ikki guruhi eng keng tarqalgan: ierarxik aglomerativ usullar va iterativ guruhlash usullari.

3. GURUHLASH USULLARI

3. 1 IERARXIK AGLOMERATIV USULLARNING XUSUSIYATLARI

Haqiqiy biotibbiyot tadqiqotlarida ko'proq qo'llaniladigan aglomerativ ierarxik algoritmlarda dastlab barcha ob'ektlar (kuzatishlar) faqat bitta elementdan iborat alohida, mustaqil klasterlar sifatida qaraladi. Kuchli kompyuter texnologiyalaridan foydalanmasdan, klaster ma'lumotlarini tahlil qilishni amalga oshirish juda muammoli.

Ko'rsatkichni tanlash tadqiqotchi tomonidan amalga oshiriladi. Masofa matritsasini hisoblagandan so'ng, jarayon boshlanadi aglomeratsiyalar (lotincha aglomerodan - biriktiraman, to'playman), ketma-ket bosqichma-bosqich o'tadi. Ushbu jarayonning birinchi bosqichida ular orasidagi masofa eng kichik bo'lgan ikkita dastlabki kuzatishlar (monoklasterlar) allaqachon ikkita ob'ektdan (kuzatishlardan) iborat bo'lgan bitta klasterga birlashtiriladi. Shunday qilib, avvalgi N monoklasterlar (bitta ob'ektdan iborat klasterlar) o'rniga birinchi bosqichdan so'ng N-1 klasterlar paydo bo'ladi, ulardan bitta klaster ikkita ob'ektni (kuzatishlarni) o'z ichiga oladi va N-2 klasterlar hali ham quyidagilardan iborat bo'ladi. faqat bitta ob'ekt. Ikkinchi bosqichda N-2 klasterlarini birlashtirishning turli usullari mumkin. Buning sababi shundaki, ushbu klasterlardan birida allaqachon ikkita ob'ekt mavjud. Shu sababli ikkita asosiy savol tug'iladi:

· ikkita (va yana ikkitadan ortiq) ob'ektlardan iborat bunday klasterning koordinatalarini qanday hisoblash mumkin;

· «monoklasterlar»dan bunday «poliob'ekt» klasterlarigacha va «poliobyektli» klasterlar orasidagi masofani qanday hisoblash mumkin.

Bu savollar pirovardida yakuniy klasterlarning yakuniy tuzilishini belgilaydi (klasterlar tuzilishi deganda alohida klasterlarning tarkibi va ularning ko‘p o‘lchovli fazodagi nisbiy o‘rni tushuniladi). Klasterlarning koordinatalari va o'zaro masofalarini hisoblash uchun ko'rsatkichlar va usullarning turli kombinatsiyasi turli xil klasterlarni tahlil qilish usullarini keltirib chiqaradi. Ikkinchi bosqichda, bir nechta ob'ektlardan iborat klasterning koordinatalarini hisoblashning tanlangan usullariga va klasterlararo masofalarni hisoblash usuliga qarab, ikkita alohida kuzatuvni yangi klasterga qayta birlashtirish yoki bitta yangi klasterga qo'shilish mumkin. ikkita ob'ektdan iborat klasterga kuzatish. Qulaylik uchun ish oxirida aglomerativ-ierarxik usullarning aksariyat dasturlari ko'rish uchun ikkita asosiy grafikni taqdim etishi mumkin. Birinchi grafik aglomeratsiya jarayonini, individual kuzatishlarning yagona yakuniy klasterga birlashishini aks ettiruvchi dendrogramma (yunoncha dendron - daraxtdan) deb ataladi. Ikki o'zgaruvchidagi 5 ta kuzatuvdan iborat dendrogramma misolini keltiramiz.

Jadval1

Bunday grafikning vertikal o'qi klasterlararo masofaning o'qi bo'lib, ob'ektlar soni - tahlilda ishlatiladigan holatlar - gorizontal o'q bo'ylab belgilanadi. Ushbu dendrogrammadan ko'rinib turibdiki, №1 va 2-ob'ektlar birinchi navbatda bitta klasterga birlashtirilgan, chunki ular orasidagi masofa eng kichik va 1 ga teng. Bu birlashish grafikda kelayotgan vertikal segmentlarni bog'laydigan gorizontal chiziq orqali ko'rsatiladi. C_1 va C_2 sifatida belgilangan nuqtalardan tashqari. Gorizontal chiziqning o'zi aynan 1 ga teng bo'lgan klasterlararo masofa darajasida o'tishiga e'tibor qarataylik. Bundan tashqari, ikkinchi bosqichda C_3 sifatida belgilangan №3 ob'ekt allaqachon ikkita ob'ektni o'z ichiga olgan ushbu klasterga qo'shiladi. Keyingi qadam №4 va №5 ob'ektlarni birlashtirish bo'lib, ular orasidagi masofa 1,41 ga teng. Va oxirgi bosqichda 1, 2 va 3-ob'ektlar klasteri 4 va 5-ob'ektlar klasteri bilan birlashtiriladi. Grafikdan ko'rinib turibdiki, bu ikki oxirgi klaster (oxirgi klaster barcha 5 ob'ektni o'z ichiga oladi) orasidagi masofa 5 dan katta. , lekin 6 dan kam, chunki oxirgidan oldingi ikkita klasterni bog'laydigan yuqori gorizontal chiziq taxminan 7 ga teng darajada o'tadi va 4 va 5 ob'ektlarning ulanish darajasi 1,41 ni tashkil qiladi.

Quyidagi dendrogramma 70 ta ishlov berilgandan iborat haqiqiy ma'lumotlar to'plamini tahlil qilish yo'li bilan olingan kimyoviy namunalar, ularning har biri 12 ta xususiyat bilan tavsiflangan.

2-chizma

Grafikdan ko'rinib turibdiki, oxirgi bosqichda oxirgi ikkita klaster birlashganda ular orasidagi masofa taxminan 200 birlikni tashkil qiladi. Ko'rinib turibdiki, birinchi klaster ikkinchi klasterga qaraganda ancha kam ob'ektlarni o'z ichiga oladi.Quyida dendrogrammaning kattalashtirilgan bo'limi mavjud bo'lib, unda kuzatish raqamlari aniq ko'rinib turadi, C_65, C_58 va boshqalar bilan belgilanadi. (chapdan o'ngga): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 va boshqalar.

3-chizma Yuqoridagi №2 diagrammaning kattalashtirilgan qismi

Ko'rinib turibdiki, 44-ob'ekt monoklaster bo'lib, oxirgi bosqichda o'ng klaster bilan birlashadi, so'ngra oxirgi bosqichda barcha kuzatishlar bitta klasterga birlashtiriladi.

Bunday protseduralarda qurilgan yana bir grafik - bu birlashmaning har bir bosqichida klasterlararo masofalar grafigi. Quyida yuqoridagi dendrogramma uchun shunga o'xshash uchastka mavjud.

4-chizma

Bir qator dasturlarda klasterlashning har bir bosqichida ob'ektlarni birlashtirish natijalarini jadval ko'rinishida ko'rsatish mumkin. Ushbu jadvallarning aksariyatida chalkashmaslik uchun dastlabki kuzatuvlarni - monoklasterlarni va ikki yoki undan ortiq kuzatuvlardan tashkil topgan haqiqiy klasterlarni belgilash uchun turli atamalar qo'llaniladi. Ingliz tilidagi statistik paketlarda dastlabki kuzatuvlar (ma'lumotlar matritsasi qatorlari) "case" - case sifatida belgilanadi. Klaster tuzilishining metrikani tanlashga va klaster birlashma algoritmini tanlashga bog'liqligini ko'rsatish uchun biz quyida to'liq ulanish algoritmiga mos keladigan dendrogrammani taqdim etamiz. Va bu erda biz №44 ob'ekt oxirgi bosqichda tanlovning qolgan qismi bilan birlashtirilganligini ko'ramiz.

5-chizma

Endi uni xuddi shu ma'lumotlarga yagona bog'lanish usuli yordamida olingan boshqa diagramma bilan solishtiramiz. To'liq ulanish usulidan farqli o'laroq, bu usul bir-biriga ketma-ket biriktirilgan ob'ektlarning uzun zanjirlarini hosil qilishini ko'rish mumkin. Biroq, har uch holatda ham ikkita asosiy guruh ajralib turishini aytishimiz mumkin.

6-chizma

Shuningdek, 44-sonli ob'ekt har uch holatda ham klasterlash jarayonining turli bosqichlarida bo'lsa-da, monoklaster sifatida birlashishiga e'tibor qarataylik. Bunday monoklasterlarni tanlash anomal kuzatuvlarni aniqlashning yaxshi vositasi bo'lib, ular chet elliklar deb ataladi. Keling, ushbu 44-sonli "shubhali" ob'ektni o'chiramiz va yana klasterlashni amalga oshiramiz. Biz quyidagi dendrogrammani olamiz:

7-chizma

Ko'rinib turibdiki, kuzatuvlarning ikkita mahalliy guruhiga bo'linish kabi "zanjir" effekti saqlanib qolgan.

3. 2 TERATİV KLAsterlash USULLARINING XUSUSIYATLARI

Iterativ usullar orasida eng ommabop usul MakKinning k-o'rtacha usuli hisoblanadi. Ierarxik usullardan farqli o'laroq, ushbu usulning ko'p qo'llanilishida foydalanuvchining o'zi odatda "k" bilan belgilanadigan yakuniy klasterlarning kerakli sonini ko'rsatishi kerak. Ierarxik klasterlash usullarida bo'lgani kabi, foydalanuvchi metrikaning u yoki bu turini tanlashi mumkin. k-o'rtachalar usulining turli algoritmlari berilgan klasterlarning boshlang'ich markazlarini tanlash usulida ham farqlanadi. Usulning ba'zi versiyalarida foydalanuvchining o'zi bunday boshlang'ich nuqtalarni haqiqiy kuzatishlardan tanlash yoki har bir o'zgaruvchi uchun ushbu nuqtalarning koordinatalarini ko'rsatish orqali ko'rsatishi mumkin (yoki kerak). Ushbu usulning boshqa qo'llanilishida ma'lum bir k sonli boshlang'ich nuqtalarni tanlash tasodifiy amalga oshiriladi va bu boshlang'ich nuqtalar (klaster donalari) keyinchalik bir necha bosqichda aniqlanishi mumkin. Bunday usullarning 4 ta asosiy bosqichi mavjud:

· klasterlarning asosiy markazlari bo'ladigan k kuzatishni tanlash yoki belgilash;

· zarur hollarda har bir kuzatuvni eng yaqin ko‘rsatilgan klaster markazlariga belgilash yo‘li bilan oraliq klasterlar tuziladi;

· barcha kuzatishlar alohida klasterlarga tayinlangandan so‘ng birlamchi klaster markazlari o‘rtacha klasterlar bilan almashtiriladi;

· oldingi iteratsiya klaster markazlarining koordinatalaridagi o'zgarishlar minimal bo'lgunga qadar takrorlanadi.

Ushbu usulning ba'zi versiyalarida foydalanuvchi mezonning raqamli qiymatini o'rnatishi mumkin, bu yangi klaster markazlarini tanlash uchun minimal masofa sifatida talqin etiladi. Kuzatuv nomzod sifatida ko'rib chiqilmaydi yangi markaz klaster, agar uning klasterning almashtirilgan markaziga masofasi belgilangan raqamdan oshsa. Ushbu parametr ba'zi dasturlarda "radius" deb ataladi. Ushbu parametrga qo'shimcha ravishda, takrorlashlarning maksimal sonini belgilash yoki ma'lum, odatda juda kichik raqamga erishish mumkin, bu bilan barcha klaster markazlari uchun masofa o'zgarishi taqqoslanadi. Ushbu sozlama odatda "konvergentsiya" deb ataladi, chunki iterativ klasterlash jarayonining yaqinlashuvini aks ettiradi. Quyida biz oldingi ma'lumotlarga McKean k-means usuli yordamida olingan ba'zi natijalarni taqdim etamiz. Istalgan klasterlar soni dastlab 3 ga, keyin esa 2 ga o'rnatildi. Ularning birinchi qismida bitta faktorli natijalar mavjud dispersiyani tahlil qilish, bunda klaster raqami guruhlash omili vazifasini bajaradi. Birinchi ustunda 12 ta o'zgaruvchining ro'yxati, undan keyin kvadratlar yig'indisi (SS) va erkinlik darajalari (df), so'ngra Fisherning F-testi va oxirgi ustunda erishilgan ahamiyatlilik darajasi "p".

2-jadval McKean k-70 ta sinov namunalariga tegishli ma'lumotlarni anglatadi.

O'zgaruvchilar

Ushbu jadvaldan ko'rinib turibdiki, uchta guruhdagi vositalarning tengligi haqidagi nol gipoteza rad etilgan. Quyida alohida klasterlar uchun barcha o'zgaruvchilarning vositalarining grafigi keltirilgan. O'zgaruvchilarning bir xil klaster vositalari quyida jadval ko'rinishida keltirilgan.

Jadval 3. Uchta klaster misolida ma'lumotlarni batafsil ko'rib chiqish.

O'zgaruvchan

№1 klaster

№2 klaster

№3 klaster

8-chizma

Har bir klaster uchun o'zgaruvchilarning o'rtacha qiymatlarini tahlil qilish X1 xususiyatiga ko'ra, 1 va 3 klasterlar yaqin qiymatlarga ega, 2-klaster esa boshqa ikkita klasterga qaraganda o'rtacha qiymatga ega degan xulosaga kelishimizga imkon beradi. Aksincha, X2 xususiyatiga ko'ra, birinchi klaster eng past qiymatga ega, 2 va 3-klasterlar esa yuqori va yaqin o'rtacha qiymatlarga ega. X3-X12 belgilari uchun 1-klasterdagi o'rtacha qiymatlar 2 va 3-klasterlarga qaraganda sezilarli darajada yuqori. Ikki klasterga klasterlash natijalarini ANOVA tahlilining quyidagi jadvali ham tenglik haqidagi nol gipotezani rad etish zarurligini ko'rsatadi. X4 o'zgaruvchisi bundan mustasno, deyarli barcha 12 xususiyat uchun guruh vositalarining erishilgan ahamiyatlilik darajasi 5% dan ortiq bo'lgan.

Jadval 4. Ikkita klasterga klasterlash natijalarining dispersion tahlili jadvali.

O'zgaruvchilar

Quyida ikkita klasterga klasterlash holatlari uchun guruh vositalarining grafik va jadvali keltirilgan.

Jadval 5. Ikkita klasterga klasterlash holatlari uchun jadval.

O'zgaruvchilar

№1 klaster

№2 klaster

9-chizma.

Agar tadqiqotchi klasterlarning eng mumkin bo'lgan sonini oldindan aniqlay olmasa, u yuqoridagi kabi boshqa raqamni o'rnatib, hisob-kitoblarni takrorlashga majbur bo'ladi. Va keyin, olingan natijalarni bir-biri bilan taqqoslab, eng maqbul klasterlash variantlaridan birida to'xtang.

4 . XUSUSIYATLARNI KLASTERLASH

Individual kuzatishlarni klasterlashdan tashqari, klasterlash algoritmlari ham mavjud. Birinchi bunday usullardan biri korrelyatsiya pleiades usuli Terentiev P.V. Bunday pleiadelarning ibtidoiy tasvirlarini ko'pincha biotibbiy nashrlarda mualliflar o'zaro bog'liqlikni topgan belgilarni birlashtiruvchi strelkalar bilan nuqtalangan doira shaklida topish mumkin. Ob'ektlar va xususiyatlarni klasterlash uchun bir qator dasturlarda alohida protseduralar mavjud. Masalan, xususiyatlarni klasterlash uchun SAS paketida VARCLUS protsedurasi (VARiable - o'zgaruvchi va CLUSter - klasterdan) qo'llaniladi, kuzatuvlarning klaster tahlili esa boshqa protseduralar - FASTCLUS va CLUSTER tomonidan amalga oshiriladi. Ikkala holatda ham dendrogrammani qurish TREE (daraxt) protsedurasi yordamida amalga oshiriladi.

Boshqa statistik paketlarda klasterlash uchun elementlar - ob'ektlar yoki xususiyatlarni tanlash xuddi shu modulda amalga oshiriladi. Xususiyatlarni klasterlash uchun ko'rsatkich sifatida ko'pincha bir juft xususiyat uchun munosabatlarning kuchini aks ettiruvchi ma'lum koeffitsientlar qiymatini o'z ichiga olgan iboralar qo'llaniladi. Bunday holda, ulanish kuchi birga teng bo'lgan belgilar uchun (funktsional bog'liqlik) nolga teng belgilar orasidagi masofani olish juda qulaydir. Haqiqatan ham, funktsional ulanish bilan bir xususiyatning qiymati boshqa xususiyatning qiymatini aniq hisoblashi mumkin. Belgilar orasidagi munosabatlar kuchining pasayishi bilan masofa mos ravishda ortadi. Quyida 70 ta analitik namunani klasterlashda yuqorida qoʻllanilgan 12 ta xususiyat kombinatsiyasining dendrogrammasi koʻrsatilgan grafik keltirilgan.

10-chizma. Dendrogramma12 ta xususiyatni klasterlash.

Ushbu dendrogrammadan ko'rinib turibdiki, biz xususiyatlarning ikkita lokal guruhlari bilan shug'ullanamiz: X1-X10 va X11-X12.X1-X10 xususiyatlar guruhi taxminan 100 birlikdan oshmaydigan klasterlararo masofalarning ancha kichik qiymati bilan tavsiflanadi. Bu erda biz ba'zi ichki juftlashtirilgan kichik guruhlarni ham ko'ramiz: X1 va X2, X3 va X4, X6 va X7. Bu juftlarning nolga juda yaqin bo'lgan xususiyatlari orasidagi masofa ularning kuchli juftlik munosabatlaridan dalolat beradi. X11 va X12 juftligi uchun klasterlararo masofaning qiymati ancha katta va taxminan 300 birlikni tashkil qiladi. Nihoyat, chap (X1-X10) va o'ng (X11-X12) klasterlari orasidagi juda katta masofa, taxminan 1150 birlikka teng, bu ikki guruh xususiyatlar o'rtasidagi munosabatlar juda minimal ekanligini ko'rsatadi.

5. KLASTERLASHNING BARQARORLIGI VA SIFATI

Shubhasiz, klasterli tahlil usullari yordamida olingan u yoki bu tasnif qanchalik mutlaq degan savolni ko'tarish bema'nilik bo'ladi. Klasterlash usuli o'zgartirilsa, barqarorlik dendrogrammalarda ikkita klasterning aniq ko'rinishida namoyon bo'ladi.

Klaster tahlili natijalarining barqarorligini tekshirishning mumkin bo'lgan usullaridan biri sifatida turli klasterlash algoritmlari uchun olingan natijalarni taqqoslash usuli qo'llanilishi mumkin. Boshqa yo'llar - 1977 yilda B. Efron tomonidan taklif qilingan yuklash usuli deb ataladigan "jacknife" va "sliding control" usullari. Klaster yechimining barqarorligini tekshirishning eng oddiy usuli dastlabki namunani tasodifiy ravishda ikkita taxminan teng qismga bo'lish, ikkala qismni ham klasterlash va keyin natijalarni solishtirish bo'lishi mumkin. Ko'proq vaqt talab qiladigan usul boshida birinchi ob'ektni ketma-ket chiqarib tashlash va qolgan (N - 1) ob'ektlarni klasterlashni o'z ichiga oladi. Keyinchalik, ikkinchi, uchinchi va boshqalar bundan mustasno, ushbu protsedurani ketma-ket bajarish. ob'ektlar, olingan barcha N klasterlarning tuzilishi tahlil qilinadi. Barqarorlikni tekshirishning yana bir algoritmi N ta ob'ektning asl namunasini bir necha marta takrorlashni, ko'paytirishni, so'ngra barcha takrorlangan namunalarni bitta katta namunaga (psevdo-umumiy populyatsiya) birlashtirishni va undan N ta ob'ektning yangi namunasini tasodifiy ajratib olishni o'z ichiga oladi. Shundan so'ng, bu namuna klasterlanadi, so'ngra yangi tasodifiy tanlama olinadi va yana klasterlash amalga oshiriladi va hokazo. Bu ham ancha mehnat talab qiladi.

Klasterlash sifatini baholashda kamroq muammolar yo'q. Klaster echimlarini optimallashtirish uchun juda ko'p algoritmlar ma'lum. Klaster ichidagi dispersiyani minimallashtirish mezonlari va optimal echimni topish algoritmi (k-o'rtacha turi) formulalarini o'z ichiga olgan birinchi ishlar 50-yillarda paydo bo'lgan. 1963 yilda J. Vardning maqolasida ham xuddi shunday optimallashtirish ierarxik algoritmi taqdim etilgan. Klaster yechimini optimallashtirish uchun universal mezon yo'q. Bularning barchasi tadqiqotchiga optimal yechimni tanlashni qiyinlashtiradi. Bunday vaziyatda eng yaxshi tarzda Topilgan klaster yechimining tadqiqotning ushbu bosqichida optimal ekanligini ta'kidlash, bu yechimning ko'p o'lchovli statistikaning boshqa usullaridan foydalangan holda olingan xulosalar bilan mos kelishidir.

Klasterlashning optimalligi to'g'risidagi xulosa foydasiga, shuningdek, boshqa tadqiqot ob'ektlarida olingan yechimning bashoratli momentlarini tekshirishning ijobiy natijalari mavjud. Klaster tahlilining ierarxik usullaridan foydalanganda biz bir nechta grafiklarni bir-biri bilan solishtirishni tavsiya qilishimiz mumkin bosqichma-bosqich o'zgarish klasterlararo masofa. Bunday holda, klasterlashning so'nggi 1-2 bosqichida ushbu grafikning keskin vertikal ko'tarilishi bilan birinchi bosqichdan bir nechta oxirgi bosqichlargacha bunday o'sishning tekis chizig'i kuzatiladigan variantga ustunlik berish kerak.

XULOSALAR

O'z ishimda men nafaqat ushbu turdagi tahlilning murakkabligini, balki ma'lumotlarni qayta ishlashning maqbul imkoniyatlarini ham ko'rsatishga harakat qildim, chunki ko'pincha natijalarning aniqligi uchun siz o'ndan yuzlab namunalardan foydalanishingiz kerak. Bu tur tahlil natijalarini tasniflash va qayta ishlashga yordam beradi. Men ushbu tahlilda kompyuter texnologiyalarining maqbulligini ham ahamiyatsiz deb hisoblayman, bu natijalarni qayta ishlash jarayonini kamroq vaqt talab qiladigan qilish imkonini beradi va shu bilan tahlil qilish uchun namuna olishning to'g'riligiga ko'proq e'tibor qaratish imkonini beradi.

Klaster tahlilini qo'llashda alohida aniq holatlarda paydo bo'ladigan va darhol ko'rinmaydigan bunday nozikliklar va tafsilotlar mavjud. Masalan, xususiyatlar masshtabining roli minimal bo'lishi mumkin va ba'zi hollarda ustun bo'lishi mumkin. Bunday hollarda o'zgaruvchan transformatsiyalardan foydalanish kerak. Bu, ayniqsa, xususiyatlar o'rtasidagi korrelyatsiyaning umumiy darajasini oshiradigan chiziqli bo'lmagan xususiyatlarni o'zgartirish usullaridan foydalanganda samaralidir.

Klaster tahlilini faqat sifat belgilari bilan tavsiflanadigan ob'ektlarga nisbatan qo'llashda yanada katta o'ziga xoslik mavjud. Bunday holda, sifatli xususiyatlarni oldindan raqamlashtirish va yangi xususiyatlar bilan klasterli tahlil qilish usullari juda muvaffaqiyatli. Men o'z ishimda klaster tahlili etarlicha o'rganilgan tizimlarda qo'llanilgan taqdirda ham, tuzilmasi noma'lum bo'lgan tizimlarni o'rganishda ham juda ko'p yangi va original ma'lumotlarni taqdim etishini ko'rsatdim.

Shuni ham ta'kidlash kerakki, klaster tahlili evolyutsion tadqiqotlarda ajralmas bo'lib, evolyutsiya yo'llarini ko'rsatadigan filogenetik daraxtlarni qurish imkonini beradi. Bu usullar dasturlarda keng qo'llaniladi ilmiy tadqiqot Fizikaviy va analitik kimyo fanidan.

Bibliografiya

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Amaliy statistik tahlil uchun dasturiy ta'minot to'plamining tuzilishi va mazmuni to'g'risida // Algoritmik va dasturiy ta'minot amaliy statistik tahlil.--M., 1980 y.

2) Ayvazyan S. A., Bejaeva Z. I., Staroverov O. V. Ko'p o'lchovli kuzatishlar tasnifi.--M.: Statistika, 1974 y.

3) Bekker V. A., Lukatskaya M. L. Ulanish koeffitsientlari matritsasi strukturasini tahlil qilish to'g'risida // Sanoatda iqtisodiy va statistik modellashtirish va prognozlash masalalari.-- Novosibirsk, 1970 yil.

4) Braverman E. M., Muchnik I. B. Strukturaviy usullar ma'lumotlarni qayta ishlash.--M.: Nauka, 1983.

5) Voronin Yu.A. Tasniflash nazariyasi va uning qo'llanilishi.--Novosibirsk: Nauka, 1987 yil.

6) Yaxshi I. J. Botriologiyaning botriologiyasi // Tasniflash va klaster.--M.: Mir, 1980.

7) Dubrovskiy S. A. Amaliy ko'p o'lchovli statistik tahlil.--M.: Moliya va statistika, 1982 yil.

8) Duran N., Odell P. Klaster tahlili.--M.: Statistika, 1977 yil.

9) Eliseeva I.I., Rukavishnikov V.S. Guruhlash, korrelyatsiya, naqshni aniqlash.--M.: Statistika, 1977 y.

10) Zagoruiko N. G. Tanib olish usullari va ularni qo'llash.--M .: Sovet radiosi, 1972 yil.

11) Zade L. A. Loyqa to'plamlar va ularning qoliplarni aniqlash va klaster tahlilida qo'llanilishi // Tasniflash va klaster.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Ko'p o'lchovli guruhlar.--M.: Statistika, 1978 y.

13) Raiskaya II, Gostilin NI, Frenkel' AA Klaster tahlilida bo'linishning haqiqiyligini tekshirishning bir usuli haqida.//Iqtisodiyot va mahsulot sifatini baholashda ko'p o'lchovli statistik tahlilni qo'llash.--Ch. P. Tartu, 1977 yil.

14) Shurygin A. M. Nuqtalararo masofalar va farqlarni taqsimlash // Amaliy ko'p o'lchovli statistik tahlil uchun dasturiy ta'minot va algoritmik yordam.--M., 1983 yil.

15) Eeremaa R. Klaster tizimlarini loyihalashning umumiy nazariyasi va ularning raqamli ko'rinishlarini topish algoritmlari: TDU Hisoblash markazi materiallari.--Tartu, 1978 yil.

16) Yastremskiy B.S. Tanlangan asarlar.--M.: Statistika, 1964 yil.

Shunga o'xshash hujjatlar

    Bozor segmentatsiyasining maqsadlari marketing faoliyati. Klaster tahlilining mohiyati, uni amalga oshirishning asosiy bosqichlari. Masofa yoki o'xshashlik o'lchovini qanday o'lchashni tanlang. Ierarxik, ierarxik bo'lmagan klasterlash usullari. Ishonchlilik va ishonchlilikni baholash.

    hisobot, 02.11.2009 yil qo'shilgan

    Asosiy xususiyatlar moliyaviy holat korxonalar. Korxonadagi inqiroz, uning sabablari, turlari va oqibatlari. Zamonaviy usullar va klaster tahlil vositalari, korxona faoliyatini moliyaviy-iqtisodiy baholash uchun ulardan foydalanish xususiyatlari.

    dissertatsiya, 2013-09-10 qo'shilgan

    Statgraphics Plus-dan foydalangan holda korxonalarning klaster tahlilini amalga oshiring. Chiziqli regressiya tenglamasini qurish. Regressiya modellari bo'yicha elastiklik koeffitsientlarini hisoblash. Tenglamaning statistik ahamiyatini va aniqlash koeffitsientini baholash.

    vazifa, 2014-03-16 qo'shilgan

    Kuzatishlarning alohida guruhlari uchun tipologik regressiyalarni qurish. Fazoviy ma'lumotlar va vaqtinchalik ma'lumotlar. Klaster tahlilini qo'llash doirasi. Ob'ektlarning bir jinsliligi tushunchasi, masofa matritsasi xossalari. Tipologik regressiyani amalga oshirish.

    taqdimot, 26/10/2013 qo'shilgan

    Sifatida birlashtirilgan modellar va usullarni yaratish zamonaviy usul bashorat qilish. Klasterlash masalalarini hal qilishda statsionar va statsionar bo'lmagan vaqt qatorlarini tavsiflash uchun ARIMA asosidagi model. Avtoregressiv AR modellari va korrelogrammalarni qo'llash.

    taqdimot, 05/01/2015 qo'shilgan

    Har xil turdagi ko'rsatkichlarning xususiyatlari. Eng yaqin qo'shni usuli va uning umumlashmalari. Eng yaqin qo'shni algoritmi. Parzen oyna usuli. Umumlashtirilgan metrik klassifikator. Ko'rsatkichni tanlash muammosi. Manxetten va Evklid masofasi. kosinus o'lchovi.

    muddatli ish, 03/08/2015 qo'shilgan

    Krasnodar o'lkasining qurilish sanoatining xususiyatlari. Uy-joy qurilishini rivojlantirish prognozi. Klaster tahlilining zamonaviy usullari va vositalari. Korxonaning iqtisodiy holatini diagnostika qilishning ko'p o'lchovli statistik usullari.

    dissertatsiya, 20/07/2015 qo'shilgan

    Bryansk viloyati misolida ipoteka kreditining xususiyatlari. Matematik qarorlar qabul qilish usullarini ko'rib chiqish: ekspert baholashlari, ketma-ket va juftlik taqqoslashlari, ierarxik tahlil. Optimal ipoteka krediti uchun qidiruv dasturini ishlab chiqish.

    muddatli ish, 29.11.2012 yil qo'shilgan

    Tizim tahlilining qo'llanish sohalari, uning o'rni, roli, maqsadi va vazifalari zamonaviy fan. Tizimli tahlil usullari tushunchasi va mazmuni, uning norasmiy usullari. Evristik va ekspert tadqiqot usullarining xususiyatlari va ularni qo'llash xususiyatlari.

    muddatli ish, 2013-05-20 qo'shilgan

    Iqtisodiy ma'lumotlarning o'ziga xos xususiyatlarini hisobga olgan holda va ehtiyojga mos ravishda ekonometrik usullarni ishlab chiqish va tadqiq qilish iqtisodiyot va amaliyotlar. Iqtisodiy ma'lumotlarni statistik tahlil qilish uchun ekonometrik usullar va modellarni qo'llash.

Universitet: VZFEI

Yil va shahar: Moskva 2008 yil


1.Kirish. Klaster tahlil usuli haqida tushuncha.

2. Klaster tahlilini qo'llash metodologiyasining tavsifi. Muammoni hal qilishning nazorat namunasi.

4. Foydalanilgan adabiyotlar ro‘yxati

  1. Kirish. Klaster tahlil usuli haqida tushuncha.

Klaster tahlili - har biri X1, X2, ..., Xk xususiyatlar (parametrlar) to'plami bilan tavsiflangan ko'p o'lchovli kuzatishlarni tasniflash imkonini beruvchi usullar majmuasidir.

Klaster tahlilining maqsadi odatda klasterlar (sinf, takson, kontsentratsiya) deb ataladigan bir-biriga o'xshash ob'ektlar guruhlarini shakllantirishdir.

Klaster tahlili statistik tadqiqot sohalaridan biridir. U ommaviy hodisalar va jarayonlarni o'rganish bilan bog'liq bo'lgan fan sohalarida ayniqsa muhim o'rin tutadi. Klaster tahlili usullarini ishlab chiqish va ulardan foydalanish zaruriyati ular ilmiy asoslangan tasniflarni yaratishga, aniqlashga yordam berishi bilan bog'liq. ichki kommunikatsiyalar kuzatilgan populyatsiya birliklari o'rtasida. Bundan tashqari, statistik ma'lumotlar oqimining doimiy o'sishi va murakkablashishi sharoitida muhim omil bo'lgan axborotni siqish uchun klaster tahlil usullaridan foydalanish mumkin.

Klaster tahlil usullari quyidagi muammolarni hal qilishga imkon beradi:

Ob'ektlarning mohiyatini, tabiatini aks ettiruvchi xususiyatlarini hisobga olgan holda ob'ektlarni tasniflashni amalga oshirish. Bunday muammoni hal qilish, qoida tariqasida, tasniflanadigan ob'ektlarning umumiyligi haqidagi bilimlarni chuqurlashtirishga olib keladi;

O'rganilayotgan ob'ektlar to'plamida qandaydir strukturaning mavjudligi haqida qilingan taxminlarni tekshirish, ya'ni. mavjud tuzilmani qidirish;

Populyatsiya ichida aloqalar mavjudligini aniqlash va unga strukturani kiritishga harakat qilish zarur bo'lganda, yomon o'rganilgan hodisalar uchun yangi tasniflarni qurish (1. 85-86-betlar).

2. Klaster tahlilini qo'llash metodologiyasining tavsifi. Muammoni hal qilishning nazorat namunasi.

Klaster tahlili k xususiyat bilan tavsiflangan n ta ob'ektdan bir jinsli guruhlarga (klasterlarga) bo'linishni shakllantirish imkonini beradi. Ob'ektlarning bir xilligi p(xi xj) masofasi bilan aniqlanadi, bunda xi = (xi1, …., xik) va xj= (xj1,…,xjk) i ning k atributlari qiymatlaridan tashkil topgan vektorlardir. mos ravishda -th va j-chi ob'ektlar.

Raqamli belgilar bilan tavsiflangan ob'ektlar uchun masofa quyidagi formula bilan aniqlanadi:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Agar p(xi xj) bo'lsa, ob'ektlar bir hil deb hisoblanadi.< p предельного.

Birlashmaning grafik tasvirini klaster birlashma daraxti - dendrogram yordamida olish mumkin. (2. 39-bob).

Test ishi (92-misol).

Sotish hajmi

Keling, ushbu ob'ektlarni "yaqin qo'shni" tamoyilidan foydalangan holda tasniflaymiz. Ob'ektlar orasidagi masofalarni (1)* formuladan foydalanib topamiz. Keling, jadvalni to'ldiramiz.

Keling, jadval qanday to'ldirilganligini tushuntiramiz.

I qator va j ustunning kesishmasida p(xi xj) masofa ko'rsatiladi (natija ikki kasrgacha yaxlitlanadi).

Masalan, 1-qator va 3-ustun kesishmasida p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10 masofa ko'rsatilgan va 3-qator va ustun kesishmasida. 5, masofa p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. p(xi, xj) = p(xj,xi) bo'lgani uchun jadvalning pastki qismini to'ldirish shart emas.

Keling, "yaqin qo'shni" tamoyilini qo'llaymiz. Biz jadvalda eng kichik masofani topamiz (agar ular bir nechta bo'lsa, biz ulardan birini tanlaymiz). Bu p 1,2 ≈ p 4,5 \u003d 2,24. p min = p 4,5 = 2,24 bo'lsin. Keyin biz 4 va 5 ob'ektlarni bitta guruhga birlashtira olamiz, ya'ni 4 va 5 birlashtirilgan ustunlar dastlabki masofa jadvalining 4 va 5-ustunlarining mos keladigan raqamlarining eng kichigini o'z ichiga oladi. Biz 4 va 5-qatorlar bilan xuddi shunday qilamiz. Biz yangi jadval olamiz.

Olingan jadvalda masofalarning eng kichigini topamiz (agar ular bir nechta bo'lsa, biz ulardan birini tanlaymiz): r min = r 1,2 = 2,24. Keyin biz 1,2,3-ob'ektlarni bitta guruhga birlashtira olamiz, ya'ni birlashtirilgan ustun 1,2,3 oldingi masofa jadvalining 1 va 2 va 3-ustunlarining mos keladigan raqamlarining eng kichigini o'z ichiga oladi. Biz 1 va 2 va 3-qatorlar bilan xuddi shunday qilamiz. Biz yangi jadval olamiz.

Biz ikkita klasterni oldik: (1,2,3) va (4,5).

3. Nazorat ishlari uchun muammolarni hal qilish.

Muammo 85.

Shartlar: Beshta ishlab chiqarish ob'ekti ikkita xususiyat bilan tavsiflanadi: sotish hajmi va asosiy vositalarning o'rtacha yillik qiymati.

Sotish hajmi

O'rtacha yillik xarajat asosiy ishlab chiqarish fondlari

Yechim: Keling, (1)* formuladan foydalanib, ob'ektlar orasidagi masofani topamiz (ikki kasrgacha yaxlitlaymiz):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1,2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3,61

p 1,3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2.2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2,3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 \u003d √ (7-12) 2 + (10-8) 2 ≈5,39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

Hisob-kitoblar natijalariga ko'ra biz jadvalni to'ldiramiz:

Keling, eng yaqin qo'shni tamoyilini qo'llaymiz. Buning uchun jadvalda biz masofalarning eng kichikini topamiz (agar ular bir nechta bo'lsa, ulardan birini tanlang). Bu p 2,3=2,24. p min = p 2,3 = 2,24 bo'lsin, keyin biz "2" va "3" ustunlar ob'ektlarini birlashtira olamiz, shuningdek, "2" va "3" ob'ektlar qatorlarini birlashtira olamiz. Yangi jadvalda biz asl jadvaldagi eng kichik qiymatlarni birlashtirilgan guruhlarga kiritamiz.

Yangi jadvalda biz masofalarning eng kichigini topamiz (agar ularning bir nechtasi bo'lsa, biz ulardan birini tanlaymiz). Bu p 4,5=3,16. p min = p 4,5 = 3,16 bo'lsin, keyin biz "4" va "5" ustunlar ob'ektlarini birlashtira olamiz, shuningdek, "4" va "5" ob'ektlar qatorlarini birlashtira olamiz. Yangi jadvalda biz asl jadvaldagi eng kichik qiymatlarni birlashtirilgan guruhlarga kiritamiz.

Yangi jadvalda biz masofalarning eng kichigini topamiz (agar ularning bir nechtasi bo'lsa, biz ulardan birini tanlaymiz). Bular p 1, 2 va 3=3,61. p min = p 1, 2 va 3 = 3.61 bo'lsin, keyin biz "1" va "2 va 3" ustun ob'ektlarini birlashtira olamiz, shuningdek qatorlarni birlashtiramiz. Yangi jadvalda biz asl jadvaldagi eng kichik qiymatlarni birlashtirilgan guruhlarga kiritamiz.

Biz ikkita klasterni olamiz: (1,2,3) va (4,5).

Dendrogramma elementlarni tanlash tartibini va mos keladigan minimal masofalarni pmin ko'rsatadi.

Javob:"Eng yaqin qo'shni" tamoyili bo'yicha klaster tahlili natijasida bir-biriga o'xshash ob'ektlarning 2 ta klasteri hosil bo'ladi: (1,2,3) va (4,5).

Muammo 211.

Shartlar: Beshta ishlab chiqarish ob'ekti ikkita xususiyat bilan tavsiflanadi: sotish hajmi va asosiy vositalarning o'rtacha yillik qiymati.

Sotish hajmi

Asosiy ishlab chiqarish fondlarining o'rtacha yillik tannarxi

Ushbu ob'ektlarni eng yaqin qo'shni tamoyilidan foydalanib tasniflang.

Yechim: Muammoni hal qilish uchun biz dastlabki jadvaldagi ma'lumotlarni taqdim etamiz. Ob'ektlar orasidagi masofalarni aniqlaymiz. Biz ob'ektlarni "eng yaqin qo'shni" tamoyiliga ko'ra tasniflaymiz. Natijalar dendrogramma shaklida taqdim etiladi.

Sotish hajmi

Asosiy ishlab chiqarish fondlarining o'rtacha yillik tannarxi

(1)* formulasidan foydalanib, biz ob'ektlar orasidagi masofani topamiz:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2, 3 = 7,07, p 2,4 = 2, p 2,5 = 3,32, p. 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4,4=0, p4,5=1, p5,5=0.

Natijalar jadvalda keltirilgan:

Jadvaldagi masofalarning eng kichik qiymati p 4,5=1. p min = p 4,5 = 1 bo'lsin, keyin biz "4" va "5" ustunlar ob'ektlarini birlashtira olamiz, shuningdek, "4" va "5" ob'ektlar qatorlarini birlashtira olamiz. Yangi jadvalda biz asl jadvaldagi eng kichik qiymatlarni birlashtirilgan guruhlarga kiritamiz.

Yangi jadvaldagi masofalarning eng kichik qiymati p 2, 4 va 5=2. p min = p 2, 4 va 5=2 bo'lsin, u holda biz "4 va 5" va "3" ustunlar ob'ektlarini, shuningdek, "4 va 5" va "3" ob'ektlar qatorlarini birlashtira olamiz. Yangi jadvalda biz jadvaldagi eng kichik qiymatlarni birlashtirilgan guruhlarga kiritamiz.

Yangi jadvaldagi masofalarning eng kichik qiymati p 3,4,5=2. p min = p 3,4,5=2 bo'lsin, u holda biz "3,4,5" va "2" ustunlar ob'ektlarini birlashtira olamiz, shuningdek, "3,4,5" va "ob'ektlar qatorlarini birlashtiramiz. 2". Yangi jadvalda biz jadvaldagi eng kichik qiymatlarni birlashtirilgan guruhlarga kiritamiz.

yoki saytga kiring.

Muhim! Bepul yuklab olish uchun taqdim etilgan barcha test ishlari sizning ilmiy ishingiz uchun reja yoki asos yaratish uchun mo'ljallangan.

Do'stlar! Sizda bormi noyob imkoniyat siz kabi talabalarga yordam bering! Agar bizning saytimiz sizga yordam bergan bo'lsa to'g'ri ish, keyin siz qo'shgan ishingiz boshqalarning ishini qanday osonlashtirishi mumkinligini aniq tushunasiz.

Agar nazorat ishlasa, sizningcha, Yomon sifat, yoki siz allaqachon bu ish bilan tanishgansiz, bu haqda bizga xabar bering.

KLASTER TAHLILIGA qarang. Antinazi. Sotsiologiya entsiklopediyasi, 2009 yil ... Sotsiologiya entsiklopediyasi

klaster tahlili- bu ko'p o'lchovli kuzatishlarni tasniflash imkonini beruvchi usullar to'plami bo'lib, ularning har biri ma'lum bir o'zgaruvchilar to'plami bilan tavsiflanadi. Klaster tahlilining maqsadi odatda ... deb ataladigan bir-biriga o'xshash ob'ektlar guruhlarini shakllantirishdir. Sotsiologik lug'at Sotsium

klaster tahlili- bir qator ob'ektlarni (masalan, sub'ektlarni) tavsiflovchi ko'rsatkichlar to'plami asosida ularni bir sinfga kiritilgan ob'ektlar ko'proq bo'lishi uchun sinflarga (klasterlarga) guruhlash imkonini beradigan ko'p o'lchovli tahlilning matematik protsedurasi. .. ... Buyuk Psixologik Entsiklopediya

Klaster tahlili- har qanday to'plamning har bir ob'ektiga (masalan, sub'ektga) xos bo'lgan bir nechta xususiyatlarning miqdoriy qiymatlarining o'xshashligiga asoslanib, ushbu ob'ektlarni ma'lum sinflarga yoki klasterlarga guruhlash imkonini beradigan matematik protsedura. ... . .. Psixologik lug'at

klaster tahlili- - [L.G. Sumenko. Ingliz ruscha axborot texnologiyalari lug'ati. M.: GP TsNIIS, 2003.] Mavzular axborot texnologiyalari umumiy EN klaster tahlili ... Texnik tarjimon uchun qo'llanma

klaster tahlili- * klaster tahlili * klaster tahlili yoki ma'lumotlarni klasterlash ko'p o'lchovli statistik protsedura bo'lib, u ob'ektlar tanlovi haqida ma'lumotni o'z ichiga olgan ma'lumotlarni to'playdi va keyin ob'ektlarni nisbatan bir hil klaster guruhlariga joylashtiradi (Q ... ... Genetika. ensiklopedik lug'at

klaster tahlili- Matematikada ushbu maqolani yaxshilash maqsadga muvofiqmi?: Izohlar qo'yib, manbalarni aniqroq ko'rsating. Maqolani Vikipediyaning stilistik qoidalariga muvofiq tuzating. Qayta ishlash ... Vikipediya

KLASTER TAHLILI- - ko'p o'lchovli tahlil qilishning matematik protsedurasi, bu bir qator ob'ektlarni (masalan, sub'ektlarni) tavsiflovchi ko'rsatkichlar to'plami asosida ularni sinflarga (klasterlarga) guruhlash imkonini beradi, shunda bitta sinfga kiritilgan ob'ektlar bir xil bo'ladi. Ko'proq ... ... Psixologiya va pedagogikaning entsiklopedik lug'ati

KLASTER TAHLILI - Umumiy ism murakkab ma'lumotlarning chuqur tuzilishini aniqlashning turli matematik usullari uchun. Klaster tahlili ko'p jihatdan omil tahliliga o'xshaydi. Ikkalasi ham unitar elementlarni (omillar yoki klasterlar) qidirishni o'z ichiga oladi ... ... Psixologiyaning izohli lug'ati

KLASTER TAHLILI- (klaster tahlili) ma'lumotlar to'plamida nisbiy farqni ko'rsatishi mumkin bo'lgan ob'ektlar yoki odamlar guruhlarini aniqlash uchun foydalaniladigan usul. Keyin har bir guruh ichidagi bunday odamlarning xususiyatlari o'rganiladi. Bozor tadqiqotida ...... Katta tushuntirish sotsiologik lug'at

KLASTER TAHLILI- (KLASTER TAHLILI) Ko'p o'zgaruvchilarga tegishli tadqiqot ma'lumotlarini tahlil qilishda ma'lumotlarning ichki tuzilishini aniqlash uchun foydalaniladigan statistik usullar guruhi. Klaster tahlilining maqsadi - ob'ektlar guruhlarini aniqlash ... ... sotsiologik lug'at

Ushbu kitob ko'p o'lchovli jarayonlar va hodisalarni tahlil qilishning eng istiqbolli yondashuvlaridan biri - klaster tahliliga bag'ishlangan.

Klaster tahlili - ko'p o'lchovli ob'ektlarni guruhlash usuli bo'lib, individual kuzatishlar natijalarini mos keladigan geometrik fazoning nuqtalari bo'yicha taqdim etish, keyin esa ushbu nuqtalarning "to'plamlari" sifatida guruhlarni tanlash. Aslida, "klaster" (klaster) ichida Ingliz tili va "laxta", "uzum dastasi", "yulduzlar to'plami" va boshqalarni anglatadi. Bu atama ilmiy terminologiyaga juda mos keladi, chunki uning birinchi bo'g'ini an'anaviy "sinf" atamasiga, ikkinchisi esa, go'yo uning sun'iy kelib chiqishini ko'rsatadi. Klaster tahlili terminologiyasi shu maqsadda ilgari qoʻllanilgan barcha konstruksiyalarni (nazoratsiz qolipni aniqlash, tabaqalanish, taksonomiya, avtomatik tasniflash va boshqalar) oʻrnini bosishiga shubhamiz yoʻq. Klaster tahlilining potentsial imkoniyatlari, masalan, o'xshash sharoitlarda yoki o'xshash natijalarga ega bo'lgan korxonalar guruhlarini, hayotning yoki umuman turmush tarzining turli jabhalarida aholining bir hil guruhlarini aniqlash muammolarini hal qilish uchun ochiqdir.

Ilmiy yo'nalish sifatida klaster tahlili 60-yillarning o'rtalarida o'zini e'lon qildi va o'sha paytdan boshlab jadal rivojlanib, statistika fanining eng jadal rivojlanishining tarmoqlaridan biri hisoblanadi. Aytish kifoyaki, hozirgi kunga qadar turli mamlakatlarda nashr etilgan klaster tahliliga oid monografiyalar soni yuzlab bilan o'lchanadi (holbuki, masalan, ko'p o'lchovli statistik tahlilning bunday "loyiq" usuliga ko'ra. omil tahlili, bir necha o'nlab kitoblarni sanash qiyin). Va bu juda tushunarli. Axir, biz aslida nafaqat statistikada, balki umuman olganda - bilishda ham, qaror qabul qilishda ham eng muhimlaridan biri bo'lgan guruhlash operatsiyasini modellashtirish haqida gapiramiz.

Mamlakatimizda klaster tahlili (1), ijtimoiy-iqtisodiy tadqiqotlarda klaster tahlilidan foydalanish metodologiyasi (2), klaster tahlilining shu kabi metodologiyasi (2) yordamida aniq ijtimoiy-iqtisodiy muammolarni o‘rganishga bag‘ishlangan qator monografiyalar nashr etilgan. 3) (Statistik tahlil asoslari)

I. D. Mandel tomonidan taklif qilingan kitob, go'yo ushbu tasnifga perpendikulyar: uning mazmuni ushbu uchta sohaning har biri bilan bog'liq.

Kitobning maqsadi - xulosa qilish zamonaviy klaster tahlili, undan foydalanish imkoniyatlari va keyingi rivojlanish vazifalarini tahlil qilish. Bu g'oya o'z-o'zidan hurmatni uyg'ota olmaydi: xolis tahlil va umumlashtirish ko'p mehnat, bilimdonlik, jasoratni talab qiladi va ilmiy jamoatchilik tomonidan o'z dizaynlarini targ'ib qilish va rivojlantirishdan ancha past baholanadi. (Ammo kitobda muallifning “intensial” tahlil va tasniflarning ikki tomonlamaligi bilan bog‘liq original ishlanmalari ham mavjud).

Kitobning afzalliklari ham, kamchiliklari ham ana shu maqsadni amalga oshirish bilan bog‘liq. Afzalliklar quyidagilarni o'z ichiga olishi kerak:

· hodisa va jarayonlarning ko'p o'lchovliligini hisobga olgan holda bir xillik, guruhlash va tasniflash tushunchalarini uslubiy o'rganish;

· klaster tahlilining yondashuvlari va usullarini tizimli ko'rib chiqish (shu jumladan 150 tagacha aniq algoritmlar);

· klaster tahlili protseduralarini eksperimental taqqoslash texnologiyasi va natijalarini taqdim etish; Ushbu kitob ko'p o'lchovli jarayonlar va hodisalarni tahlil qilishning eng istiqbolli yondashuvlaridan biri - klaster tahliliga bag'ishlangan.

Klaster tahlili - ko'p o'lchovli ob'ektlarni guruhlash usuli bo'lib, individual kuzatishlar natijalarini mos keladigan geometrik fazoning nuqtalari bo'yicha taqdim etish, keyin esa ushbu nuqtalarning "to'plamlari" sifatida guruhlarni tanlash. Aslida, ingliz tilidagi “klaster” (klaster) “laxta”, “dasta (uzum)”, “klaster (yulduzlar)” va boshqalarni anglatadi. Bu atama ilmiy terminologiyaga juda mos keladi, chunki uning birinchi bo'g'ini an'anaviy bo'g'inga mos keladi. "sinf" atamasi, ikkinchisi esa uning sun'iy kelib chiqishini bildiradi. Klaster tahlili terminologiyasi shu maqsadda ilgari qoʻllanilgan barcha konstruksiyalarni (nazoratsiz qolipni aniqlash, tabaqalanish, taksonomiya, avtomatik tasniflash va boshqalar) oʻrnini bosishiga shubhamiz yoʻq. Klaster tahlilining potentsial imkoniyatlari, masalan, o'xshash sharoitlarda yoki o'xshash natijalarga ega bo'lgan korxonalar guruhlarini, hayotning yoki umuman turmush tarzining turli jabhalarida aholining bir hil guruhlarini aniqlash muammolarini hal qilish uchun ochiqdir.

Ilmiy yo'nalish sifatida klaster tahlili 60-yillarning o'rtalarida o'zini e'lon qildi va o'sha paytdan boshlab jadal rivojlanib, statistika fanining eng jadal rivojlanishining tarmoqlaridan biri hisoblanadi. Klaster tahlili, ishlanmasi bo'yicha bir qancha monografiyalarni aytish kifoya umumiy sxemalar etarlicha tasviriy jadvallarda amalga oshirilgan klaster tahlil usullaridan foydalanish; taqdimotning tavsiya xarakteri.

Ushbu afzalliklar I. D. Mandel kitobining boshqa nashrlar orasida mustaqil o'rnini belgilaydi.

Kitobning kamchiliklari qatorida ayrim tavsiyalarning noaniqligi va fanlarni ijtimoiy-iqtisodiy qo‘llashda klaster tahlil usullaridan foydalanish masalalari tizimli tahlil qilinmaganligidir. To‘g‘ri, ikkinchisi bu sohada klaster tahlilidan yetarlicha foydalanilmagani bilan bog‘liq.

Kitob tramplinni taqdim etadi, undan foydalanish har qanday nazariyaning eng qiyin masalasida - u taqdim etgan vositalardan amaliy foydalanishda taraqqiyotni osonlashtiradi.

B. G. Mirkin

Tadqiqot mavzulari Yangi Gvineyadagi mumiyalangan kemiruvchilar morfologiyasini tahlil qilishdan AQSh senatorlarining ovoz berish natijalarini o'rganishgacha, muzlatilgan tarakanlarning eritilgandagi xatti-harakatlarini tahlil qilishdan tortib, geografik tarqalishini o'rganishgacha. Saskachevandagi likenlarning ayrim turlari.

Nashrlarning bunday portlashi klaster tahlilining rivojlanishi va qo'llanilishiga katta ta'sir ko'rsatdi. Lekin, afsuski, salbiy tomonlari ham bor. Klaster tahlili bo'yicha nashrlarning tez o'sishi foydalanuvchilar guruhlari shakllanishiga va natijada faqat uni yaratgan guruhlar tomonidan qo'llaniladigan jargonlarning yaratilishiga olib keldi (Blashfield va Aldenderfer, 1978; Blashfield, 1980).

Soha mutaxassislari tomonidan jargonning shakllanishi haqida ijtimoiy fanlar Masalan, Uord usuli bilan bog'liq turli terminologiyadan dalolat beradi. Adabiyotda "Vard usuli" boshqacha nomlanadi. Uning yana kamida to'rtta nomi ma'lum: "minimal dispersiya usuli", "kvadrat xatolik yig'indisi usuli", "ierarxik guruhlashni minimallashtirish" va "HGROUP". Birinchi ikkita nom oddiygina optimalligi Uord usuli bilan aniqlanadigan mezonga ishora qiladi, uchinchisi esa W matritsasining monotonik iz transformatsiyasi bo'lgan kvadratik xatolar yig'indisi bilan bog'liq, ya'ni guruh ichidagi kovariatsiya matritsasi. Nihoyat, keng tarqalgan bo'lib foydalaniladigan "HGROUP" nomi mashhurlarning nomidir kompyuter dasturi, Uord usulini amalga oshiradi (Veldman, 1967).

Jargonning shakllanishi fanlararo aloqalarning rivojlanishiga to'sqinlik qiladi, to'sqinlik qiladi samarali taqqoslash fanning turli sohalarida klaster tahlilini qo'llash metodologiyasi va natijalari keraksiz harakatlarga olib keladi (bir xil algoritmlarni qayta ixtiro qilish) va nihoyat, yangi foydalanuvchilarga ular tanlagan usullarni chuqur tushunishga imkon bermaydi (Blashfield va aldenderfer, 1978). ). Misol uchun, bitta ijtimoiy fan tadqiqoti (Rogers va Linden, 1973) bir xil ma'lumotlardan foydalangan holda uch xil klasterlash usullarini solishtirdi. Ular bu usullarni quyidagicha nomladilar: "ierarxik guruhlash", "ierarxik klasterlash yoki HCG" va "klaster tahlili". Va bu nomlarning hech biri klasterlash usullariga tanish emas edi. Klaster tahlili dasturlarining yangi foydalanuvchisi barcha mavjud nomlar bilan chalkashib ketadi va ularni klasterlash usullarining boshqa tavsiflari bilan bog'lay olmaydi. Tajribali foydalanuvchilar o'zlarining tadqiqotlarini shunga o'xshash ishlar bilan solishtirganda qiyin ahvolga tushib qolishadi. Biz haddan oshayotgan bo'lishimiz mumkin, ammo jargon jiddiy muammo.

So'nggi yillarda nashrlar soni va ushbu usul qo'llaniladigan fanlar soniga ko'ra, klaster tahlilining rivojlanishi biroz sekinlashdi. Aytishimiz mumkinki, hozirgi vaqtda psixologiya, sotsiologiya, biologiya, statistika va ba'zilari texnik fanlar klaster tahliliga nisbatan konsolidatsiya bosqichiga o'ting.

Klaster tahlilining afzalliklarini maqtagan maqolalar soni asta-sekin kamayib bormoqda. Shu bilan birga, turli xil klasterlash usullarining qo'llanilishi nazorat ma'lumotlari bo'yicha taqqoslanadigan ishlar ko'payib bormoqda. Adabiyotda ilovalarga ko'proq e'tibor berilgan. Ko'pgina tadqiqotlar klaster tahlili yordamida olingan natijalarning haqiqiyligini tekshirish uchun amaliy chora-tadbirlarni ishlab chiqishga qaratilgan. Bularning barchasi klasterlash usullarining oqilona statistik nazariyasini yaratishga jiddiy urinishlardan dalolat beradi.


QO‘NG‘IROQ

Bu xabarni sizdan oldin o'qiganlar bor.
Eng so'nggi maqolalarni olish uchun obuna bo'ling.
Elektron pochta
Ism
Familiya
Qo'ng'iroqni qanday o'qishni xohlaysiz
Spam yo'q