ZƏNG

Bu xəbəri sizdən əvvəl oxuyanlar var.
Ən son məqalələri əldə etmək üçün abunə olun.
E-poçt
ad
soyad
“Zəng”i necə oxumaq istərdiniz
Spam yoxdur

Bilik bazasında yaxşı işinizi göndərin sadədir. Aşağıdakı formadan istifadə edin

Tədris və işlərində bilik bazasından istifadə edən tələbələr, aspirantlar, gənc alimlər Sizə çox minnətdar olacaqlar.

Giriş

1. "Klaster təhlili"nin tarixi

2.Terminologiya

2.1 Obyekt və imza

2.2 Obyektlər arasındakı məsafə (metrik)

2.3 Çoxluqların sıxlığı və lokalizasiyası

2.4 Klasterlər arasındakı məsafə

3. Qruplaşdırma üsulları

3.1 İyerarxik aqlomerativ üsulların xüsusiyyətləri

3.2 İterativ klasterləşdirmə üsullarının xüsusiyyətləri

4. Xüsusiyyətlərin qruplaşdırılması

5. Klasterləşmənin sabitliyi və keyfiyyəti

Biblioqrafiya

GİRİŞ

"Klaster təhlili aralarındakı məsafələr və ya əlaqələr (yaxınlıq ölçüləri) haqqında məlumatlara görə "yaxın" obyektlərin bir-birindən nisbətən "uzaq" qruplarını formalaşdırmaq üçün nəzərdə tutulmuş riyazi metodlar toplusudur. O, terminlərə mənaca oxşardır: avtomatik. təsnifat, taksonomiya, nümunənin müəllimsiz tanınması”. Klaster analizinin bu tərifi Statistika lüğətinin son nəşrində verilmişdir. Əslində, "klaster təhlili" təsnifat yaratmaq üçün istifadə olunan kifayət qədər böyük alqoritmlər toplusunun ümumiləşdirilmiş adıdır. Bir sıra nəşrlər klaster təhlili üçün təsnifat və bölmə kimi sinonimlərdən də istifadə edir. Klaster analizi tipoloji təhlil vasitəsi kimi elmdə geniş istifadə olunur. İstənilən elmi fəaliyyətdə təsnifat fundamental komponentlərdən biridir ki, onsuz elmi fərziyyə və nəzəriyyələri qurmaq və yoxlamaq mümkün deyil. Beləliklə, mən öz işimdə klaster təhlili (klaster analizinin əsasları) məsələlərini nəzərdən keçirməyi, həmçinin onun terminologiyasını nəzərdən keçirməyi və bu metoddan verilənlərin emalı ilə istifadə edilməsinə dair bəzi nümunələri əsas məqsədimə aid etməyi zəruri hesab edirəm.

1. “KLASTER TƏHLİL”İN TARİXİ

Yerli və xarici nəşrlərin təhlili göstərir ki, klaster analizi müxtəlif elmi sahələrdə istifadə olunur: kimya, biologiya, tibb, arxeologiya, tarix, coğrafiya, iqtisadiyyat, filologiya və s. V.V.Nalimovun “Dilin ehtimal modeli” kitabında 70 analitik nümunənin öyrənilməsində klaster analizindən istifadə təsvir edilmişdir. Klaster analizi ilə bağlı ədəbiyyatın əksəriyyəti son üç onillikdə ortaya çıxdı, baxmayaraq ki, klaster metodlarından bəhs edən ilk əsərlər kifayət qədər uzun müddət əvvəl ortaya çıxdı. Polşa antropoloqu K.Çekanovski “struktur təsnifat” ideyasını irəli sürmüşdür ki, bunda klaster analizinin əsas ideyası – kompakt obyekt qruplarının ayrılması nəzərdə tutulmuşdur.

1925-ci ildə sovet hidrobioloqu P.V. Terentyev, əlaqəli xüsusiyyətləri qruplaşdırmaq üçün nəzərdə tutulmuş sözdə "korrelyasiya pleiades metodunu" inkişaf etdirdi. Bu üsul qrafiklərdən istifadə edərək qruplaşdırma üsullarının inkişafına təkan verdi. “Klaster analizi” termini ilk dəfə Trion tərəfindən təklif edilmişdir. “Klaster” sözü ingilis dilindən “bunch, brush, bunch, group” kimi tərcümə olunur. Bu səbəbdən bu analiz növü əvvəlcə “klaster analizi” adlanırdı. 1950-ci illərin əvvəllərində iyerarxik klaster analizi alqoritmləri haqqında R. Lewis, E. Fix və J. Hodges tərəfindən nəşrlər meydana çıxdı. Klaster analizi üzrə işlərin inkişafına nəzərəçarpacaq təkan R.Rozenblattın “müəllimsiz nümunələrin tanınması” nəzəriyyəsinin inkişafı üçün əsas qoyan tanıma cihazı (perseptron) üzərindəki işi olmuşdur.

Klasterləşdirmə metodlarının inkişafına təkan 1963-cü ildə nəşr olunan "Ədədi taksonomiyanın prinsipləri" kitabı oldu. iki bioloq - Robert Sokal və Peter Sneath. Bu kitabın müəllifləri ondan çıxış edirdilər ki, effektiv bioloji təsnifatlar yaratmaq üçün klasterləşdirmə proseduru tədqiq olunan orqanizmləri xarakterizə edən müxtəlif göstəricilərdən istifadəni təmin etməli, bu orqanizmlər arasında oxşarlıq dərəcəsini qiymətləndirməli və oxşar orqanizmlərin yerləşdirilməsini təmin etməlidir. eyni qrupda. Bu halda, formalaşan qruplar kifayət qədər "yerli" olmalıdır, yəni. qruplar daxilində cisimlərin (orqanizmlərin) oxşarlığı öz aralarında olan qrupların oxşarlığından artıq olmalıdır. Müəyyən edilmiş qrupların sonrakı təhlili, müəlliflərin fikrincə, bu qrupların müxtəlif bioloji növlərə uyğun olub olmadığını aydınlaşdıra bilər. Beləliklə, Sokal və Sneath fərz edirdilər ki, obyektlərin qruplara bölünməsi strukturunun aşkarlanması bu strukturların formalaşması prosesinin qurulmasına kömək edir. Fərqli qrupların (qrupların) orqanizmlərinin fərqliliyi və oxşarlığı davam edən təkamül prosesini başa düşmək və onun mexanizmini aydınlaşdırmaq üçün əsas ola bilər.

Eyni illərdə C.MakKin, Q.Ball və D.Hall kimi müəlliflər tərəfindən k-vasitəsi metodlarından istifadə etməklə bir çox alqoritmlər təklif edilmişdir; Q.Lans və U.Uilyams, N.Jardin və başqaları - iyerarxik üsullar üzrə. Klaster analizi metodlarının inkişafına yerli alimlər - E.M.Braverman, A.A.Dorofeyuk, İ.B.Muçnik, L.A.Rastrigin, Yu.İ.Xüsusən 60-70-ci illərdə mühüm töhfələr vermişlər. Novosibirsk riyaziyyatçıları N. Q. Zaqoruiko, V. N. Elkina və G. S. Lbov tərəfindən hazırlanmış çoxsaylı alqoritmlər böyük populyarlıq qazandı. Bunlar FOREL, BIGFOR, KRAB, NTTP, DRET, TRF və s. kimi məşhur alqoritmlərdir. Bu paketlər əsasında ixtisaslaşmış OTEX proqram paketi yaradılmışdır. Daha az maraqlı deyil proqram məhsulları PPSA və Klass-Master Moskva riyaziyyatçıları S.A.Aivazyan, İ.S.Enyukov və B.Q.Mirkin tərəfindən yaradılmışdır.

Müəyyən dərəcədə klaster təhlili metodları ən məşhur yerli və xarici statistik paketlərin əksəriyyətində mövcuddur: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S -PLUS və s. Əlbəttə ki, bu icmalın buraxılmasından 10 il sonra çox şey dəyişdi, bir çox statistik proqramların yeni versiyaları meydana çıxdı və həm yeni alqoritmlərdən istifadə edən, həm də çox artan gücdən istifadə edən tamamilə yeni proqramlar meydana çıxdı. kompyuter elmləri. Bununla belə, əksər statistik paketlər 60-70-ci illərdə təklif edilmiş və işlənib hazırlanmış alqoritmlərdən istifadə edir.

Ekspertlərin təxmini hesablamalarına görə, klaster təhlili və onun müxtəlif bilik sahələrində tətbiqi ilə bağlı nəşrlərin sayı hər üç ildən bir iki dəfə artır. Bu tip təhlilə belə fırtınalı marağın səbəbləri nələrdir? Obyektiv olaraq bu fenomenin üç əsas səbəbi var. Bu, güclü hesablama texnologiyasının yaranmasıdır, onsuz real məlumatların klaster təhlili praktiki olaraq mümkün deyil. İkinci səbəb müasir elmin öz konstruksiyalarında getdikcə daha çox təsnifata əsaslanmasıdır. Üstəlik, bu proses getdikcə daha da dərinləşir, çünki bununla paralel olaraq biliyin artan ixtisaslaşması var ki, bu da kifayət qədər obyektiv təsnifat olmadan mümkün deyil.

Üçüncü səbəb - xüsusi biliklərin dərinləşməsi istər-istəməz müəyyən obyekt və hadisələrin təhlili zamanı nəzərə alınan dəyişənlərin sayının artmasına səbəb olur. Nəticədə, əvvəllər nəzərə alınan kifayət qədər az sayda xüsusiyyətə əsaslanan subyektiv təsnifat çox vaxt etibarsız olur. Obyektiv təsnifat isə getdikcə artan obyekt xarakteristikası ilə yalnız müasir kompüterlər əsasında həyata keçirilə bilən mürəkkəb klasterləşdirmə alqoritmlərinin istifadəsini tələb edir. Məhz bu səbəblər “klaster bumu”nu doğurdu. Bununla belə, həkimlər və bioloqlar arasında klaster analizi hələ kifayət qədər populyar və ümumi tədqiqat metoduna çevrilməyib.

2 TERMİNOLOGİYA

2. 1 OBYEKT VƏ İMZA

Əvvəlcə obyekt və atribut kimi anlayışları təqdim edək. Obyekt - latınca obyektum - subyekt. Kimya və biologiyaya münasibətdə obyektlər dedikdə fiziki, kimyəvi və digər metodlardan istifadə etməklə öyrənilən konkret tədqiqat subyektlərini nəzərdə tutacağıq. Belə obyektlər, məsələn, nümunələr, bitkilər, heyvanlar və s. ola bilər. Tədqiqatçının ixtiyarında olan müəyyən obyektlər toplusu nümunə və ya nümunə toplusu adlanır. Belə bir populyasiyadakı obyektlərin sayı adətən nümunə ölçüsü adlanır. Tipik olaraq, nümunə ölçüsü Latın hərfi "n" və ya "N" ilə işarələnir.

İşarə (sinonimlər - xassə, dəyişən, xarakterik; ingiliscə - variable - variable.) - obyektin xüsusi xassəsidir. Bu xassələr rəqəmli və ya qeyri-rəqəm kimi ifadə edilə bilər. Məsələn, qan təzyiqi (sistolik və ya diastolik) millimetr civə ilə, çəki kiloqramla, boy santimetrlə və s. Belə əlamətlər kəmiyyət xarakterlidir. Bu davamlı ədədi xüsusiyyətlərdən (miqyaslardan) fərqli olaraq, bir sıra xüsusiyyətlər diskret, fasiləsiz qiymətlərə malik ola bilər. Öz növbəsində, belə diskret xüsusiyyətlər adətən iki qrupa bölünür.

1) Birinci qrup dərəcə dəyişənləridir və ya onlar sıra dəyişənləri (miqyasları) adlanır. Bu cür əlamətlər bu dəyərləri sıralamaq xüsusiyyəti ilə xarakterizə olunur. Bunlara müəyyən bir xəstəliyin mərhələləri, yaş qrupları, tələbələrin bilik balları, 12 ballıq Rixter zəlzələ miqyası və s.

2) İkinci qrup diskret əlamətlər belə sıraya malik deyil və nominal (“nominal” sözündən – nümunə) və ya təsnifat əlamətləri adlanır. Belə əlamətlərə misal olaraq xəstənin vəziyyəti - "sağlam" və ya "xəstə", xəstənin cinsi, müşahidə müddəti - "müalicədən əvvəl" və "müalicədən sonra" və s. Bu hallarda belə xüsusiyyətlərin adlar miqyasına aid olduğunu söyləmək adətdir.

Obyekt və xüsusiyyət anlayışları adətən “Obyekt-xüsusiyyət” və ya “Obyekt-xüsusiyyət” matrisi adlanır. Matris, tədqiq olunan müşahidələr nümunəsinin xüsusiyyətlərini təsvir edən xüsusiyyətlərin dəyərlərindən ibarət düzbucaqlı bir cədvəl olacaqdır. Bu kontekstdə bir müşahidə istifadə olunan xüsusiyyətlərin dəyərlərindən ibarət ayrı bir sətir kimi qeyd olunacaq. Belə bir məlumat matrisində ayrıca bir atribut nümunədəki bütün obyektlər üçün bu atributun dəyərlərindən ibarət bir sütunla təmsil olunacaq.

2. 2 OBYEKTLƏR ARASINDAKİ MƏSAFƏ (METRİK)

“Obyektlər arasındakı məsafə” anlayışını təqdim edək. Bu anlayış obyektlərin bir-birinə oxşarlığının ayrılmaz ölçüsüdür. Xüsusiyyətlər məkanında obyektlər arasındakı məsafə aşağıdakı aksiomaları təmin edən d ij dəyəridir:

1. d ij > 0 (məsafənin mənfi olmaması)

2. d ij = d ji (simmetriya)

3. d ij + d jk > d ik (üçbucaq bərabərsizliyi)

4. Əgər d ij 0-a bərabər deyilsə, onda i j-ə bərabər deyil (eyni olmayan obyektlərin fərqləndirilməsi)

5. Əgər d ij = 0 olarsa, onda i = j (eyni obyektlərin fərqlənməməsi)

Obyektlərin yaxınlıq (oxşarlıq) ölçüsünü kimi təqdim etmək rahatdır qarşılıqlı obyektlər arasındakı məsafədə. Klaster analizinə həsr olunmuş çoxsaylı nəşrlər obyektlər arasındakı məsafəni hesablamaq üçün 50-dən çox müxtəlif üsulları təsvir edir. "Məsafə" termininə əlavə olaraq, ədəbiyyatda başqa bir terminə tez-tez rast gəlinir - müəyyən bir məsafənin hesablanması metodunu nəzərdə tutan "metrik". Kəmiyyət xüsusiyyətləri halında qavrayış və başa düşmək üçün ən əlçatan olanı "Evklid məsafəsi" və ya "Evklid metrikası" adlanan ölçüdür. Bu məsafəni hesablamaq üçün formula belədir:

Bu düstur aşağıdakı qeyddən istifadə edir:

· d ij - i-ci və j-ci obyektlər arasındakı məsafə;

· x ik - i-ci obyekt üçün k-ci dəyişənin ədədi qiyməti;

· x jk - j-ci obyekt üçün k-ci dəyişənin ədədi qiyməti;

· v - obyektləri təsvir edən dəyişənlərin sayı.

Beləliklə, v=2 halı üçün yalnız iki kəmiyyət işarəmiz olduqda, d ij məsafəsi düzbucaqlı koordinat sistemində iki nöqtəni birləşdirən düzbucaqlı üçbucağın hipotenuzasının uzunluğuna bərabər olacaqdır. Bu iki nöqtə nümunənin i-ci və j-ci müşahidələrinə uyğun olacaq. Çox vaxt adi Evklid məsafəsi əvəzinə onun kvadratı d 2 ij istifadə olunur. Bundan əlavə, bəzi hallarda "çəkili" Evklid məsafəsi istifadə olunur, hesablamada fərdi şərtlər üçün çəki əmsallarından istifadə olunur. Evklid metrikası anlayışını göstərmək üçün sadə təlim nümunəsindən istifadə edirik. Aşağıdakı cədvəldə göstərilən məlumat matrisi 5 müşahidə və iki dəyişəndən ibarətdir.

Cədvəl 1

Beş müşahidə nümunəsi və iki dəyişənin məlumat matrisi.

Evklid metrikasından istifadə edərək, d ij dəyərlərindən ibarət olan obyektlərarası məsafələrin matrisini hesablayırıq - i-ci və j-ci obyektlər arasındakı məsafə. Bizim vəziyyətimizdə i və j obyektin, müşahidənin sayıdır. Nümunə ölçüsü 5 olduğundan, i və j müvafiq olaraq 1-dən 5-ə qədər qiymətlər ala bilər. Bütün mümkün cüt məsafələrin sayının 5*5=25 olacağı da aydındır. Həqiqətən, birinci obyekt üçün bunlar aşağıdakı məsafələr olacaq: 1-1; 1-2; 1-3; 1-4; 1-5. 2-ci obyekt üçün həmçinin 5 mümkün məsafə olacaq: 2-1; 2-2; 2-3; 2-4; 2-5 və s. Bununla belə, sayı müxtəlif məsafələr i = j üçün d ij = 0 - eyni obyektlərin fərqlənməməsi xassəsini nəzərə almaq lazım olduğundan 25-dən az olacaq. Bu o deməkdir ki, №1 obyekt ilə eyni obyekt №1 arasındakı məsafə sıfır olacaqdır. Eyni sıfır məsafələr bütün digər hallar üçün olacaq i = j. Bundan əlavə, simmetriya xassəsindən belə çıxır ki, hər hansı i və j üçün d ij = d ji olur. Bunlar. №1 və №2 obyektlər arasındakı məsafə №2 və №1 obyektlər arasındakı məsafəyə bərabərdir.

Evklid məsafəsi üçün ifadə, güclərdə iki əvəzinə başqa bir dəyər istifadə edildiyi sözdə ümumiləşdirilmiş Minkowski güc məsafəsinə çox oxşardır. Ümumi halda bu qiymət “p” simvolu ilə işarələnir.

p = 2 üçün adi Evklid məsafəsini alırıq. Beləliklə, ümumiləşdirilmiş Minkovski metrikası üçün ifadə formaya malikdir:

“p” eksponentinin xüsusi qiymətinin seçimi tədqiqatçının özü tərəfindən həyata keçirilir.

Minkovski məsafəsinin xüsusi halı p=1-ə uyğun gələn Manhetten məsafəsi və ya “şəhər-blok məsafəsi” adlanır:

Beləliklə, Manhetten məsafəsi obyektlərin müvafiq xüsusiyyətlərinin fərqlərinin modullarının cəmidir. P-nin sonsuzluğa meylli olmasına icazə verərək, "hakimiyyət" metrikasını və ya Sup-metrikanı alırıq:

d ij = max| kimi də təmsil oluna bilər x ik - x jk |.

Minkowski metrikası əslində ən məşhur ölçülər də daxil olmaqla böyük ölçülər ailəsidir. Bununla belə, obyektlər arasındakı məsafənin hesablanması üçün Minkovski metriklərindən əsaslı şəkildə fərqlənən üsullar mövcuddur. Bunlardan ən mühümü, kifayət qədər spesifik xüsusiyyətlərə malik olan Mahalanobis məsafəsi adlanan məsafədir. Bu metrik üçün ifadə:

Buradan keçib X iX j i-ci və j-ci obyektlər üçün dəyişən dəyərlərin sütun vektorları göstərilir. Simvol T ifadəsində (X i - X j ) T vektor transpozisiya əməliyyatı adlanan əməliyyatı bildirir. Simvol S ümumi qrupdaxili variasiya-kovarians matrisi göstərilir. Bir simvol -1 yuxarıda S matrisi çevirmək lazım olduğunu bildirir S . Minkowski metrikasından və Evklid metrikasından fərqli olaraq, dispersiya-kvariasiya matrisi vasitəsilə Mahalanobis məsafəsi S dəyişənlərin korrelyasiyası ilə bağlıdır. Dəyişənlər arasında korrelyasiya sıfır olduqda, Mahalanobis məsafəsi Evklid məsafəsinin kvadratına bərabərdir.

Dixotom (yalnız iki dəyərə malik) keyfiyyət xüsusiyyətlərindən istifadə edildikdə, Hamming məsafəsi geniş istifadə olunur.

nəzərə alınan i-ci və j-ci obyektlər üçün müvafiq xüsusiyyətlərin dəyərlərində uyğunsuzluqların sayına bərabərdir.

2. 3 KLASTERLƏRİN SıXLIĞI VƏ YERLƏRİ

Klaster analizinin əsas məqsədi nümunədə bir-birinə bənzər obyekt qruplarını tapmaqdır. Fərz edək ki, bəzi mümkün üsullarla biz belə qrupları - klasterləri əldə etmişik. Klasterlərin mühüm xüsusiyyətlərini qeyd etmək lazımdır. Bu xassələrdən biri nöqtələrin paylanma sıxlığı, çoxluq daxilində müşahidələrdir. Bu xassə çoxölçülü fəzada çoxölçülü nöqtələrin çoxluğu kimi müəyyən etməyə imkan verir ki, bu fəzanın digər bölgələri ilə müqayisədə nisbətən sıx olan və ya ümumiyyətlə nöqtələri olmayan, ya da az sayda müşahidələri ehtiva edir. Başqa sözlə, bu klaster nə qədər yığcamdır və ya əksinə, nə qədər seyrəkdir. Bu əmlakın kifayət qədər sübutuna baxmayaraq, belə bir göstəricinin (sıxlığın) hesablanmasının birmənalı yolu yoxdur. Müəyyən klasterdə çoxölçülü müşahidələrin yığcamlığını, “qablaşdırma” sıxlığını xarakterizə edən ən uğurlu göstərici klasterin mərkəzindən klasterin ayrı-ayrı nöqtələrinə qədər olan məsafənin səpilməsidir. Bu məsafənin dispersiyası nə qədər kiçik olarsa, müşahidələr klasterin mərkəzinə nə qədər yaxın olarsa, klasterin sıxlığı bir o qədər çox olar. Və əksinə, məsafənin dağılması nə qədər böyükdürsə, bu çoxluq bir o qədər seyrəkdir və nəticədə həm çoxluğun mərkəzinə yaxın, həm də çoxluğun mərkəzindən kifayət qədər uzaqda yerləşən nöqtələr var.

Klasterlərin növbəti xüsusiyyəti onların ölçüsüdür. Klasterin ölçüsünün əsas göstəricisi onun "radiusu"dur. Əgər nəzərə alınan klaster çoxölçülü məkanda yuvarlaq və hipersferdirsə, bu xüsusiyyət faktiki klaster ölçüsünü ən tam şəkildə əks etdirir. Lakin, əgər klasterlər uzunsov formalara malikdirsə, onda radius və ya diametr anlayışı artıq çoxluğun həqiqi ölçüsünü əks etdirmir.

Klasterin digər mühüm xüsusiyyəti onların yerləşməsi, ayrıla bilməsidir. Çoxölçülü məkanda klasterlərin bir-birindən üst-üstə düşmə dərəcəsini və qarşılıqlı uzaqlığını xarakterizə edir. Məsələn, aşağıdakı şəkildəki yeni, inteqrasiya olunmuş funksiyalar məkanında üç klasterin paylanmasını nəzərdən keçirin. Eritrositlərin müxtəlif formalarının əks etdirici xüsusiyyətlərinin elektron mikroskopundan istifadə etməklə tədqiq edilən 12 xüsusiyyətindən 1 və 2-ci oxlar xüsusi üsulla alınmışdır.

Şəkil 1

Biz görürük ki, 1-ci klaster minimum ölçüyə malikdir, 2-ci və 3-cü qruplar isə təxminən bərabər ölçülərə malikdir. Eyni zamanda deyə bilərik ki, minimum sıxlıq və deməli, maksimum məsafə dispersiyası 3-cü klaster üçün xarakterikdir. Bundan əlavə, klaster 1 həm 2-ci klasterdən, həm də 3-cü klasterdən kifayət qədər böyük boşluq hissələri ilə ayrılır. Halbuki klasterlər 2 və 3 bir-biri ilə qismən üst-üstə düşür. Maraqlıdır ki, 1-ci klaster 2-ci ox boyunca olduğundan 1-ci ox boyunca 2-ci və 3-cü klasterlərdən daha böyük fərqə malikdir. Əksinə, 2 və 3-cü qruplar həm 1-ci ox, həm də 2-ci oxlar boyunca bir-birindən təxminən bərabər şəkildə fərqlənirlər. Aydındır ki, belə bir vizual təhlil üçün nümunənin bütün müşahidələrini xüsusi oxlara proyeksiya etmək lazımdır ki, orada çoxluq elementlərinin proyeksiyaları ayrı-ayrı klasterlər kimi görünəcək.

2. 4 KLASTERLER ARASINDA MESAFE

Daha geniş mənada, obyektləri təkcə “obyekt-xassəli” matrisində ayrıca sətir kimi və ya çoxölçülü xüsusiyyət məkanında ayrı-ayrı nöqtələr kimi təqdim edilən ilkin tədqiqat subyektləri kimi deyil, həm də belə nöqtələrin ayrı-ayrı qrupları kimi başa düşmək olar. , bu və ya digər alqoritmlə klasterə birləşdirilir. Bu halda, belə xalların (klasterlərin) yığılması arasındakı məsafəni necə başa düşmək və onu necə hesablamaq barədə sual yaranır. Bu halda, imkanların müxtəlifliyi çoxölçülü məkanda iki müşahidə arasındakı məsafənin hesablanması halında olduğundan daha böyükdür. Bu prosedur onu çətinləşdirir ki, nöqtələrdən fərqli olaraq, klasterlər müəyyən miqdarda çoxölçülü məkan tutur və çoxlu nöqtələrdən ibarətdir. Klaster analizində ən yaxın qonşu (ən yaxın qonşu), ağırlıq mərkəzi, ən uzaq qonşu, median prinsipi ilə hesablanan klasterlərarası məsafələrdən geniş istifadə olunur. Dörd üsuldan ən çox istifadə olunur: tək keçid, tam keçid, orta keçid və Ward metodu. Tək keçid metodunda, klasterin elementlərindən ən azı biri birləşdirilən obyektlə eyni səviyyəli oxşarlığa malik olarsa, obyekt artıq mövcud klasterə əlavə olunacaq. Tam bağlantılar metodu üçün obyekt yalnız daxil olmaq üçün namizədlə klasterin hər hansı elementi arasında oxşarlıq müəyyən həddən az olmadıqda çoxluğa əlavə edilir. Orta əlaqə metodu üçün bir neçə modifikasiya var, bunlar tək və tam əlaqə arasında bəzi güzəştlərdir. Onlar daxil olmaq üçün namizədin mövcud klasterin bütün obyektləri ilə oxşarlığının orta qiymətini hesablayırlar. Tapılan orta oxşarlıq dəyəri müəyyən həddə çatdıqda və ya onu keçdikdə əlavə edilir. Ən çox istifadə edilən, klasterin obyektləri ilə klasterə daxil olmaq üçün namizəd arasında orta arifmetik oxşarlıqdır.

Klasterləşdirmə metodlarının bir çoxu bir-birindən onunla fərqlənir ki, onların alqoritmləri hər addımda müxtəlif bölmə keyfiyyət funksiyalarını hesablayır. Populyar Ward metodu elə qurulmuşdur ki, klasterdaxili məsafələrin minimum fərqini optimallaşdırsın. Birinci mərhələdə hər bir klaster bir obyektdən ibarətdir, bunun sayəsində məsafələrin klasterdaxili dispersiyası 0-a bərabərdir. Bu üsulla, dispersiyanın minimum artımını verən obyektlər birləşdirilir, nəticədə bu metodun hipersferik klasterlər əmələ gətirir.

Klaster təhlili metodlarını təsnif etmək üçün çoxsaylı cəhdlər onlarla və hətta yüzlərlə müxtəlif siniflərə səbəb olur. Bu cür müxtəliflik fərdi müşahidələr arasındakı məsafəni hesablamaq üçün çox sayda mümkün yollar, klasterləşmə prosesində ayrı-ayrı klasterlər arasındakı məsafəni hesablamaq üçün daha az olmayan üsullar və son klaster strukturunun optimallığının müxtəlif qiymətləndirmələri ilə yaradılır.

Populyar statistik paketlərdə ən çox istifadə olunanlar iki qrup klaster analizi alqoritmləridir: iyerarxik aqlomerativ üsullar və iterativ qruplaşdırma metodları.

3. QRUPLAMA METODLARI

3. 1 İERARXİK AQLOMERATİV ÜSULLARIN XÜSUSİYYƏTLƏRİ

Real biotibbi tədqiqatlarda daha çox istifadə olunan aqlomerativ iyerarxik alqoritmlərdə ilkin olaraq bütün obyektlər (müşahidələr) yalnız bir elementdən ibarət ayrıca, müstəqil klasterlər kimi qəbul edilir. Güclü kompüter texnologiyasından istifadə etmədən klaster məlumatlarının təhlilinin həyata keçirilməsi çox problemlidir.

Metrik seçimi tədqiqatçı tərəfindən edilir. Məsafə matrisini hesabladıqdan sonra proses başlayır aqlomerasiyalar (Latın agglomero-dan - yapışdırıram, yığıram), ardıcıl olaraq addım-addım keçərək. Bu prosesin ilk addımında aralarında ən kiçik məsafə olan iki ilkin müşahidə (monoklaster) artıq iki obyektdən (müşahidələrdən) ibarət olan bir klasterə birləşdirilir. Beləliklə, əvvəlki N monoklasterlər (bir obyektdən ibarət klasterlər) əvəzinə, birinci addımdan sonra bir çoxluqda iki obyekt (müşahidə) olacaq N-1 klasterlər, N-2 klasterləri isə yenə də N-1 klasterləri olacaq. yalnız bir obyekt. İkinci mərhələdə N-2 klasterlərinin birləşdirilməsinin müxtəlif üsulları mümkündür. Bunun səbəbi, bu klasterlərdən birinin artıq iki obyekti ehtiva etməsidir. Bu səbəbdən iki əsas sual ortaya çıxır:

iki (və daha ikidən çox) obyektin belə çoxluğunun koordinatlarını necə hesablamaq;

· belə “poliobyektli” klasterlərə “monoklasterlərdən” və “poliobyektli” klasterlər arasındakı məsafəni necə hesablamaq olar.

Nəhayət, bu suallar yekun klasterlərin yekun strukturunu müəyyən edir (klasterlərin strukturu dedikdə ayrı-ayrı klasterlərin tərkibi və onların çoxölçülü məkanda nisbi mövqeyi nəzərdə tutulur). Klasterlərin koordinatlarının və qarşılıqlı məsafələrinin hesablanması üçün ölçülərin və metodların müxtəlif kombinasiyası klaster analizi üsullarının müxtəlifliyinə səbəb olur. İkinci mərhələdə, bir neçə obyektdən ibarət olan klasterin koordinatlarının hesablanması üçün seçilmiş metodlardan və çoxluqlararası məsafələrin hesablanması metodundan asılı olaraq, ya iki ayrı müşahidəni yenidən yeni çoxluqda birləşdirmək, ya da bir yeni klasterə qoşulmaq mümkündür. iki obyektdən ibarət klasterə müşahidə. Rahatlıq üçün, işin sonunda aqlomerativ-ierarxik metodların əksər proqramları baxılması üçün iki əsas qrafik təqdim edə bilər. Birinci qrafik aqlomerasiya prosesini, fərdi müşahidələrin vahid yekun çoxluqda birləşməsini əks etdirən dendroqram (yunan dilindən dendron - ağac) adlanır. İki dəyişənli 5 müşahidənin dendroqramına misal verək.

Cədvəl1

Belə bir qrafikin şaquli oxu klasterlərarası məsafənin oxudur və üfüqi ox boyunca obyektlərin sayı - təhlildə istifadə olunan hallar qeyd olunur. Bu dendroqramdan görünür ki, 1 və 2 nömrəli obyektlər əvvəlcə bir klasterdə birləşdirilir, çünki onların arasındakı məsafə ən kiçikdir və 1-ə bərabərdir. Bu birləşmə qrafikdə şaquli seqmentləri birləşdirən üfüqi xətt ilə göstərilir. C_1 və C_2 kimi qeyd olunan nöqtələrdən çıxmaq. Diqqət yetirək ki, üfüqi xəttin özü 1-ə bərabər olan klasterlərarası məsafə səviyyəsindən tam olaraq keçir. Bundan əlavə, ikinci mərhələdə C_3 kimi təyin edilmiş 3 nömrəli obyekt artıq iki obyekti özündə birləşdirən bu klasterə qoşulur. Növbəti addım, aralarındakı məsafə 1.41-ə bərabər olan №4 və №5 obyektləri birləşdirməkdir. Və son mərhələdə 1, 2 və 3-cü obyektlərin çoxluğu 4 və 5-ci obyektlərin çoxluğu ilə birləşdirilir. Qrafikdən görünür ki, bu iki sondan əvvəlki klaster (sonuncu klaster bütün 5 obyekti əhatə edir) arasındakı məsafə 5-dən böyükdür. , lakin 6-dan azdır, çünki sondan əvvəlki iki klasteri birləşdirən yuxarı üfüqi xətt təxminən 7-yə bərabər səviyyədə keçir və 4 və 5-ci obyektlərin əlaqə səviyyəsi 1,41-dir.

Aşağıdakı dendroqram işlənmiş 70-dən ibarət real verilənlər toplusunu təhlil etməklə əldə edilmişdir kimyəvi nümunələr, hər biri 12 xüsusiyyət ilə xarakterizə olunurdu.

Diaqram 2

Qrafikdən görünür ki, sonuncu mərhələdə, son iki klaster birləşdikdə, aralarındakı məsafə təxminən 200 vahid təşkil edir. Görünür ki, birinci klasterə ikinci klasterə nisbətən xeyli az obyekt daxildir.Aşağıda dendroqramın C_65, C_58 və s kimi qeyd olunan müşahidə nömrələrinin aydın göründüyü böyüdülmüş bölməsi verilmişdir. (soldan sağa): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 və s.

Diaqram 3 Yuxarıdakı №2 diaqramın böyüdülmüş hissəsi

Görünür ki, 44-cü obyekt sondan əvvəlki addımda sağ çoxluqla birləşən monoklasterdir, sonra isə sonuncu mərhələdə bütün müşahidələr bir klasterdə birləşir.

Bu cür prosedurlarda qurulan başqa bir qrafik birləşmənin hər addımında klasterlərarası məsafələrin qrafikidir. Aşağıda yuxarıdakı dendroqram üçün oxşar süjet verilmişdir.

Diaqram 4

Bir sıra proqramlarda klasterləşmənin hər addımında obyektlərin birləşdirilməsinin nəticələrini cədvəl şəklində göstərmək mümkündür. Bu cədvəllərin əksəriyyətində çaşqınlığın qarşısını almaq üçün ilkin müşahidələri - monoklasterləri və iki və ya daha çox müşahidədən ibarət faktiki klasterləri təyin etmək üçün müxtəlif terminologiyadan istifadə olunur. İngilis dilli statistik paketlərdə ilkin müşahidələr (məlumat matrisinin sıraları) “case” – case kimi təyin edilir. Klaster strukturunun metrik seçimindən və klaster birləşmə alqoritminin seçimindən asılılığını nümayiş etdirmək üçün aşağıda tam əlaqə alqoritminə uyğun gələn dendroqramı təqdim edirik. Və burada biz görürük ki, 44-cü obyekt ən son mərhələdə seçimin qalan hissəsi ilə birləşdirilir.

Diaqram 5

İndi onu eyni verilənlər üzərində tək keçid metodundan istifadə etməklə əldə edilən başqa bir diaqramla müqayisə edək. Tam əlaqə metodundan fərqli olaraq, bu metodun bir-birinə ardıcıl bağlanmış obyektlərin uzun zəncirlərini yaratdığını görmək olar. Lakin hər üç halda iki əsas qrupun önə çıxdığını deyə bilərik.

Diaqram 6

Bir fakta da diqqət yetirək ki, hər üç halda 44 nömrəli obyekt klasterləşmə prosesinin müxtəlif mərhələlərində olsa da, monoklaster kimi birləşir. Belə monoklasterlərin seçilməsi kənar müşahidələr adlanan anomal müşahidələri aşkar etmək üçün yaxşı vasitədir. Gəlin bu “şübhəli” 44 nömrəli obyekti silək və yenidən klasterləşdirmə aparaq. Aşağıdakı dendroqramı alırıq:

Diaqram 7

Görünür ki, müşahidələrin iki yerli qrupuna bölünməsi kimi “zəncir” effekti də qorunub saxlanılır.

3. 2 İTERATİV KLASTERLEŞMƏ METODLARININ XÜSUSİYYƏTLƏRİ

İterativ üsullar arasında ən populyar üsul McKean's k-means metodudur. İerarxik metodlardan fərqli olaraq, bu metodun əksər tətbiqlərində istifadəçi özü adətən “k” kimi işarələnən son klasterlərin istənilən sayını göstərməlidir. İyerarxik klasterləşdirmə metodlarında olduğu kimi, istifadəçi bu və ya digər metrik növü seçə bilər. k-means metodunun müxtəlif alqoritmləri verilmiş klasterlərin ilkin mərkəzlərinin seçilməsi üsulu ilə də fərqlənir. Metodun bəzi versiyalarında istifadəçinin özü belə ilkin nöqtələri ya real müşahidələrdən seçməklə, ya da dəyişənlərin hər biri üçün bu nöqtələrin koordinatlarını təyin etməklə müəyyən edə bilər (ya da etməlidir). Bu metodun digər tətbiqlərində verilmiş k ədəd ilkin nöqtələrin seçimi təsadüfi şəkildə aparılır və bu ilkin nöqtələr (klaster taxılları) sonradan bir neçə mərhələdə dəqiqləşdirilə bilər. Belə metodların 4 əsas mərhələsi var:

· klasterlərin əsas mərkəzləri olacaq k müşahidəni seçmək və ya təyin etmək;

· zərurət yarandıqda, hər bir müşahidənin ən yaxın müəyyən edilmiş klaster mərkəzlərinə təyin edilməsi yolu ilə ara klasterlər formalaşdırılır;

· bütün müşahidələr ayrı-ayrı klasterlərə təyin edildikdən sonra ilkin klaster mərkəzləri klaster orta göstəriciləri ilə əvəz olunur;

· klaster mərkəzlərinin koordinatlarında dəyişikliklər minimal olana qədər əvvəlki iterasiya təkrarlanır.

Bu metodun bəzi versiyalarında istifadəçi meyarın ədədi dəyərini təyin edə bilər ki, bu da yeni klaster mərkəzlərinin seçilməsi üçün minimum məsafə kimi şərh olunur. Müşahidə namizədi kimi qəbul edilməyəcək yeni mərkəz klaster, onun klasterin dəyişdirilmiş mərkəzinə olan məsafəsi göstərilən nömrədən çox olarsa. Bu parametr bəzi proqramlarda "radius" adlanır. Bu parametrə əlavə olaraq, təkrarların maksimum sayını təyin etmək və ya bütün klaster mərkəzləri üçün məsafənin dəyişməsinin müqayisə edildiyi müəyyən, adətən olduqca kiçik bir rəqəmə çatmaq da mümkündür. Bu parametr adətən "konvergensiya" adlanır, çünki iterativ klasterləşmə prosesinin yaxınlaşmasını əks etdirir. Aşağıda McKean k-means metodundan istifadə edərək əldə edilmiş bəzi nəticələri əvvəlki məlumatlara təqdim edirik. İstədiyiniz klasterlərin sayı əvvəlcə 3-ə, sonra isə 2-yə təyin edildi. Onların birinci hissəsi bir faktorlu nəticələri ehtiva edir. dispersiya təhlili, burada klaster nömrəsi qruplaşdırma amili kimi çıxış edir. Birinci sütunda 12 dəyişənin siyahısı, ardınca kvadratların cəmi (SS) və sərbəstlik dərəcələri (df), sonra Fişerin F-testi, sonuncu sütunda isə əldə edilmiş əhəmiyyət səviyyəsi "p" göstərilir.

Cədvəl 2 McKean k-70 test nümunəsinə aid olan məlumat deməkdir.

Dəyişənlər

Bu cədvəldən göründüyü kimi, üç qrupda vasitələrin bərabərliyi haqqında sıfır fərziyyə rədd edilir. Aşağıda fərdi klasterlər üçün bütün dəyişənlərin vasitələrinin qrafiki verilmişdir. Dəyişənlərin eyni klaster vasitələri aşağıda cədvəl şəklində təqdim olunur.

Cədvəl 3. Üç klaster nümunəsində məlumatların ətraflı nəzərdən keçirilməsi.

Dəyişən

Klaster №1

Klaster №2

Klaster #3

Diaqram 8

Hər bir klaster üçün dəyişənlərin orta qiymətlərinin təhlili belə bir nəticəyə gəlməyə imkan verir ki, X1 xüsusiyyətinə görə, 1 və 3-cü qruplar yaxın dəyərlərə malikdir, 2-ci klaster isə digər iki klasterdən xeyli aşağı orta qiymətə malikdir. Əksinə, X2 xüsusiyyətinə görə birinci klaster ən aşağı qiymətə, 2-ci və 3-cü qruplar isə daha yüksək və yaxın orta qiymətlərə malikdir. X3-X12 əlamətləri üçün klaster 1-də orta dəyərlər 2 və 3-cü qruplara nisbətən əhəmiyyətli dərəcədə yüksəkdir. İki klasterə qruplaşmanın nəticələrinin ANOVA təhlilinin aşağıdakı cədvəli də bərabərlik haqqında sıfır fərziyyənin rədd edilməsinin zəruriliyini göstərir. Əldə edilmiş əhəmiyyət səviyyəsinin 5%-dən çox olduğu ortaya çıxan X4 dəyişəni istisna olmaqla, demək olar ki, bütün 12 xüsusiyyət üçün qrup vasitələri.

Cədvəl 4. İki klasterə klasterləşmənin nəticələrinin dispersiya təhlili cədvəli.

Dəyişənlər

Aşağıda iki qrupa klasterləşmə halı üçün qrup vasitələrinin qrafiki və cədvəli verilmişdir.

Cədvəl 5. İki klasterə klasterləşmə halı üçün cədvəl.

Dəyişənlər

Klaster №1

Klaster №2

Diaqram 9.

Tədqiqatçı qrupların ən çox ehtimal olunan sayını əvvəlcədən müəyyən edə bilmədikdə, yuxarıda edilənlərə bənzər fərqli bir nömrə təyin edərək hesablamaları təkrarlamağa məcbur olur. Və sonra, əldə edilən nəticələri bir-biri ilə müqayisə edərək, ən məqbul qruplaşma seçimlərindən birində dayanın.

4 . XÜSUSİYYƏTLƏRİN KLASTERLEŞMƏSİ

Fərdi müşahidələrin klasterləşdirilməsi ilə yanaşı, xüsusiyyətlərin qruplaşdırılması alqoritmləri də mövcuddur. İlk belə üsullardan biri korrelyasiya pleiades üsuludur Terentiev P.V. Bu cür pleiadelərin ibtidai şəkillərinə tez-tez biotibbi nəşrlərdə müəlliflərin əlaqə tapdığı işarələri birləşdirən oxlarla nöqtələnmiş dairə şəklində tapıla bilər. Obyektlərin və xüsusiyyətlərin qruplaşdırılması üçün bir sıra proqramlar ayrıca prosedurlara malikdir. Məsələn, funksiyaların klasterləşdirilməsi üçün SAS paketində VARCLUS prosedurundan (VARiable - dəyişən və CLUSter - klasterdən) istifadə olunur, müşahidələrin klaster təhlili isə digər prosedurlar - FASTCLUS və CLUSTER tərəfindən həyata keçirilir. Hər iki halda dendroqramın qurulması TREE (ağac) prosedurundan istifadə etməklə həyata keçirilir.

Digər statistik paketlərdə qruplaşma üçün elementlərin - obyektlərin və ya xüsusiyyətlərin seçimi eyni modulda aparılır. Xüsusiyyətlərin klasterləşdirilməsi üçün bir metrik olaraq, bir cüt xüsusiyyət üçün əlaqənin gücünü əks etdirən müəyyən əmsalların dəyərini ehtiva edən ifadələr tez-tez istifadə olunur. Bu halda əlaqə gücü birə bərabər olan işarələr üçün (funksional asılılıq) işarələr arasındakı məsafəni sıfıra bərabər götürmək çox rahatdır. Həqiqətən, funksional əlaqə ilə bir xüsusiyyətin dəyəri başqa bir xüsusiyyətin dəyərini dəqiq hesablaya bilər. Xüsusiyyətlər arasındakı əlaqənin gücündə azalma ilə məsafə müvafiq olaraq artır. Aşağıda 70 analitik nümunənin toplanması zamanı yuxarıda istifadə edilmiş 12 xüsusiyyətin birləşməsinin dendroqramını göstərən qrafik verilmişdir.

Qrafik 10. Dendroqramma12 xüsusiyyəti birləşdirir.

Bu dendroqramdan göründüyü kimi, biz xüsusiyyətlərin iki lokal qruplaşdırılması ilə məşğul oluruq: X1-X10 və X11-X12.X1-X10 əlamətlər qrupu təqribən 100 vahiddən çox olmayan klasterlərarası məsafələrin kifayət qədər kiçik dəyəri ilə xarakterizə olunur. Burada biz bəzi daxili qoşalaşmış alt qrupları da görürük: X1 və X2, X3 və X4, X6 və X7. Bu cütlərin xüsusiyyətləri arasında sıfıra çox yaxın olan məsafə onların güclü cüt əlaqəsindən xəbər verir. X11 və X12 cütləri üçün klasterlərarası məsafənin dəyəri daha böyükdür və təxminən 300 vahiddir. Nəhayət, sol (X1-X10) və sağ (X11-X12) klasterləri arasında təxminən 1150 vahidə bərabər olan çox böyük məsafə bu iki xüsusiyyət qrupu arasındakı əlaqənin olduqca minimal olduğunu göstərir.

5. KLASTERLƏNMƏNİN STABİLLİYİ VƏ KEYFİYYƏTİ

Aydındır ki, klaster təhlili metodlarının köməyi ilə əldə edilən bu və ya digər təsnifatın nə dərəcədə mütləq olması sualını qaldırmaq absurd olardı. Klasterləşmə metodu dəyişdirildikdə, sabitlik iki klasterin dendroqramlarda kifayət qədər aydın görünməsi ilə özünü göstərir.

Klaster təhlili nəticələrinin sabitliyini yoxlamağın mümkün üsullarından biri kimi müxtəlif klasterləşdirmə alqoritmləri üçün alınan nəticələrin müqayisəsi üsulundan istifadə edilə bilər. Digər yollar B. Efron tərəfindən 1977-ci ildə təklif edilən bootstrap metodu adlanan “jackknife” və “sliding control” metodlarıdır. Klaster həllinin dayanıqlığının yoxlanılmasının ən sadə vasitəsi ilkin nümunəni təsadüfi olaraq iki təxminən bərabər hissəyə bölmək, hər iki hissəni qruplaşdırmaq və sonra nəticələri müqayisə etmək ola bilər. Daha çox vaxt aparan yol, başlanğıcda birinci obyektin ardıcıl olaraq xaric edilməsini və qalan (N - 1) obyektlərin qruplaşdırılmasını nəzərdə tutur. Bundan əlavə, ikinci, üçüncü və s. istisna olmaqla, bu proseduru ardıcıl olaraq həyata keçirmək. obyektlər, əldə edilən bütün N klasterlərin strukturu təhlil edilir. Sabitliyin yoxlanılması üçün başqa bir alqoritm çoxlu reproduksiyanı, N obyektin orijinal nümunəsinin təkrarlanmasını, sonra bütün təkrarlanan nümunələrinin bir böyük nümunədə (psevdo-ümumi populyasiya) birləşdirilməsini və ondan təsadüfi olaraq N obyektin yeni nümunəsinin çıxarılmasını nəzərdə tutur. Bundan sonra bu seçmə qruplaşdırılır, sonra yeni təsadüfi seçmə götürülür və yenidən klasterləşdirmə aparılır və s. Həm də kifayət qədər əmək tələb edir.

Klasterləşmənin keyfiyyətini qiymətləndirərkən problem az deyil. Klaster həllərini optimallaşdırmaq üçün kifayət qədər bir neçə alqoritm məlumdur. Klasterdaxili dispersiyanı minimuma endirmək üçün meyarın tərtibatını və optimal həlli tapmaq üçün alqoritmi (k-vasitələr tipli) ehtiva edən ilk əsərlər 50-ci illərdə ortaya çıxdı. 1963-cü ildə J. Ward-un məqaləsi də oxşar optimallaşdırma iyerarxik alqoritmini təqdim etdi. Klaster həllini optimallaşdırmaq üçün universal meyar yoxdur. Bütün bunlar tədqiqatçının optimal həll yolunu seçməsini çətinləşdirir. Belə vəziyyətdə mümkün olan ən yaxşı şəkildə Tədqiqatın bu mərhələsində tapılan klaster həllinin optimal olduğunu iddia etmək, yalnız bu həllin çoxvariantlı statistikanın digər üsullarından istifadə etməklə əldə edilən nəticələrlə uyğunluğudur.

Klasterləşmənin optimallığı haqqında nəticənin lehinə, artıq digər tədqiqat obyektlərində əldə edilmiş həllin proqnozlaşdırıcı anlarının yoxlanılmasının müsbət nəticələri də var. Klaster analizinin iyerarxik üsullarından istifadə edərkən bir neçə qrafiki bir-biri ilə müqayisə etməyi tövsiyə edə bilərik artan dəyişiklik klasterlərarası məsafə. Bu halda, klasterləşmənin son 1-2 addımında bu qrafikdə kəskin şaquli yüksəlişlə ilk addımdan bir neçə sondan əvvəlki addıma qədər belə bir artımın düz xəttinin müşahidə olunduğu seçimə üstünlük verilməlidir.

NƏTİCƏLƏR

İşimdə mən yalnız bu tip təhlilin mürəkkəbliyini deyil, həm də optimal məlumat emal imkanlarını göstərməyə çalışdım, çünki nəticələrin dəqiqliyi üçün çox vaxt onlarla nümunədən yüzlərlə nümunədən istifadə etməlisiniz. Bu tip təhlil nəticələrin təsnifatına və emalına kömək edir. Bu təhlildə kompüter texnologiyalarının məqbulluğunu da əhəmiyyətsiz hesab edirəm ki, bu da nəticələrin işlənməsi prosesini daha az vaxt aparmağa imkan verir və beləliklə, təhlil üçün seçmənin düzgünlüyünə daha çox diqqət yetirməyə imkan verir.

Klaster analizinin istifadəsində elə incəliklər və təfərrüatlar var ki, ayrı-ayrı konkret hallarda görünür və dərhal görünmür. Məsələn, xüsusiyyətlərin miqyasının rolu minimal ola bilər və bəzi hallarda dominant ola bilər. Belə hallarda dəyişən çevrilmələrdən istifadə etmək lazımdır. Bu, ümumiyyətlə xüsusiyyətlər arasında korrelyasiyaların ümumi səviyyəsini artıran qeyri-xətti xüsusiyyət çevrilmələri yaradan metodlardan istifadə edərkən xüsusilə təsirlidir.

Yalnız keyfiyyət əlamətləri ilə təsvir olunan obyektlərə münasibətdə klaster analizinin istifadəsində daha böyük spesifiklik var. Bu halda, keyfiyyət xüsusiyyətlərinin ilkin rəqəmsallaşdırılması və yeni xüsusiyyətlərlə klaster təhlili üsulları kifayət qədər uğurludur. Mən öz işimdə göstərdim ki, klaster analizi həm kifayət qədər öyrənilmiş sistemlərdə tətbiq olunduğu halda, həm də strukturu naməlum sistemlərin öyrənilməsində çoxlu yeni və orijinal məlumat verir.

Onu da qeyd etmək lazımdır ki, klaster analizi təkamül yollarını göstərən filogenetik ağacların qurulmasına imkan verən təkamül tədqiqatlarında əvəzsiz hala gəldi. Bu üsullardan proqramlarda geniş istifadə olunur elmi araşdırma Fiziki və analitik kimya üzrə.

BİBLİOQRAFİYA

1) Aivazyan S. A., Enyukov I. S., Meşalkin L. D. Tətbiqi statistik təhlil üçün proqram paketinin strukturu və məzmunu haqqında // Alqoritmik və proqram təminatı tətbiqi statistik təhlil.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. İ., Staroverov O. V. Çoxölçülü müşahidələrin təsnifatı.--M.: Statistika, 1974.

3) Becker V. A., Lukatskaya M. L. Birləşmə əmsalları matrisinin strukturunun təhlili haqqında // Sənayedə iqtisadi və statistik modelləşdirmə və proqnozlaşdırma məsələləri.-- Novosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. Struktur üsulları verilənlərin emalı.--M.: Nauka, 1983.

5) Voronin Yu. A. Təsnifat nəzəriyyəsi və onun tətbiqi.--Novosibirsk: Nauka, 1987.

6) Yaxşı I. J. Botriologiyanın botriologiyası // Təsnifat və klaster.--M.: Mir, 1980.

7) Dubrovski S. A. Tətbiqi çoxvariantlı statistik təhlil.--M.: Maliyyə və statistika, 1982.

8) Duran N., Odell P. Klaster analizi.--M.: Statistika, 1977.

9) Eliseeva I.I., Rukavişnikov V.S. Qruplaşdırma, korrelyasiya, nümunənin tanınması.--M.: Statistika, 1977.

10) Zagoruiko N. G. Tanınma üsulları və onların tətbiqi.--M .: Sovet radiosu, 1972.

11) Zadə L. A. Qeyri-səlis çoxluqlar və onların nümunənin tanınması və klaster analizində tətbiqi//Təsnifat və klaster.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. Çoxölçülü qruplaşmalar.--M.: Statistika, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA Klaster analizində bölmələrin düzgünlüyünü yoxlamağın bir yolu haqqında.//Çoxvariantlı statistik təhlilin iqtisadiyyatda və məhsulun keyfiyyətinin qiymətləndirilməsində tətbiqi.--Ç. P. Tartu, 1977.

14) Şurygin A. M. Nöqtələrarası məsafələrin və fərqlərin paylanması // Tətbiq olunan çoxölçülü statistik analiz üçün proqram təminatı və alqoritmik dəstək.--M., 1983.

15) Eeremaa R. Klaster sistemlərinin layihələndirilməsinin ümumi nəzəriyyəsi və onların ədədi təsvirlərini tapmaq üçün alqoritmlər: TDU Hesablama Mərkəzinin materialları.--Tartu, 1978.

16) Yastremsky B.S. Seçilmiş əsərlər.--M.: Statistika, 1964.

Oxşar Sənədlər

    Bazarın seqmentləşdirilməsinin məqsədləri marketinq fəaliyyəti. Klaster təhlilinin mahiyyəti, onun həyata keçirilməsinin əsas mərhələləri. Məsafə və ya oxşarlıq ölçüsünü necə ölçəcəyini seçin. İerarxik, qeyri-ierarxik klasterləşdirmə üsulları. Etibarlılığın və etibarlılığın qiymətləndirilməsi.

    hesabat, 02.11.2009-cu il tarixində əlavə edilmişdir

    Əsas xüsusiyyətlər maliyyə vəziyyəti müəssisələr. Müəssisədə böhran, onun səbəbləri, növləri və nəticələri. Müasir üsullar və klaster təhlili vasitələri, müəssisənin maliyyə-iqtisadi qiymətləndirilməsi üçün onlardan istifadə xüsusiyyətləri.

    dissertasiya, 10/09/2013 əlavə edildi

    Statgraphics Plus istifadə edərək müəssisələrin klaster analizini həyata keçirin. Xətti reqressiya tənliyinin qurulması. Reqressiya modelləri ilə elastiklik əmsallarının hesablanması. Tənliyin statistik əhəmiyyətinin və təyinetmə əmsalının qiymətləndirilməsi.

    tapşırıq, 16/03/2014 əlavə edildi

    Müşahidələrin ayrı-ayrı qrupları üçün tipoloji reqressiyaların qurulması. Məkan məlumatları və müvəqqəti məlumatlar. Klaster analizinin tətbiq dairəsi. Cisimlərin homogenliyi anlayışı, məsafə matrisinin xassələri. Tipoloji reqressiyanın aparılması.

    təqdimat, 26/10/2013 əlavə edildi

    kimi kombinə edilmiş model və metodların yaradılması müasir yol proqnozlaşdırma. Klasterləşmə məsələlərinin həllində stasionar və qeyri-stasionar zaman sıralarını təsvir etmək üçün ARIMA əsaslı model. Avtoreqressiv AR modelləri və korreloqramların tətbiqi.

    təqdimat, 05/01/2015 əlavə edildi

    Müxtəlif növ metriklərin xüsusiyyətləri. Ən yaxın qonşu metodu və onun ümumiləşdirilməsi. Ən yaxın qonşu alqoritmi. Parzen pəncərə üsulu. Ümumiləşdirilmiş metrik təsnifat. Metrik seçmək problemi. Manhetten və Evklid məsafəsi. kosinus ölçüsü.

    kurs işi, 03/08/2015 əlavə edildi

    Krasnodar diyarının tikinti sənayesinin xüsusiyyətləri. Mənzil tikintisinin inkişafının proqnozu. Klaster analizinin müasir üsulları və vasitələri. Müəssisənin iqtisadi vəziyyətinin diaqnostikası üçün çoxölçülü statistik üsullar.

    dissertasiya, 20/07/2015 əlavə edildi

    Bryansk vilayətinin nümunəsində ipoteka kreditləşməsinin xüsusiyyətləri. Riyazi qərarların qəbulu üsullarının nəzərdən keçirilməsi: ekspert qiymətləndirmələri, ardıcıl və cüt müqayisələr, iyerarxiya təhlili. Optimal ipoteka krediti üçün axtarış proqramının hazırlanması.

    kurs işi, 29/11/2012 əlavə edildi

    Sistem təhlilinin tətbiqi sahələri, onun yeri, rolu, məqsəd və funksiyaları müasir elm. Sistem təhlili metodlarının anlayışı və məzmunu, onun qeyri-rəsmi üsulları. Evristik və ekspert tədqiqat metodlarının xüsusiyyətləri və onların tətbiqi xüsusiyyətləri.

    kurs işi, 20/05/2013 əlavə edildi

    İqtisadi məlumatların xüsusiyyətlərini nəzərə almaqla və tələbata uyğun olaraq ekonometrik metodların işlənib hazırlanması və tədqiqi iqtisadiyyat və təcrübələr. İqtisadi məlumatların statistik təhlili üçün ekonometrik metodların və modellərin tətbiqi.

Universitet: VZFEI

İl və şəhər: Moskva 2008


1. Giriş. Klaster analizi metodu anlayışı.

2. Klaster analizinin tətbiqi metodologiyasının təsviri. Problemin həllinə nəzarət nümunəsi.

4. İstifadə olunmuş ədəbiyyatların siyahısı

  1. Giriş. Klaster analizi metodu anlayışı.

Klaster təhlili çoxölçülü müşahidələri təsnif etməyə imkan verən metodlar məcmusudur, onların hər biri X1, X2, ..., Xk xüsusiyyətlər (parametrlər) dəsti ilə təsvir olunur.

Klaster analizinin məqsədi adətən klasterlər (sinf, takson, konsentrasiya) adlanan bir-birinə bənzər obyektlər qruplarının formalaşmasıdır.

Klaster analizi statistik tədqiqatların sahələrindən biridir. Kütləvi hadisələrin və proseslərin öyrənilməsi ilə əlaqəli olan elm sahələrində xüsusilə mühüm yer tutur. Klaster təhlili metodlarının işlənib hazırlanması və onlardan istifadə edilməsi zərurəti ondan irəli gəlir ki, onlar elmi əsaslandırılmış təsnifatların qurulmasına, müəyyənləşdirilməsinə kömək edir. daxili kommunikasiyalar müşahidə edilən əhalinin vahidləri arasında. Bundan əlavə, statistik məlumat axınının daimi artması və mürəkkəbliyi şəraitində mühüm amil olan məlumatı sıxışdırmaq üçün klaster təhlili üsullarından istifadə edilə bilər.

Klaster analiz metodları aşağıdakı problemləri həll etməyə imkan verir:

Obyektlərin mahiyyətini, təbiətini əks etdirən xüsusiyyətləri nəzərə almaqla, onların təsnifatının aparılması. Belə bir problemin həlli, bir qayda olaraq, təsnif edilən obyektlərin məcmusu haqqında biliklərin dərinləşməsinə səbəb olur;

Öyrənilən obyektlər toplusunda hansısa strukturun olması ilə bağlı irəli sürülən fərziyyələrin yoxlanılması, yəni. mövcud strukturun axtarışı;

Populyasiya daxilində əlaqələrin mövcudluğunu müəyyən etmək və ona struktur daxil etməyə çalışmaq lazım gəldikdə, zəif öyrənilmiş hadisələr üçün yeni təsnifatların qurulması (1. s. 85-86).

2. Klaster analizinin tətbiqi metodologiyasının təsviri. Problemin həllinə nəzarət nümunəsi.

Klaster təhlili k xüsusiyyəti ilə xarakterizə olunan n obyektdən homojen qruplara (klasterlərə) bölünmə yaratmağa imkan verir. Obyektlərin homojenliyi p(xi xj) məsafəsi ilə müəyyən edilir, burada xi = (xi1, …., xik) və xj= (xj1,…,xjk) i-nin k atributlarının qiymətlərindən ibarət vektorlardır. -ci və j-ci obyektlər.

Ədədi xüsusiyyətləri ilə xarakterizə olunan obyektlər üçün məsafə aşağıdakı düsturla müəyyən edilir:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Əgər p(xi xj) olarsa, obyektlər homojen sayılır.< p предельного.

Birliyin qrafik təsviri klaster birliyi ağacından - dendroqramdan istifadə etməklə əldə edilə bilər. (2. Fəsil 39).

Test işi (misal 92).

Satışların həcmi

Gəlin bu obyektləri “yaxın qonşu” prinsipindən istifadə edərək təsnif edək. (1)* düsturu ilə obyektlər arasındakı məsafələri tapaq. Gəlin cədvəli dolduraq.

Cədvəlin necə doldurulduğunu izah edək.

i sətir və j sütununun kəsişməsində p(xi xj) məsafəsi göstərilir (nəticə iki onluq yerə yuvarlaqlaşdırılır).

Məsələn, 1-ci sətirlə 3-cü sütunun kəsişməsində p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10 məsafəsi, 3-cü sıra ilə sütunun kəsişməsində isə məsafə göstərilir. 5, məsafə p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. p(xi, xj) = p(xj,xi) olduğundan cədvəlin aşağı hissəsinin doldurulmasına ehtiyac yoxdur.

Gəlin “yaxın qonşu” prinsipini tətbiq edək. Cədvəldə məsafələrin ən kiçikini tapırıq (əgər onlardan bir neçəsi varsa, onlardan hər hansı birini seçirik). Bu p 1.2 ≈ p 4.5 \u003d 2.24. p min = p 4,5 = 2,24 olsun. Sonra 4 və 5-ci obyektləri bir qrupda birləşdirə bilərik, yəni birləşdirilmiş sütun 4 və 5 orijinal məsafə cədvəlinin 4 və 5-ci sütunlarının müvafiq nömrələrinin ən kiçikini ehtiva edəcəkdir. 4 və 5-ci sətirlərlə də eyni şeyi edirik. Yeni bir cədvəl alırıq.

Alınan cədvəldə məsafələrin ən kiçikini tapırıq (əgər onlardan bir neçəsi varsa, onda biz onlardan hər hansı birini seçəcəyik): р min = р 1,2 = 2,24. Sonra 1,2,3-cü obyektləri bir qrupda birləşdirə bilərik, yəni birləşdirilmiş sütun 1,2,3 əvvəlki məsafə cədvəlinin 1 və 2 və 3-cü sütunlarının müvafiq nömrələrinin ən kiçikini ehtiva edəcəkdir. 1 və 2 və 3-cü sətirlərlə də eyni şeyi edirik. Yeni bir cədvəl alırıq.

İki klaster aldıq: (1,2,3) və (4,5).

3. Nəzarət işi üçün problemlərin həlli.

Problem 85.

Şərtlər: Beş istehsal obyekti iki əlamətlə xarakterizə olunur: satış həcmi və əsas fondların orta illik dəyəri.

Satışların həcmi

Orta illik xərcəsas istehsal fondları

Həll:(1)* düsturu ilə obyektlər arasındakı məsafələri tapaq (iki onluq yerə yuvarlaqlaşdıracağıq):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1.2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3.61

p 1.3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5.83

p 2.2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2.3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2.24

p 3.4 \u003d √ (7-12) 2 + (10-8) 2 ≈5.39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

Hesablamaların nəticələrinə əsasən cədvəli doldururuq:

Ən yaxın qonşu prinsipini tətbiq edək. Bunu etmək üçün cədvəldə məsafələrin ən kiçikini tapırıq (əgər onlardan bir neçəsi varsa, onlardan hər hansı birini seçin). Bu p 2.3=2.24-dür. p min = p 2.3 = 2.24 olsun, onda biz "2" və "3" sütunlarının obyektlərini birləşdirə bilərik, həmçinin "2" və "3" obyektlərinin sıralarını birləşdirə bilərik. Yeni cədvəldə orijinal cədvəldən ən kiçik dəyərləri birləşdirilmiş qruplara daxil edirik.

Yeni cədvəldə məsafələrin ən kiçikini tapırıq (əgər onlardan bir neçəsi varsa, onlardan hər hansı birini seçirik). Bu p 4.5=3.16-dır. p min = p 4.5 = 3.16 olsun, onda biz "4" və "5" sütunlarının obyektlərini birləşdirə bilərik, həmçinin "4" və "5" obyektlərinin sıralarını birləşdirə bilərik. Yeni cədvəldə orijinal cədvəldən ən kiçik dəyərləri birləşdirilmiş qruplara daxil edirik.

Yeni cədvəldə məsafələrin ən kiçikini tapırıq (əgər onlardan bir neçəsi varsa, onlardan hər hansı birini seçirik). Bunlar p 1, 2 və 3=3,61-dir. Qoy p min = p 1, 2 və 3 = 3.61, onda biz "1" və "2 və 3" sütun obyektlərini birləşdirə və həmçinin sıraları birləşdirə bilərik. Yeni cədvəldə orijinal cədvəldən ən kiçik dəyərləri birləşdirilmiş qruplara daxil edirik.

İki klaster alırıq: (1,2,3) və (4,5).

Dendroqram elementlərin seçilmə qaydasını və müvafiq minimum məsafələri pmin göstərir.

Cavab:“Ən yaxın qonşu” prinsipi üzrə klaster analizi nəticəsində bir-birinə oxşar obyektlərin 2 klasteri formalaşır: (1,2,3) və (4,5).

Məsələ 211.

Şərtlər: Beş istehsal obyekti iki əlamətlə xarakterizə olunur: satış həcmi və əsas fondların orta illik dəyəri.

Satışların həcmi

Əsas istehsal fondlarının orta illik dəyəri

Ən yaxın qonşu prinsipindən istifadə edərək bu obyektləri təsnif edin.

Həll: Problemi həll etmək üçün məlumatları orijinal cədvəldə təqdim edirik. Cisimlər arasındakı məsafələri təyin edək. Biz obyektləri “ən yaxın qonşu” prinsipinə görə təsnif edəcəyik. Nəticələr dendroqram şəklində təqdim olunur.

Satışların həcmi

Əsas istehsal fondlarının orta illik dəyəri

Formula (1)* istifadə edərək, obyektlər arasındakı məsafələri tapırıq:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2 ,3 = 7,07, p 2,4 = 2, p 2,5 = 3,32, p = 3,32, p. 0, p 3.4 = 5.10, p 3.5 = 4.12, p 4 ,4=0, p4.5=1, p5.5=0.

Nəticələr cədvəldə təqdim olunur:

Cədvəldəki məsafələrin ən kiçik qiyməti p 4.5=1-dir. p min = p 4.5 = 1 olsun, onda biz "4" və "5" sütunlarının obyektlərini birləşdirə bilərik, həmçinin "4" və "5" obyektlərinin sıralarını birləşdirə bilərik. Yeni cədvəldə orijinal cədvəldən ən kiçik dəyərləri birləşdirilmiş qruplara daxil edirik.

Yeni cədvəldə məsafələrin ən kiçik qiyməti p 2, 4 və 5=2-dir. p min = p 2, 4 və 5=2 olsun, onda biz "4 və 5" və "3" sütunlarının obyektlərini birləşdirə bilərik, həmçinin "4 və 5" və "3" obyektlərinin sıralarını birləşdirə bilərik. Yeni cədvəldə cədvəldən ən kiçik dəyərləri birləşdirilmiş qruplara daxil edirik.

Yeni cədvəldə məsafələrin ən kiçik qiyməti p 3,4,5=2-dir. p min = p 3,4,5=2 olsun, onda biz “3,4,5” və “2” sütunlarının obyektlərini birləşdirə bilərik, həmçinin “3,4,5” və “ obyektlərinin sıralarını birləşdirə bilərik. 2". Yeni cədvəldə cədvəldən ən kiçik dəyərləri birləşdirilmiş qruplara daxil edirik.

və ya sayta daxil olun.

Vacibdir! Pulsuz yükləmək üçün təqdim olunan bütün test sənədləri öz elmi işiniz üçün plan və ya əsas hazırlamaq üçün nəzərdə tutulub.

Dostlar! Sizdə var unikal imkan sizin kimi tələbələrə kömək edin! Saytımız tapmaqda sizə kömək etsəydi düzgün iş, onda siz əlavə etdiyiniz işin başqalarının işini necə asanlaşdıra biləcəyini şübhəsiz başa düşürsünüz.

Nəzarət işləyirsə, sizcə, Pis keyfiyyətli, ya da bu işlə artıq tanış olmusunuz, bu barədə bizə məlumat verin.

KLASTER TƏHLİLİNƏ baxın. Antinazi. Sosiologiya Ensiklopediyası, 2009 ... Sosiologiya ensiklopediyası

klaster analizi- bu, hər biri müəyyən dəyişənlər dəsti ilə təsvir olunan çoxölçülü müşahidələri təsnif etməyə imkan verən metodlar toplusudur. Klaster analizinin məqsədi, ümumiyyətlə ... adlandırılan bir-birinə bənzər obyektlər qruplarının formalaşmasıdır ... Sosioloji lüğət Socium

klaster analizi- bir sıra obyektləri (məsələn, subyektləri) xarakterizə edən göstəricilər toplusu əsasında onları bir sinifə daxil olan obyektlərin daha çox olması üçün onları siniflərə (klasterlərə) qruplaşdırmağa imkan verən çoxölçülü analiz üçün riyazi prosedur. .. ... Böyük Psixoloji Ensiklopediya

Klaster Analizi- hər hansı bir çoxluğun hər bir obyektinə (məsələn, mövzuya) xas olan bir neçə xüsusiyyətlərin kəmiyyət qiymətlərinin oxşarlığına əsaslanaraq, bu obyektləri müəyyən siniflərə və ya klasterlərə qruplaşdırmağa imkan verən riyazi prosedur ... . .. Psixoloji lüğət

klaster analizi- - [L.G. Sumenko. İngilis Rus İnformasiya Texnologiyaları Lüğəti. M.: GP TsNIIS, 2003.] Mövzular İnformasiya texnologiyalarıümumi EN klaster təhlili ... Texniki Tərcüməçinin Təlimatı

klaster analizi- * klaster təhlili * klaster təhlili və ya məlumatların klasterləşdirilməsi obyektlərin seçimi haqqında məlumatları ehtiva edən məlumatları toplayan və sonra obyektləri nisbətən homojen qruplar qruplarına (Q ... ... Genetika. ensiklopedik lüğət

klaster analizi- Riyaziyyatda bu məqalənin təkmilləşdirilməsi arzuolunandırmı?: Haşiyələr qoyaraq, mənbələri daha dəqiq göstərin. Məqaləni Vikipediyanın üslub qaydalarına uyğun olaraq düzəldin. Təkrar emalı ... Vikipediya

KLASTER TƏHLİL- - bir sıra obyektləri (məsələn, subyektləri) xarakterizə edən göstəricilər toplusu əsasında onları siniflərə (klasterlərə) qruplaşdırmağa imkan verən çoxölçülü təhlilin riyazi proseduru, beləliklə, bir sinfə daxil olan obyektlər daha çox...... Psixologiya və Pedaqogika Ensiklopedik lüğəti

KLASTER TƏHLİL - Ümumi ad mürəkkəb verilənlərdə dərin strukturun müəyyən edilməsi üçün müxtəlif riyazi üsullar üçün. Klaster təhlili bir çox cəhətdən faktor analizinə bənzəyir. Hər ikisi vahid elementlərin (amillər və ya klasterlər) axtarışını əhatə edir ki... ... Psixologiyanın izahlı lüğəti

KLASTER TƏHLİL- (klaster analizi) məlumat toplusunda nisbi fərq göstərə bilən obyektlər və ya insanlar qruplarını müəyyən etmək üçün istifadə olunan texnika. Sonra hər qrup daxilində belə insanların xüsusiyyətləri öyrənilir. Bazar araşdırmasında ...... Böyük izahlı sosioloji lüğət

KLASTER TƏHLİL- (KLASTER ANALİZİ) Çox dəyişənlərə aid tədqiqat məlumatlarının təhlili zamanı məlumatların daxili strukturunu müəyyən etmək üçün istifadə olunan statistik üsullar qrupu. Klaster analizinin məqsədi obyekt qruplarını müəyyən etməkdir ... ... sosioloji lüğət

Bu kitab çoxölçülü proseslərin və hadisələrin bu mənada təhlilinə ən perspektivli yanaşmalardan yalnız birinə - klaster təhlilinə həsr edilmişdir.

Klaster analizi çoxölçülü obyektlərin qruplaşdırılması üsuludur, fərdi müşahidələrin nəticələrinin uyğun həndəsi fəzanın nöqtələri üzrə təqdim edilməsinə əsaslanan, sonra qrupların bu nöqtələrin “toplanması” kimi seçilməsidir. Əslində, "klaster" (klaster). Ingilis dili və “laxta”, “üzüm salxımı”, “çulluq (ulduz)” və s. deməkdir. Bu termin elmi terminologiyaya qeyri-adi dərəcədə uyğun gəlir, çünki onun birinci hecası ənənəvi “sinf” termininə, ikincisi isə, sanki onun süni mənşəyindən xəbər verir. Şübhə etmirik ki, klaster təhlili terminologiyası əvvəllər bu məqsədlə istifadə edilmiş bütün konstruksiyaları (nəzarətsiz nümunənin tanınması, təbəqələşmə, taksonomiya, avtomatik təsnifat və s.) əvəz edəcəkdir. Klaster təhlilinin potensial imkanları, məsələn, oxşar şəraitdə və ya oxşar nəticələrlə fəaliyyət göstərən müəssisə qruplarının, həyatın və ya ümumiyyətlə həyat tərzinin müxtəlif aspektlərində əhalinin homojen qruplarının müəyyən edilməsi problemlərinin həlli üçün açıqdır.

Elmi istiqamət kimi 60-cı illərin ortalarında klaster təhlili özünü elan etdi və o vaxtdan statistika elminin ən intensiv yüksəlişinin qollarından biri olmaqla sürətlə inkişaf edir. Təkcə onu demək kifayətdir ki, bu günə qədər müxtəlif ölkələrdə çap olunmuş klaster təhlili üzrə yalnız monoqrafiyaların sayı yüzlərlə ölçülür (halbuki, deyək ki, çoxvariantlı statistik təhlilin belə “ləyaqətli” metoduna görə). faktor təhlili, bir neçə onlarla kitabı saymaq çətin ki). Və bu olduqca başa düşüləndir. Axı biz əslində təkcə statistikada deyil, ümumiyyətlə, həm idrakda, həm də qərar qəbuletmədə ən vacib olanlardan biri olan qruplaşdırma əməliyyatının modelləşdirilməsindən gedir.

Ölkəmizdə klaster analizindən istifadə etməklə konkret sosial-iqtisadi problemlərin tədqiqinə (1), sosial-iqtisadi tədqiqatlarda klaster təhlilindən istifadə metodologiyasına (2), klaster təhlilinin bu kimi metodologiyasına (2) həsr olunmuş bir sıra monoqrafiyalar nəşr edilmişdir. 3) (Statistik təhlilin əsasları)

İ.D.Mandelin təklif etdiyi kitab, sanki, bu təsnifata perpendikulyardır: onun məzmunu bu üç sahənin hər biri ilə bağlıdır.

Kitabın məqsədi ümumiləşdirməkdir ən müasir klaster təhlili, onun istifadə imkanlarını və gələcək inkişaf vəzifələrini təhlil edin. Bu fikir özlüyündə hörmət oyatmaya bilməz: qərəzsiz təhlil və ümumiləşdirmə çox iş, erudisiya, cəsarət tələb edir və elmi ictimaiyyət tərəfindən öz dizaynlarının təbliği və inkişafından xeyli aşağı qiymətləndirilir. (Lakin kitabda müəllifin “intensial” təhlil və təsnifatların ikililiyi ilə bağlı orijinal inkişafları da var).

Kitabın həm üstünlükləri, həm də çatışmazlıqları bu məqsədin reallaşması ilə bağlıdır. Üstünlüklərə aşağıdakılar daxil edilməlidir:

· hadisələrin və proseslərin çoxölçülülüyünü nəzərə almaqla homojenlik, qruplaşdırma və təsnifat anlayışlarının metodoloji öyrənilməsi;

· klaster analizinin yanaşma və üsullarının sistematik nəzərdən keçirilməsi (150-yə qədər xüsusi alqoritm daxil olmaqla);

· klaster analizi prosedurlarının eksperimental müqayisəsi texnologiyasının və nəticələrinin təqdimatı; Bu kitab çoxölçülü proseslərin və hadisələrin bu mənada təhlilinə ən perspektivli yanaşmalardan yalnız birinə - klaster təhlilinə həsr edilmişdir.

Klaster analizi çoxölçülü obyektlərin qruplaşdırılması üsuludur, fərdi müşahidələrin nəticələrinin uyğun həndəsi fəzanın nöqtələri üzrə təqdim edilməsinə əsaslanan, sonra qrupların bu nöqtələrin “toplanması” kimi seçilməsidir. Əslində, ingilis dilində “klaster” (klaster) “laxta”, “üzüm salxımı”, “çoxluq (ulduz)” və s. deməkdir. Bu termin elmi terminologiyaya qeyri-adi dərəcədə uyğun gəlir, çünki onun ilk hecası ənənəvi hecaya uyğundur. "sinf" termini, ikincisi isə, sanki, onun süni mənşəyini göstərir. Şübhə etmirik ki, klaster təhlili terminologiyası əvvəllər bu məqsədlə istifadə edilmiş bütün konstruksiyaları (nəzarətsiz nümunənin tanınması, təbəqələşmə, taksonomiya, avtomatik təsnifat və s.) əvəz edəcəkdir. Klaster təhlilinin potensial imkanları, məsələn, oxşar şəraitdə və ya oxşar nəticələrlə fəaliyyət göstərən müəssisə qruplarının, həyatın və ya ümumiyyətlə həyat tərzinin müxtəlif aspektlərində əhalinin homojen qruplarının müəyyən edilməsi problemlərinin həlli üçün açıqdır.

Elmi istiqamət kimi 60-cı illərin ortalarında klaster təhlili özünü elan etdi və o vaxtdan statistika elminin ən intensiv yüksəlişinin qollarından biri olmaqla sürətlə inkişaf edir. Təkcə onu demək kifayətdir ki, klaster təhlili, inkişafı ilə bağlı yalnız bir sıra monoqrafiyalar ümumi sxemlər kifayət qədər illüstrativ cədvəllərdə həyata keçirilən klaster təhlili metodlarından istifadə; təqdimatın tövsiyə xarakterli olması.

Bu üstünlüklər İ. D. Mandelin kitabının digər nəşrlər arasında müstəqil yerini müəyyənləşdirir.

Kitabın çatışmazlıqları bəzi tövsiyələrin qeyri-müəyyənliyi və fənn sosial-iqtisadi tətbiqlərində klaster təhlili metodlarından istifadə məsələlərinin sistemli təhlilinin olmamasıdır. Düzdür, sonuncu bu sahədə klaster təhlilindən kifayət qədər istifadə edilməməsi ilə bağlıdır.

Kitab bir tramplin təqdim edir, onun istifadəsi hər hansı bir nəzəriyyənin ən çətin məsələsində - təqdim etdiyi vasitələrdən praktik istifadədə irəliləyişə kömək edir.

B. G. Mirkin

Tədqiqat mövzuları Yeni Qvineyada mumiyalanmış gəmiricilərin morfologiyasının təhlilindən tutmuş ABŞ senatorlarının səsverməsinin nəticələrinin öyrənilməsinə, dondurulmuş tarakanların əridildiyi zaman davranış funksiyalarının təhlilinə, coğrafi yayılmanın öyrənilməsinə qədərdir. Saskaçevanda bəzi liken növləri.

Nəşrlərin bu partlayışı klaster analizinin inkişafına və tətbiqinə böyük təsir göstərmişdir. Amma təəssüf ki, mənfi tərəfləri də var. Klaster təhlili üzrə nəşrlərin sürətlə artması istifadəçilərin qruplaşmalarının formalaşmasına və nəticədə yalnız onu yaradan qrupların istifadə etdiyi jarqonların yaradılmasına səbəb olmuşdur (Blashfield və Aldenderfer, 1978; Blashfield, 1980).

sahənin mütəxəssisləri tərəfindən jarqon formalaşması haqqında ictimai elmlər məsələn, Ward metodu ilə bağlı müxtəlif terminologiya ilə sübut olunur. Ədəbiyyatda “Vard metodu” fərqli adlanır. Onun daha azı dörd adı məlumdur: "minimum dispersiya metodu", "kvadrat xətanın cəmi metodu", "ierarxik qruplaşdırmanın minimuma endirilməsi" və "HGROUP". İlk iki ad sadəcə olaraq optimalı Uord metodu ilə müəyyən edilən kriteriyaya istinad edir, üçüncüsü isə qrupdaxili kovariasiya matrisi olan W matrisinin monotonik iz çevrilməsi olan kvadrat xətlərin cəmi ilə bağlıdır. Nəhayət, geniş istifadə olunan "HGROUP" adı məşhur bir addır kompüter proqramı, Ward metodunu həyata keçirən (Veldman, 1967).

Jarqonun formalaşması fənlərarası əlaqələrin inkişafına mane olur, mane olur effektiv müqayisə klaster analizinin müxtəlif elm sahələrində tətbiqi metodologiyası və nəticələri, lazımsız səylərə (eyni alqoritmlərin yenidən ixtirasına) gətirib çıxarır və nəhayət, yeni istifadəçilərə seçdikləri metodları dərindən başa düşməyə imkan vermir (Blashfield və aldenderfer, 1978). ). Məsələn, bir sosial elm araşdırması (Rogers və Linden, 1973) eyni məlumatlardan istifadə edərək üç müxtəlif klasterləşdirmə metodunu müqayisə etdi. Onlar bu üsulları belə adlandırdılar: “ierarxik qruplaşdırma”, “ierarxik qruplaşma və ya HCG” və “klaster analizi”. Və bu adların heç biri klasterləşdirmə metodlarına tanış deyildi. Klaster təhlili proqramlarının təcrübəsiz istifadəçisi bütün mövcud adlarla çaşqın olacaq və onları klasterləşdirmə metodlarının digər təsvirləri ilə əlaqələndirə bilməyəcək. Təcrübəli istifadəçilər tədqiqatlarını oxşar işlərlə müqayisə edərkən çətin vəziyyətdə tapacaqlar. Ola bilsin ki, ifrata varırıq, amma jarqon ciddi problemdir.

Son illərdə nəşrlərin sayına və bu metodun tətbiq olunduğu fənlərin sayına görə klaster təhlilinin inkişafı bir qədər ləngiyib. Deyə bilərik ki, hazırda psixologiya, sosiologiya, biologiya, statistika və bəziləri texniki fənlər klaster təhlili ilə əlaqədar konsolidasiya mərhələsinə daxil olun.

Klaster analizinin fəzilətlərini tərifləyən məqalələrin sayı getdikcə azalır. Eyni zamanda, nəzarət məlumatlarında müxtəlif klasterləşdirmə üsullarının tətbiqinin müqayisə edildiyi getdikcə daha çox iş var. Ədəbiyyatda tətbiqlərə daha çox diqqət yetirilmişdir. Bir çox tədqiqatlar klaster analizindən istifadə etməklə əldə edilən nəticələrin etibarlılığını yoxlamaq üçün praktiki tədbirlərin işlənib hazırlanmasına yönəlib. Bütün bunlar klasterləşmə metodlarının ağlabatan statistik nəzəriyyəsini yaratmaq üçün ciddi cəhdlərə dəlalət edir.


ZƏNG

Bu xəbəri sizdən əvvəl oxuyanlar var.
Ən son məqalələri əldə etmək üçün abunə olun.
E-poçt
ad
soyad
“Zəng”i necə oxumaq istərdiniz
Spam yoxdur