ᲖᲐᲠᲘ

არიან ისეთებიც, ვინც ამ ამბებს შენამდე კითხულობს.
გამოიწერეთ უახლესი სტატიების მისაღებად.
ელფოსტა
სახელი
გვარი
როგორ გინდა წაიკითხო ზარი
არ არის სპამი

თქვენი კარგი სამუშაოს გაგზავნა ცოდნის ბაზაში მარტივია. გამოიყენეთ ქვემოთ მოცემული ფორმა

სტუდენტები, კურსდამთავრებულები, ახალგაზრდა მეცნიერები, რომლებიც იყენებენ ცოდნის ბაზას სწავლასა და მუშაობაში, ძალიან მადლობლები იქნებიან თქვენი.

შესავალი

1. "კლასტერული ანალიზის" ისტორია

2. ტერმინოლოგია

2.1 ობიექტი და ნიშანი

2.2 მანძილი ობიექტებს შორის (მეტრული)

2.3 მტევნის სიმკვრივე და ლოკალიზაცია

2.4 მანძილი კლასტერებს შორის

3. დაჯგუფების მეთოდები

3.1 იერარქიული აგლომერაციული მეთოდების თავისებურებები

3.2 განმეორებითი კლასტერიზაციის მეთოდების მახასიათებლები

4. მახასიათებლების კლასტერირება

5. კლასტერიზაციის სტაბილურობა და ხარისხი

ბიბლიოგრაფია

შესავალი

„კლასტერული ანალიზი არის მათემატიკური მეთოდების ერთობლიობა, რომელიც შექმნილია ერთმანეთისგან შედარებით „დაშორებული“ „ახლო“ ობიექტების ჯგუფების შესაქმნელად მათ შორის მანძილების ან კავშირების (სიახლოვის ზომების) მიხედვით. მნიშვნელობით მსგავსია ტერმინების: ავტომატური. კლასიფიკაცია, ტაქსონომია, ნიმუშის ამოცნობა მასწავლებლის გარეშე“. კლასტერული ანალიზის ეს განმარტება მოცემულია სტატისტიკური ლექსიკონის უახლეს გამოცემაში. სინამდვილეში, „კლასტერული ანალიზი“ არის განზოგადებული სახელი ალგორითმების საკმაოდ დიდი ნაკრებისთვის, რომლებიც გამოიყენება კლასიფიკაციის შესაქმნელად. რამდენიმე პუბლიკაცია ასევე იყენებს ისეთ სინონიმებს კლასტერული ანალიზისთვის, როგორიცაა კლასიფიკაცია და დაყოფა. კლასტერული ანალიზი ფართოდ გამოიყენება მეცნიერებაში, როგორც ტიპოლოგიური ანალიზის საშუალება. ნებისმიერ სამეცნიერო საქმიანობაში კლასიფიკაცია არის ერთ-ერთი ფუნდამენტური კომპონენტი, რომლის გარეშეც შეუძლებელია სამეცნიერო ჰიპოთეზებისა და თეორიების აგება და შემოწმება. ამრიგად, ჩემს ნამუშევარში საჭიროდ მიმაჩნია გავითვალისწინო კლასტერული ანალიზის საკითხები (კლასტერული ანალიზის საფუძველი), ასევე გავითვალისწინო მისი ტერმინოლოგია და მოვიყვან ამ მეთოდის გამოყენების რამდენიმე მაგალითს მონაცემთა დამუშავებით ჩემს მთავარ მიზანად.

1. "კლასტერული ანალიზის" ისტორია

საშინაო და უცხოური პუბლიკაციების ანალიზი აჩვენებს, რომ კლასტერული ანალიზი გამოიყენება სხვადასხვა სამეცნიერო სფეროებში: ქიმია, ბიოლოგია, მედიცინა, არქეოლოგია, ისტორია, გეოგრაფია, ეკონომიკა, ფილოლოგია და ა.შ. ვ.ვ. ნალიმოვის წიგნი „ენის ალბათური მოდელი“ აღწერს კლასტერული ანალიზის გამოყენებას 70 ანალიტიკური ნიმუშის შესწავლისას. კლასტერული ანალიზის შესახებ ლიტერატურის უმეტესობა გაჩნდა ბოლო სამი ათწლეულის განმავლობაში, თუმცა პირველი ნაშრომები, რომლებშიც აღნიშნული იყო კლასტერული მეთოდები საკმაოდ დიდი ხნის წინ გამოჩნდა. პოლონელმა ანთროპოლოგმა კ.ჩეკანოვსკიმ წამოაყენა „სტრუქტურული კლასიფიკაციის“ იდეა, რომელიც შეიცავდა კლასტერული ანალიზის მთავარ იდეას - ობიექტების კომპაქტური ჯგუფების გამოყოფას.

1925 წელს საბჭოთა ჰიდრობიოლოგმა პ.ვ. ტერენტიევმა შეიმუშავა ეგრეთ წოდებული "კორელაციური პლეადების მეთოდი", რომელიც განკუთვნილი იყო კორელაციური მახასიათებლების დაჯგუფებისთვის. ამ მეთოდმა ბიძგი მისცა გრაფიკების გამოყენებით დაჯგუფების მეთოდების შემუშავებას. ტერმინი „კლასტერული ანალიზი“ პირველად შემოგვთავაზა ტრიონმა. სიტყვა "კლასტერი" ინგლისურიდან ითარგმნება როგორც "bunch, brush, bunch, group". ამ მიზეზით, ამ ტიპის ანალიზს თავდაპირველად ეწოდა "კლასტერული ანალიზი". 1950-იანი წლების დასაწყისში R. Lewis-ის, E. Fix-ის და J. Hodges-ის პუბლიკაციები გამოჩნდა იერარქიული კლასტერული ანალიზის ალგორითმებზე. შესამჩნევი ბიძგი კლასტერულ ანალიზზე მუშაობის განვითარებას მისცა რ.როზენბლატის მუშაობამ ამომცნობ მოწყობილობაზე (პერცეპტრონი), რომელმაც საფუძველი ჩაუყარა „თარგების ამოცნობის მასწავლებლის გარეშე“ თეორიის განვითარებას.

კლასტერიზაციის მეთოდების შემუშავების იმპულსი იყო წიგნი „რიცხობრივი ტაქსონომიის პრინციპები“, რომელიც გამოიცა 1963 წელს. ორი ბიოლოგი - რობერტ სოკალი და პიტერ სნეთი. ამ წიგნის ავტორები გამომდინარეობდნენ იქიდან, რომ ეფექტური ბიოლოგიური კლასიფიკაციის შესაქმნელად, კლასტერიზაციის პროცედურამ უნდა უზრუნველყოს შესასწავლი ორგანიზმების დამახასიათებელი სხვადასხვა ინდიკატორების გამოყენება, შეაფასოს ამ ორგანიზმებს შორის მსგავსების ხარისხი და უზრუნველყოს მსგავსი ორგანიზმების განლაგება. იმავე ჯგუფში. ამ შემთხვევაში ჩამოყალიბებული ჯგუფები საკმარისად „ლოკალური“ უნდა იყოს, ე.ი. ობიექტების (ორგანიზმების) მსგავსება ჯგუფებში უნდა აღემატებოდეს ჯგუფების მსგავსებას ერთმანეთთან. გამოვლენილი ჯგუფების შემდგომი ანალიზი, ავტორების აზრით, შეუძლია გარკვევას, შეესაბამება თუ არა ეს ჯგუფები სხვადასხვა ბიოლოგიურ სახეობებს. ამრიგად, სოკალმა და სნეთმა ჩათვალეს, რომ ობიექტების ჯგუფებად განაწილების სტრუქტურის გამოვლენა ხელს უწყობს ამ სტრუქტურების ფორმირების პროცესის დადგენას. ხოლო სხვადასხვა მტევნის (ჯგუფების) ორგანიზმების განსხვავება და მსგავსება შეიძლება გახდეს საფუძველი მიმდინარე ევოლუციური პროცესის გასაგებად და მისი მექანიზმის გასარკვევად.

იმავე წლებში მრავალი ალგორითმი შემოგვთავაზეს ისეთი ავტორების მიერ, როგორებიც არიან J. McKean, G. Ball და D. Hall k-means მეთოდების გამოყენებით; G. Lance and W. Williams, N. Jardine და სხვები - იერარქიულ მეთოდებზე. კასეტური ანალიზის მეთოდების შემუშავებაში მნიშვნელოვანი წვლილი შეიტანეს ადგილობრივმა მეცნიერებმა - E.M. Braverman, A.A. Dorofeyuk, I.B. Muchnik, L.A. Rastrigin, Yu.I. კერძოდ, 60-70-იან წლებში. ნოვოსიბირსკის მათემატიკოსების N.G. Zagoruiko, V.N. Elkina და G.S. Lbov-ის მიერ შემუშავებული მრავალი ალგორითმი დიდი პოპულარობით სარგებლობდა. ეს არის ისეთი ცნობილი ალგორითმები, როგორიცაა FOREL, BIGFOR, KRAB, NTTP, DRET, TRF და ა.შ. ამ პაკეტების საფუძველზე შეიქმნა სპეციალიზებული OTEX პროგრამული პაკეტი. არანაკლებ საინტერესო პროგრამული პროდუქტები PPSA და Klass-Master შექმნეს მოსკოვის მათემატიკოსებმა S.A. Aivazyan, I.S. Enyukov და B.G. Mirkin.

გარკვეულწილად, კლასტერული ანალიზის მეთოდები ხელმისაწვდომია ყველაზე ცნობილ შიდა და უცხოურ სტატისტიკურ პაკეტებში: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS. , GENSTAT, S -PLUS და ა.შ. რა თქმა უნდა, ამ მიმოხილვის გამოქვეყნებიდან 10 წლის შემდეგ, საკმაოდ ბევრი რამ შეიცვალა, გამოჩნდა მრავალი სტატისტიკური პროგრამის ახალი ვერსია და გამოჩნდა სრულიად ახალი პროგრამები, რომლებიც იყენებენ როგორც ახალ ალგორითმებს, ასევე მნიშვნელოვნად გაზრდილ სიმძლავრეს. კომპიუტერული მეცნიერება. თუმცა, სტატისტიკური პაკეტების უმეტესობა იყენებს 60-70-იან წლებში შემოთავაზებულ და შემუშავებულ ალგორითმებს.

ექსპერტების უხეში შეფასებით, კლასტერული ანალიზისა და მისი გამოყენების შესახებ პუბლიკაციების რაოდენობა ცოდნის სხვადასხვა დარგში ყოველ სამ წელიწადში ორმაგდება. რა არის ამ ტიპის ანალიზისადმი ასეთი მშფოთვარე ინტერესის მიზეზები? ობიექტურად, ამ ფენომენის სამი ძირითადი მიზეზი არსებობს. ეს არის ძლიერი გამოთვლითი ტექნოლოგიის გაჩენა, რომლის გარეშეც რეალური მონაცემების კლასტერული ანალიზი პრაქტიკულად შეუძლებელია. მეორე მიზეზი არის ის, რომ თანამედროვე მეცნიერება სულ უფრო მეტად ეფუძნება კლასიფიკაციას მის კონსტრუქციებში. უფრო მეტიც, ეს პროცესი სულ უფრო ღრმავდება, ვინაიდან ამის პარალელურად ხდება ცოდნის მზარდი სპეციალიზაცია, რაც საკმარისად ობიექტური კლასიფიკაციის გარეშე შეუძლებელია.

მესამე მიზეზი - სპეციალური ცოდნის გაღრმავება აუცილებლად იწვევს გარკვეული ობიექტებისა და ფენომენების ანალიზისას გათვალისწინებული ცვლადების რაოდენობის ზრდას. შედეგად, სუბიექტური კლასიფიკაცია, რომელიც ადრე ეყრდნობოდა მხედველობაში საკმაოდ მცირე რაოდენობის მახასიათებლებს, ხშირად აღმოჩნდება არასანდო. და ობიექტური კლასიფიკაცია, ობიექტის მახასიათებლების მუდმივად მზარდი ნაკრებით, მოითხოვს რთული კლასტერული ალგორითმების გამოყენებას, რომლებიც შეიძლება განხორციელდეს მხოლოდ თანამედროვე კომპიუტერების საფუძველზე. სწორედ ამ მიზეზებმა წარმოშვა „კლასტერული ბუმი“. თუმცა, ექიმებსა და ბიოლოგებს შორის კლასტერული ანალიზი ჯერ კიდევ არ გახდა საკმაოდ პოპულარული და გავრცელებული კვლევის მეთოდი.

2 ტერმინოლოგია

2. 1 ობიექტი და ნიშანი

ჯერ შემოვიღოთ ისეთი ცნებები, როგორიცაა ობიექტი და ნიშანი. ობიექტი - ლათინური objectum-დან - სუბიექტი. ქიმიასა და ბიოლოგიასთან მიმართებაში ობიექტებში ვიგულისხმებთ კვლევის კონკრეტულ საგნებს, რომლებიც შესწავლილია ფიზიკური, ქიმიური და სხვა მეთოდების გამოყენებით. ასეთი ობიექტები შეიძლება იყოს, მაგალითად, ნიმუშები, მცენარეები, ცხოველები და ა.შ. მკვლევარის შესასწავლად ხელმისაწვდომ ობიექტთა გარკვეულ კრებულს ეწოდება ნიმუში, ან ნიმუშის ნაკრები. ასეთ პოპულაციაში ობიექტების რაოდენობას ჩვეულებრივ უწოდებენ ნიმუშის ზომას. როგორც წესი, ნიმუშის ზომა აღინიშნება ლათინური ასოებით "n" ან "N".

ნიშანი (სინონიმები - თვისება, ცვლადი, დამახასიათებელი; ინგლისური - ცვლადი - ცვლადი.) - ობიექტის სპეციფიკური თვისებაა. ეს თვისებები შეიძლება გამოიხატოს როგორც რიცხვითი ან არა რიცხვითი მნიშვნელობები. მაგალითად, არტერიული წნევა (სისტოლური ან დიასტოლური) იზომება ვერცხლისწყლის მილიმეტრებში, წონა კილოგრამებში, სიმაღლე სანტიმეტრებში და ა.შ. ასეთი ნიშნები რაოდენობრივია. ამ უწყვეტი რიცხვითი მახასიათებლებისგან (მასშტაბები) განსხვავებით, რიგ მახასიათებლებს შეიძლება ჰქონდეს დისკრეტული, წყვეტილი მნიშვნელობები. თავის მხრივ, ასეთი დისკრეტული მახასიათებლები ჩვეულებრივ იყოფა ორ ჯგუფად.

1) პირველი ჯგუფი არის რანგის ცვლადები, ან როგორც მათ ასევე უწოდებენ რიგით ცვლადებს (სკალებს). ასეთი ნიშნები ხასიათდება ამ მნიშვნელობების შეკვეთის თვისებით. ეს მოიცავს კონკრეტული დაავადების ეტაპებს, ასაკობრივ ჯგუფებს, მოსწავლეთა ცოდნის ქულებს, რიხტერის 12-ბალიანი მიწისძვრის მასშტაბებს და ა.შ.

2) დისკრეტული ნიშნების მეორე ჯგუფს არ გააჩნია ასეთი რიგი და ეწოდება ნომინალური (სიტყვიდან „ნომინალური“ – ნიმუში) ან კლასიფიკაციის ნიშნები. ასეთი ნიშნების მაგალითი შეიძლება იყოს პაციენტის მდგომარეობა - "ჯანმრთელი" ან "ავადმყოფი", პაციენტის სქესი, დაკვირვების პერიოდი - "მკურნალობამდე" და "მკურნალობის შემდეგ" და ა.შ. ამ შემთხვევებში, ჩვეულებრივად უნდა ითქვას, რომ ასეთი მახასიათებლები ეკუთვნის სახელების მასშტაბს.

ობიექტისა და მახასიათებლის ცნებებს ჩვეულებრივ უწოდებენ "ობიექტის თვისებას" ან "ობიექტს-ფუნქციის" მატრიცას. მატრიცა იქნება მართკუთხა ცხრილი, რომელიც შედგება იმ მახასიათებლების მნიშვნელობებისგან, რომლებიც აღწერს შესასწავლი დაკვირვების ნიმუშის თვისებებს. ამ კონტექსტში, ერთი დაკვირვება ჩაიწერება, როგორც ცალკე ხაზი, რომელიც შედგება გამოყენებული მახასიათებლების მნიშვნელობებისგან. ცალკეული ატრიბუტი ასეთ მონაცემთა მატრიცაში წარმოდგენილი იქნება სვეტით, რომელიც შედგება ამ ატრიბუტის მნიშვნელობებისგან ნიმუშის ყველა ობიექტისთვის.

2. 2 მანძილი ობიექტებს შორის (მეტრიკა)

შემოვიღოთ „ობიექტებს შორის მანძილის“ ცნება. ეს კონცეფცია არის ობიექტების ერთმანეთთან მსგავსების განუყოფელი საზომი. ობიექტებს შორის მანძილი მახასიათებლების სივრცეში არის ისეთი მნიშვნელობა d ij, რომელიც აკმაყოფილებს შემდეგ აქსიომებს:

1. d ij > 0 (მანძილის არაუარყოფითობა)

2. d ij = d ji (სიმეტრია)

3. d ij + d jk > d ik (სამკუთხედის უტოლობა)

4. თუ d ij არ არის 0-ის ტოლი, მაშინ i არ არის j-ის ტოლი (არაიდენტური ობიექტების გარჩევა)

5. თუ d ij = 0, მაშინ i = j (იდენტური ობიექტების გარჩევა)

მოსახერხებელია ობიექტების სიახლოვის (მსგავსების) საზომის წარმოდგენა როგორც ორმხრივიობიექტებს შორის მანძილზე. კლასტერული ანალიზისადმი მიძღვნილი მრავალი პუბლიკაცია აღწერს 50-ზე მეტ განსხვავებულ გზას ობიექტებს შორის მანძილის გამოსათვლელად. ტერმინი „დისტანციის“ გარდა, ლიტერატურაში ხშირად გვხვდება კიდევ ერთი ტერმინი – „მეტრული“, რომელიც გულისხმობს კონკრეტული მანძილის გამოთვლის მეთოდს. რაოდენობრივი ნიშნების შემთხვევაში აღქმისა და გაგებისთვის ყველაზე ხელმისაწვდომი არის ეგრეთ წოდებული „ევკლიდური მანძილი“ ან „ევკლიდური მეტრიკა“. ამ მანძილის გამოთვლის ფორმულა არის:

ეს ფორმულა იყენებს შემდეგ აღნიშვნას:

· d ij - მანძილი i-ე და j-th ობიექტებს შორის;

· x ik - k-ე ცვლადის რიცხვითი მნიშვნელობა i-ე ობიექტისთვის;

· x jk - k-ე ცვლადის რიცხვითი მნიშვნელობა j-ე ობიექტისთვის;

· v - ცვლადების რაოდენობა, რომლებიც აღწერენ ობიექტებს.

ამრიგად, v=2 შემთხვევისთვის, როდესაც გვაქვს მხოლოდ ორი რაოდენობრივი ნიშანი, მანძილი d ij ტოლი იქნება მართკუთხა სამკუთხედის ჰიპოტენუზის სიგრძისა, რომელიც აკავშირებს ორ წერტილს მართკუთხა კოორდინატულ სისტემაში. ეს ორი წერტილი შეესატყვისება ნიმუშის i-ე და j-ე დაკვირვებებს. ხშირად, ჩვეულებრივი ევკლიდური მანძილის ნაცვლად, გამოიყენება მისი კვადრატი d 2 ij. გარდა ამისა, ზოგიერთ შემთხვევაში გამოიყენება "შეწონილი" ევკლიდური მანძილი, რომლის გაანგარიშებისას გამოიყენება წონის კოეფიციენტები ცალკეული ტერმინებისთვის. ევკლიდეს მეტრიკის კონცეფციის საილუსტრაციოდ, ჩვენ ვიყენებთ მარტივ სასწავლო მაგალითს. ქვემოთ მოცემულ ცხრილში ნაჩვენები მონაცემთა მატრიცა შედგება 5 დაკვირვებისა და ორი ცვლადისგან.

ცხრილი 1

ხუთი დაკვირვებული ნიმუშისა და ორი ცვლადის მონაცემთა მატრიცა.

ევკლიდური მეტრიკის გამოყენებით, ჩვენ ვიანგარიშებთ ობიექტთაშორისი მანძილების მატრიცას, რომელიც შედგება d ij მნიშვნელობებისგან - მანძილი i-th და j-th ობიექტებს შორის. ჩვენს შემთხვევაში, i და j არის ობიექტის რაოდენობა, დაკვირვება. ვინაიდან ნიმუშის ზომა არის 5, i და j, შესაბამისად, შეუძლიათ მიიღონ მნიშვნელობები 1-დან 5-მდე. ასევე აშკარაა, რომ ყველა შესაძლო წყვილი მანძილის რაოდენობა იქნება 5*5=25. მართლაც, პირველი ობიექტისთვის ეს იქნება შემდეგი დისტანციები: 1-1; 1-2; 1-3; 1-4; 1-5. ობიექტი 2-ისთვის ასევე იქნება 5 შესაძლო მანძილი: 2-1; 2-2; 2-3; 2-4; 2-5 და ა.შ. თუმცა, რიცხვი სხვადასხვა დისტანციებზეიქნება 25-ზე ნაკლები, ვინაიდან აუცილებელია გავითვალისწინოთ იდენტური ობიექტების განსხვავებულობის თვისება - d ij = 0 i = j-სთვის. ეს ნიშნავს, რომ მანძილი #1 ობიექტსა და იგივე #1 ობიექტს შორის იქნება ნული. იგივე ნულოვანი მანძილი იქნება ყველა სხვა შემთხვევისთვის i = j. გარდა ამისა, სიმეტრიის თვისებიდან გამომდინარეობს, რომ d ij = d ji ნებისმიერი i და j. იმათ. #1 და #2 ობიექტებს შორის მანძილი უდრის #2 და #1 ობიექტებს შორის მანძილს.

ევკლიდური მანძილის გამოთქმა ძალიან ჰგავს ეგრეთ წოდებულ განზოგადებულ მინკოვსკის სიმძლავრის მანძილს, რომელშიც გამოყენებულია სხვა მნიშვნელობა ორის ნაცვლად. ზოგადად, ეს მნიშვნელობა აღინიშნება სიმბოლოთი "p".

p = 2-ისთვის ვიღებთ ჩვეულებრივ ევკლიდეს მანძილს. ასე რომ, განზოგადებული მინკოვსკის მეტრიკის გამოხატვას აქვს ფორმა:

მაჩვენებლის „p“ კონკრეტული მნიშვნელობის არჩევას თავად მკვლევარი აკეთებს.

მინკოვსკის მანძილის განსაკუთრებული შემთხვევაა ეგრეთ წოდებული მანჰეტენის მანძილი, ან „ქალაქ-ბლოკის მანძილი“, რომელიც შეესაბამება p=1:

ამრიგად, მანჰეტენის მანძილი არის ობიექტების შესაბამისი მახასიათებლების განსხვავებების მოდულების ჯამი. თუ p მიდრეკილია უსასრულობისკენ, მივიღებთ "დომინანტური" მეტრიკას ან სუპ-მეტრულს:

რომელიც ასევე შეიძლება წარმოდგენილი იყოს როგორც d ij = max| x ik - x jk |.

მინკოვსკის მეტრიკა სინამდვილეში არის მეტრიკის დიდი ოჯახი, მათ შორის ყველაზე პოპულარული მეტრიკა. თუმცა, არსებობს ობიექტებს შორის მანძილის გამოსათვლელი მეთოდები, რომლებიც ძირეულად განსხვავდება მინკოვსკის მეტრიკებისგან. მათგან ყველაზე მნიშვნელოვანია ეგრეთ წოდებული მაჰალანობის მანძილი, რომელსაც საკმაოდ სპეციფიკური თვისებები აქვს. ამ მეტრიკის გამოხატულება:

აქ მეშვეობით X მედა X მითითებულია ცვლადი მნიშვნელობების სვეტის ვექტორები i-th და j-th ობიექტებისთვის. სიმბოლო გამოხატვისას (X მე - X ) ნიშნავს ე.წ. ვექტორის ტრანსპოზიციის ოპერაციას. სიმბოლო მითითებულია საერთო შიდაჯგუფური ვარიანს-კოვარიანსის მატრიცა. Სიმბოლო -1 ზემოთ ნიშნავს, რომ თქვენ გჭირდებათ მატრიცის ინვერსია . მინკოვსკის მეტრიკისა და ევკლიდური მეტრისგან განსხვავებით, მაჰალანობისის მანძილი დისტანცია-კოვარიანსის მატრიცის მეშვეობით დაკავშირებულია ცვლადების კორელაციასთან. როდესაც ცვლადებს შორის კორელაციები ნულის ტოლია, მაჰალანობის მანძილი უდრის ევკლიდეს მანძილის კვადრატს.

დიქოტომიური (მხოლოდ ორი მნიშვნელობის მქონე) ხარისხობრივი მახასიათებლების გამოყენების შემთხვევაში ფართოდ გამოიყენება ჰემინგის მანძილი.

უდრის i-th და j-th ობიექტების შესაბამისი მახასიათებლების მნიშვნელობებში შეუსაბამობების რაოდენობას.

2. 3 კლასტერების სიმკვრივე და ლოკალურობა

კლასტერული ანალიზის მთავარი მიზანია ნიმუშში ერთმანეთის მსგავსი ობიექტების ჯგუფების პოვნა. დავუშვათ, რომ ზოგიერთი შესაძლო მეთოდით მივიღეთ ასეთი ჯგუფები - კლასტერები. უნდა აღინიშნოს კლასტერების მნიშვნელოვანი თვისებები. ერთ-ერთი ასეთი თვისებაა წერტილების განაწილების სიმკვრივე, დაკვირვებები კლასტერში. ეს თვისება საშუალებას გვაძლევს განვსაზღვროთ კლასტერი, როგორც წერტილების კლასტერი მრავალგანზომილებიან სივრცეში, რომელიც შედარებით მკვრივია ამ სივრცის სხვა რეგიონებთან შედარებით, რომლებიც ან საერთოდ არ შეიცავს წერტილებს ან შეიცავს მცირე რაოდენობის დაკვირვებებს. სხვა სიტყვებით რომ ვთქვათ, რამდენად კომპაქტურია ეს მტევანი, ან პირიქით, რამდენად მწირია. მიუხედავად ამ ქონების საკმარისი მტკიცებულებისა, არ არსებობს ცალსახა გზა ასეთი ინდიკატორის (სიმკვრივის) გამოსათვლელად. კომპაქტურობის, მრავალგანზომილებიანი დაკვირვებების „შეფუთვის“ სიმკვრივის დამახასიათებელი ყველაზე წარმატებული ინდიკატორი მოცემულ კლასტერში არის კასეტური ცენტრიდან კლასტერის ცალკეულ წერტილებამდე მანძილის გაფანტვა. რაც უფრო მცირეა ამ მანძილის დისპერსია, რაც უფრო ახლოს არის დაკვირვებები მტევნის ცენტრთან, მით უფრო დიდია მტევნის სიმკვრივე. და პირიქით, რაც უფრო დიდია მანძილის დისპერსია, მით უფრო მწირია ეს მტევანი და, შესაბამისად, არის წერტილები, რომლებიც მდებარეობს როგორც მტევნის ცენტრთან ახლოს, ასევე მტევნის ცენტრიდან საკმაოდ დაშორებული.

კლასტერების შემდეგი თვისება მათი ზომაა. მტევნის ზომის მთავარი მაჩვენებელი მისი „რადიუსია“. ეს თვისება ყველაზე სრულად ასახავს მტევნის რეალურ ზომას, თუ განხილული კლასტერი არის მრგვალი და ჰიპერსფერული მრავალგანზომილებიან სივრცეში. თუმცა, თუ კლასტერებს აქვთ წაგრძელებული ფორმები, მაშინ რადიუსის ან დიამეტრის კონცეფცია აღარ ასახავს მტევნის ნამდვილ ზომას.

კლასტერის კიდევ ერთი მნიშვნელოვანი თვისებაა მათი ლოკალურობა, განცალკევება. იგი ახასიათებს მტევნის ერთმანეთისგან გადახურვისა და ურთიერთდაშორების ხარისხს მრავალგანზომილებიან სივრცეში. მაგალითად, განვიხილოთ სამი კლასტერის განაწილება ახალი, ინტეგრირებული ფუნქციების სივრცეში ქვემოთ მოცემულ ფიგურაში. 1 და 2 ღერძი მიღებულ იქნა სპეციალური მეთოდით ერითროციტების სხვადასხვა ფორმის ამრეკლავი თვისებების 12 მახასიათებლიდან, შესწავლილი ელექტრონული მიკროსკოპის გამოყენებით.

სურათი 1

ჩვენ ვხედავთ, რომ 1 კლასტერს აქვს მინიმალური ზომა, ხოლო 2 და 3 კლასტერებს აქვთ დაახლოებით თანაბარი ზომები. ამავდროულად, შეგვიძლია ვთქვათ, რომ მინიმალური სიმკვრივე და, შესაბამისად, მაქსიმალური მანძილის დისპერსია, დამახასიათებელია კლასტერ 3-ისთვის. გარდა ამისა, კლასტერი 1 გამოყოფილია ცარიელი სივრცის საკმარისად დიდი მონაკვეთებით როგორც 2-დან, ასევე 3-დან. მაშინ როცა კლასტერები 2 და 3 ნაწილობრივ გადაფარავს ერთმანეთს. საინტერესოა ის ფაქტი, რომ 1 კლასტერს გაცილებით დიდი სხვაობა აქვს მე-2 და მე-3 კლასტერებისგან 1 ღერძის გასწვრივ, ვიდრე 2 ღერძის გასწვრივ. პირიქით, 2 და 3 კლასტერები დაახლოებით თანაბრად განსხვავდებიან ერთმანეთისგან, როგორც 1 ღერძის გასწვრივ, ასევე 2 ღერძების გასწვრივ. ცხადია, ასეთი ვიზუალური ანალიზისთვის აუცილებელია ნიმუშის ყველა დაკვირვება დაპროექტებული იყოს სპეციალურ ღერძებზე, რომლებშიც კასეტური ელემენტების პროგნოზები ცალკე მტევნის სახით იქნება ხილული.

2. 4 მანძილი კლასტერებს შორის

უფრო ფართო გაგებით, ობიექტები შეიძლება გავიგოთ არა მხოლოდ როგორც კვლევის ორიგინალური სუბიექტები, რომლებიც წარმოდგენილია "ობიექტი-საკუთრების" მატრიცაში, როგორც ცალკე ხაზი, ან როგორც ცალკეული წერტილები მრავალგანზომილებიან ფუნქციურ სივრცეში, არამედ როგორც ასეთი წერტილების ცალკეული ჯგუფები. , გაერთიანებულია ამა თუ იმ ალგორითმით კლასტერში. ამ შემთხვევაში ჩნდება კითხვა, როგორ გავიგოთ მანძილი წერტილების ასეთ დაგროვებას (კლასტერებს) შორის და როგორ გამოვთვალოთ იგი. ამ შემთხვევაში, შესაძლებლობების მრავალფეროვნება კიდევ უფრო დიდია, ვიდრე მრავალგანზომილებიან სივრცეში ორ დაკვირვებას შორის მანძილის გაანგარიშების შემთხვევაში. ეს პროცედურა რთულდება იმით, რომ წერტილებისგან განსხვავებით, კლასტერები იკავებენ გარკვეულ მრავალგანზომილებიან სივრცეს და შედგება მრავალი წერტილისგან. კლასტერულ ანალიზში ფართოდ გამოიყენება კლასტერთაშორისი დისტანციები, რომლებიც გამოითვლება უახლოესი მეზობლის (უახლოესი მეზობლის), სიმძიმის ცენტრის, ყველაზე შორეული მეზობლის, მედიანების პრინციპით. ყველაზე ფართოდ გამოიყენება ოთხი მეთოდი: ერთი ბმული, სრული ბმული, საშუალო ბმული და უორდის მეთოდი. ერთი ბმული მეთოდით, ობიექტი მიმაგრებული იქნება უკვე არსებულ კლასტერზე, თუ კლასტერის ერთ-ერთ ელემენტს მაინც აქვს მსგავსების იგივე დონე, როგორც შეერთებულ ობიექტს. სრული ბმულების მეთოდისთვის, ობიექტი მიმაგრებულია კლასტერზე მხოლოდ იმ შემთხვევაში, თუ ჩართვის კანდიდატსა და კლასტერის რომელიმე ელემენტს შორის მსგავსება არ არის გარკვეულ ზღვარზე ნაკლები. საშუალო კავშირის მეთოდისთვის, არსებობს რამდენიმე მოდიფიკაცია, რომლებიც გარკვეულ კომპრომისს წარმოადგენს ერთ და სრულ კავშირს შორის. ისინი გამოთვლიან კანდიდატის მსგავსების საშუალო მნიშვნელობას არსებული კლასტერის ყველა ობიექტთან. მიმაგრება ხდება მაშინ, როდესაც ნაპოვნი საშუალო მსგავსების მნიშვნელობა აღწევს ან აღემატება გარკვეულ ზღვარს. ყველაზე ხშირად გამოყენებული არის საშუალო არითმეტიკული მსგავსება კლასტერის ობიექტებსა და კლასტერში ჩართვის კანდიდატს შორის.

კლასტერიზაციის მრავალი მეთოდი ერთმანეთისგან განსხვავდება იმით, რომ მათი ალგორითმები თითოეულ საფეხურზე ითვლის სხვადასხვა დანაყოფის ხარისხის ფუნქციებს. Ward-ის პოპულარული მეთოდი აგებულია ისე, რომ ოპტიმიზაცია მოახდინოს კლასტერშიდა მანძილების მინიმალური დისპერსიაზე. პირველ საფეხურზე ყოველი კლასტერი შედგება ერთი ობიექტისგან, რის გამოც მანძილების კლასტერშიდა დისპერსია 0-ის ტოლია. ამ მეთოდით აერთიანებს ის ობიექტები, რომლებიც იძლევა დისპერსიის მინიმალურ ზრდას, რის შედეგადაც ეს მეთოდი მიდრეკილია. წარმოქმნის ჰიპერსფერულ მტევნებს.

კლასტერული ანალიზის მეთოდების კლასიფიკაციის მრავალი მცდელობა იწვევს ათობით ან თუნდაც ასობით სხვადასხვა კლასს. ასეთი მრავალფეროვნება წარმოიქმნება ინდივიდუალურ დაკვირვებებს შორის მანძილის გამოსათვლელად, არანაკლებ მეთოდების გამოთვლით ცალკეულ კლასტერებს შორის მანძილის დაგროვების პროცესში და საბოლოო კასეტური სტრუქტურის ოპტიმალურობის სხვადასხვა შეფასებით.

პოპულარულ სტატისტიკურ პაკეტებში ყველაზე ფართოდ გამოიყენება კლასტერული ანალიზის ალგორითმების ორი ჯგუფი: იერარქიული აგლომერაციული მეთოდები და განმეორებითი დაჯგუფების მეთოდები.

3. დაჯგუფების მეთოდები

3. 1 იერარქიული აგლომერატიული მეთოდების თავისებურებები

აგლომერაციულ იერარქიულ ალგორითმებში, რომლებიც უფრო ხშირად გამოიყენება რეალურ ბიოსამედიცინო კვლევაში, თავდაპირველად ყველა ობიექტი (დაკვირვება) განიხილება, როგორც ცალკეული, დამოუკიდებელი კლასტერები, რომლებიც შედგება მხოლოდ ერთი ელემენტისგან. მძლავრი კომპიუტერული ტექნოლოგიის გამოყენების გარეშე, კლასტერული მონაცემთა ანალიზის განხორციელება ძალიან პრობლემურია.

მეტრიკის არჩევანს აკეთებს მკვლევარი. მანძილის მატრიცის გაანგარიშების შემდეგ პროცესი იწყება აგლომერაციები (ლათინური აგლომეროდან - ვამაგრებ, ვაგროვებ), თანმიმდევრობით ეტაპობრივად გავლა. ამ პროცესის პირველ საფეხურზე ორი საწყისი დაკვირვება (მონოკლასტერი) მათ შორის ყველაზე მცირე მანძილით გაერთიანებულია ერთ კლასტერში, რომელიც უკვე შედგება ორი ობიექტისგან (დაკვირვებისგან). ამრიგად, ყოფილი N მონოკლასტერების (ერთი ობიექტისგან შემდგარი კლასტერების) ნაცვლად, პირველი ნაბიჯის შემდეგ იქნება N-1 მტევანი, რომელთაგან ერთი კლასტერი შეიცავს ორ ობიექტს (დაკვირვებებს), ხოლო N-2 კლასტერები კვლავ შედგება. მხოლოდ ერთი ობიექტი. მეორე საფეხურზე შესაძლებელია N-2 კლასტერების გაერთიანების სხვადასხვა მეთოდი. ეს იმიტომ ხდება, რომ ამ კლასტერებიდან ერთი უკვე შეიცავს ორ ობიექტს. ამ მიზეზით ჩნდება ორი ძირითადი კითხვა:

როგორ გამოვთვალოთ ორი (და შემდგომ ორზე მეტი) ობიექტის ასეთი კლასტერის კოორდინატები;

· როგორ გამოვთვალოთ მანძილი ამგვარ "მრავალობიექტურ" კლასტერებამდე "მონოკლასტერებიდან" და "მრავალობიექტის" კლასტერებს შორის.

საბოლოო ჯამში, ეს კითხვები განსაზღვრავს საბოლოო კლასტერების საბოლოო სტრუქტურას (კლასტერების სტრუქტურა გულისხმობს ცალკეული კლასტერების შემადგენლობას და მათ შედარებით მდებარეობას მრავალგანზომილებიან სივრცეში). მტევანთა კოორდინატებისა და ურთიერთდაშორების გამოსათვლელი მეტრიკისა და მეთოდების სხვადასხვა კომბინაცია წარმოშობს კლასტერული ანალიზის მეთოდების მრავალფეროვნებას. მეორე საფეხურზე, რამდენიმე ობიექტისგან შემდგარი კასეტური კოორდინატების გამოსათვლელად არჩეული მეთოდებისა და კლასტერთაშორისი მანძილების გამოთვლის მეთოდის მიხედვით, შესაძლებელია ორი ცალკეული დაკვირვების ხელახლა გაერთიანება ახალ კლასტერში, ან შეერთება ერთი ახალი. დაკვირვება კასეტურზე, რომელიც შედგება ორი ობიექტისგან. მოხერხებულობისთვის, აგლომერაციულ-იერარქიული მეთოდების პროგრამების უმეტესობას ნაშრომის ბოლოს შეუძლია წარმოადგინოს ორი ძირითადი გრაფიკი სანახავად. პირველ გრაფიკს ეწოდება დენდროგრამა (ბერძნულიდან dendron - ხე), რომელიც ასახავს აგლომერაციის პროცესს, ცალკეული დაკვირვებების შერწყმას ერთ საბოლოო კლასტერში. მოვიყვანოთ 5 დაკვირვების დენდროგრამის მაგალითი ორ ცვლადში.

განრიგი1

ასეთი გრაფიკის ვერტიკალური ღერძი არის კლასტერთაშორისი მანძილის ღერძი, ხოლო ობიექტების რიცხვი - ანალიზში გამოყენებული შემთხვევები - აღინიშნება ჰორიზონტალური ღერძის გასწვრივ. ამ დენდროგრამიდან ჩანს, რომ ობიექტები No1 და No2 პირველად გაერთიანებულია ერთ კლასტერში, რადგან მათ შორის მანძილი არის ყველაზე პატარა და უდრის 1-ს. გამოდის C_1 და C_2 მონიშნული პუნქტებიდან. მივაქციოთ ყურადღება, რომ თავად ჰორიზონტალური ხაზი გადის ზუსტად 1-ის ტოლი ინტერკლასტერული მანძილის დონეზე. შემდგომ, მეორე საფეხურზე, ამ კლასტერს, რომელიც უკვე მოიცავს ორ ობიექტს, უერთდება №3 ობიექტი, დანიშნული როგორც C_3. შემდეგი ნაბიჯი არის #4 და #5 ობიექტების შერწყმა, რომელთა შორის მანძილი უდრის 1,41-ს. და ბოლო საფეხურზე 1, 2 და 3 ობიექტების კლასტერი შერწყმულია 4 და 5 ობიექტების ჯგუფთან. გრაფიკი აჩვენებს, რომ მანძილი ამ ორ ბოლო კლასტერს შორის (ბოლო კლასტერი მოიცავს 5-ვე ობიექტს) 5-ზე მეტია. , მაგრამ 6-ზე ნაკლები, ვინაიდან ორი ბოლო კლასტერის დამაკავშირებელი ზედა ჰორიზონტალური ხაზი გადის დაახლოებით 7-ის ტოლ დონეზე, ხოლო 4 და 5 ობიექტების შეერთების დონე არის 1.41.

ქვემოთ მოყვანილი დენდროგრამა მიღებული იქნა რეალური მონაცემთა ნაკრების ანალიზით, რომელიც შედგება 70 დამუშავებულისგან ქიმიური ნიმუშები, რომელთაგან თითოეული 12 თვისებით გამოირჩეოდა.

დიაგრამა 2

გრაფიკიდან ჩანს, რომ ბოლო საფეხურზე, როდესაც ბოლო ორი კლასტერი ერწყმის, მათ შორის მანძილი დაახლოებით 200 ერთეულია. ჩანს, რომ პირველი კლასტერი მოიცავს ბევრად ნაკლებ ობიექტს, ვიდრე მეორე კლასტერს.ქვემოთ მოცემულია დენდროგრამის გადიდებული მონაკვეთი, რომელზედაც ნათლად ჩანს დაკვირვების ნომრები, აღინიშნება როგორც C_65, C_58 და ა.შ. (მარცხნიდან მარჯვნივ): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 და ა.შ.

დიაგრამა 3 დიაგრამის #2 გადიდებული ნაწილი ზემოთ

ჩანს, რომ ობიექტი 44 არის მონოკლასტერი, რომელიც გაერთიანებულია მარჯვენა კლასტერთან წინაბოლო საფეხურზე და შემდეგ, ბოლო საფეხურზე, ყველა დაკვირვება გაერთიანებულია ერთ კლასტერში.

კიდევ ერთი გრაფიკი, რომელიც აგებულია ასეთ პროცედურებში, არის კლასტერთაშორისი მანძილების გრაფიკი კავშირის თითოეულ საფეხურზე. ქვემოთ მოცემულია მსგავსი დიაგრამა ზემოაღნიშნული დენდროგრამისთვის.

დიაგრამა 4

რიგ პროგრამებში შესაძლებელია კლასტერიზაციის თითოეულ საფეხურზე ობიექტების გაერთიანების შედეგების ცხრილის სახით ჩვენება. ამ ცხრილების უმეტესობაში, დაბნეულობის თავიდან ასაცილებლად, სხვადასხვა ტერმინოლოგია გამოიყენება საწყისი დაკვირვებების - მონოკლასტერების და ორი ან მეტი დაკვირვებისგან შემდგარი ფაქტობრივი მტევნის აღსანიშნავად. ინგლისურენოვან სტატისტიკურ პაკეტებში თავდაპირველი დაკვირვებები (მონაცემთა მატრიცის რიგები) აღინიშნება როგორც "case" - case. კლასტერის სტრუქტურის დამოკიდებულების დემონსტრირების მიზნით მეტრიკის არჩევანზე და კასეტური კავშირის ალგორითმის არჩევაზე, ქვემოთ წარმოგიდგენთ დენდროგრამას, რომელიც შეესაბამება სრული კავშირის ალგორითმს. და აქ ჩვენ ვხედავთ, რომ ობიექტი #44 შერწყმულია დანარჩენ შერჩევასთან ბოლო ეტაპზე.

დიაგრამა 5

ახლა მოდით შევადაროთ ის სხვა დიაგრამას, რომელიც მიღებულ იქნა იმავე მონაცემებზე ერთი ბმული მეთოდის გამოყენებით. სრული კავშირის მეთოდისგან განსხვავებით, ჩანს, რომ ეს მეთოდი ქმნის ერთმანეთთან თანმიმდევრულად მიმაგრებული ობიექტების გრძელ ჯაჭვებს. თუმცა სამივე შემთხვევაში შეგვიძლია ვთქვათ, რომ ორი ძირითადი ჯგუფი გამოირჩევა.

დიაგრამა 6

ყურადღება მივაქციოთ იმასაც, რომ სამივე შემთხვევაში No44 ობიექტი უერთდება მონოკლასტერად, თუმცა კლასტერიზაციის პროცესის სხვადასხვა საფეხურზე. ასეთი მონოკლასტერების შერჩევა კარგი საშუალებაა ანომალიური დაკვირვებების გამოსავლენად, რომელსაც ე.წ. წავშალოთ ეს No44 „საეჭვო“ ობიექტი და ისევ განვახორციელოთ კლასტერირება. ჩვენ ვიღებთ შემდეგ დენდროგრამას:

დიაგრამა 7

ჩანს, რომ "ჯაჭვის" ეფექტი შენარჩუნებულია, ისევე როგორც დაყოფა დაკვირვების ორ ადგილობრივ ჯგუფად.

3. განმეორებითი კლასტერინგის მეთოდების 2 თავისებურებანი

განმეორებით მეთოდებს შორის ყველაზე პოპულარული მეთოდია მაკკეანის k-means მეთოდი. იერარქიული მეთოდებისგან განსხვავებით, ამ მეთოდის უმეტეს განხორციელებაში, მომხმარებელმა თავად უნდა მიუთითოს საბოლოო კლასტერების სასურველი რაოდენობა, რომელიც ჩვეულებრივ აღინიშნება როგორც "k". როგორც იერარქიული კლასტერიზაციის მეთოდებში, მომხმარებელს შეუძლია აირჩიოს ერთი ან სხვა ტიპის მეტრიკა. k-means მეთოდის სხვადასხვა ალგორითმები ასევე განსხვავდება მოცემული კლასტერების საწყისი ცენტრების არჩევის გზაზე. მეთოდის ზოგიერთ ვერსიაში, მომხმარებელს შეუძლია (ან უნდა) მიუთითოს ასეთი საწყისი წერტილები, ან რეალური დაკვირვებებიდან მათი შერჩევით, ან თითოეული ცვლადის ამ წერტილების კოორდინატების მითითებით. ამ მეთოდის სხვა განხორციელებისას, საწყისი წერტილების მოცემული k რიცხვის არჩევა ხდება შემთხვევით და ეს საწყისი წერტილები (კლასტერული მარცვლები) შემდგომში შეიძლება დაიხვეწოს რამდენიმე ეტაპად. ასეთი მეთოდების 4 ძირითადი ეტაპია:

· შეარჩიოს ან დაავალოს k დაკვირვება, რომელიც იქნება კლასტერების პირველადი ცენტრები;

· საჭიროების შემთხვევაში, ყალიბდება შუალედური კლასტერები ყოველი დაკვირვების მინიჭებით უახლოეს მითითებულ კლასტერულ ცენტრებზე;

· ყველა დაკვირვების ცალკეულ კლასტერებზე მინიჭების შემდეგ პირველადი კლასტერული ცენტრები იცვლება კლასტერული საშუალოებით;

· წინა გამეორება მეორდება მანამ, სანამ ცვლილებები კასეტური ცენტრების კოორდინატებში არ გახდება მინიმალური.

ამ მეთოდის ზოგიერთ ვერსიაში მომხმარებელს შეუძლია დააყენოს კრიტერიუმის რიცხვითი მნიშვნელობა, რომელიც ინტერპრეტირებულია, როგორც მინიმალური მანძილი ახალი კლასტერული ცენტრების ასარჩევად. დაკვირვება არ განიხილება კანდიდატად ახალი ცენტრიკლასტერი, თუ მისი მანძილი კლასტერის შეცვლილ ცენტრამდე აღემატება მითითებულ რაოდენობას. ამ პარამეტრს ზოგიერთ პროგრამაში "რადიუსი" ეწოდება. ამ პარამეტრის გარდა, ასევე შესაძლებელია გამეორებების მაქსიმალური რაოდენობის დაყენება ან გარკვეული, ჩვეულებრივ, საკმაოდ მცირე რიცხვის მიღწევა, რომელთანაც შედარებულია მანძილის ცვლილება ყველა კასეტური ცენტრისთვის. ამ პარამეტრს ჩვეულებრივ უწოდებენ "კონვერგენციას", რადგან ასახავს განმეორებითი კლასტერიზაციის პროცესის კონვერგენციას. ქვემოთ წარმოგიდგენთ რამდენიმე შედეგებს, რომლებიც მიღებულ იქნა McKean k-means მეთოდის გამოყენებით წინა მონაცემებთან. სასურველი კლასტერების რაოდენობა თავდაპირველად დაყენებული იყო 3-ზე, შემდეგ კი 2-ზე. მათი პირველი ნაწილი შეიცავს ერთფაქტორიან შედეგებს. დისპერსიის ანალიზი, რომელშიც კლასტერული რიცხვი მოქმედებს როგორც დაჯგუფების ფაქტორი. პირველი სვეტი არის 12 ცვლადის სია, რასაც მოჰყვება კვადრატების ჯამები (SS) და თავისუფლების ხარისხი (df), შემდეგ ფიშერის F-ტესტი და ბოლო სვეტში მიღწეული მნიშვნელოვნების დონე "p".

ცხრილი 2 McKean k- ნიშნავს მონაცემებს, რომლებიც გამოიყენება 70 ტესტის ნიმუშზე.

ცვლადები

როგორც ამ ცხრილიდან ჩანს, ნულოვანი ჰიპოთეზა სამ ჯგუფში საშუალების თანასწორობის შესახებ უარყოფილია. ქვემოთ მოცემულია ყველა ცვლადის საშუალების გრაფიკი ცალკეული კლასტერებისთვის. ცვლადების იგივე კლასტერული საშუალებები წარმოდგენილია ქვემოთ ცხრილის სახით.

ცხრილი 3. მონაცემების დეტალური მიმოხილვა სამი კლასტერის მაგალითზე.

ცვლადი

კლასტერი #1

კლასტერი #2

კლასტერი #3

დიაგრამა 8

თითოეული კლასტერისთვის ცვლადების საშუალო მნიშვნელობების ანალიზი საშუალებას გვაძლევს დავასკვნათ, რომ X1 მახასიათებლის მიხედვით, 1 და 3 კლასტერებს აქვთ ახლო მნიშვნელობები, ხოლო კლასტერ 2-ს აქვს საშუალო მნიშვნელობა გაცილებით დაბალი, ვიდრე დანარჩენ ორ კლასტერში. პირიქით, X2 მახასიათებლის მიხედვით, პირველ კლასტერს აქვს ყველაზე დაბალი მნიშვნელობა, ხოლო მე-2 და მე-3 კლასტერებს აქვთ უფრო მაღალი და ახლო საშუალო მნიშვნელობები. X3-X12 ნიშანებისთვის, კლასტერ 1-ში საშუალო მნიშვნელობები მნიშვნელოვნად მაღალია, ვიდრე 2 და 3 კლასტერებში. ორ კლასტერად დაჯგუფების შედეგების ANOVA ანალიზის შემდეგი ცხრილი ასევე აჩვენებს ტოლობის შესახებ ნულოვანი ჰიპოთეზის უარყოფის აუცილებლობას. ჯგუფური საშუალებების თითქმის ყველა 12 მახასიათებლისთვის, გარდა X4 ცვლადისა, რომლისთვისაც მიღწეული მნიშვნელოვნების დონე 5%-ზე მეტი აღმოჩნდა.

ცხრილი 4. ორ კლასტერად დაჯგუფების შედეგების დისპერსიული ანალიზის ცხრილი.

ცვლადები

ქვემოთ მოცემულია ჯგუფური საშუალებების გრაფიკი და ცხრილი ორ კლასტერად დაჯგუფების შემთხვევისთვის.

ცხრილი 5. ცხრილი ორ ჯგუფად დაჯგუფების შემთხვევისთვის.

ცვლადები

კლასტერი #1

კლასტერი #2

დიაგრამა 9.

იმ შემთხვევაში, როდესაც მკვლევარს არ შეუძლია წინასწარ განსაზღვროს კლასტერების ყველაზე სავარაუდო რაოდენობა, ის იძულებულია გაიმეოროს გამოთვლები, დააყენოს სხვა რიცხვი, მსგავსი, რაც გაკეთდა ზემოთ. შემდეგ კი, მიღებული შედეგების ერთმანეთთან შედარება, შეჩერდით კლასტერიზაციის ერთ-ერთ ყველაზე მისაღებ ვარიანტზე.

4 . მახასიათებლების დაჯგუფება

გარდა ინდივიდუალური დაკვირვებების კლასტერიზაციისა, ასევე არსებობს ფუნქციების დაჯგუფების ალგორითმები. ერთ-ერთი პირველი ასეთი მეთოდია კორელაციური პლეადების მეთოდი ტერენტიევი P.V. ასეთი პლეადების პრიმიტიული გამოსახულებები ხშირად გვხვდება ბიოსამედიცინო პუბლიკაციებში წრის სახით, რომელიც წერტილოვანია ისრებით, რომლებიც აკავშირებს ნიშნებს, რომელთა ავტორებმა იპოვეს კორელაცია. ობიექტებისა და მახასიათებლების კლასტერიზაციის რიგ პროგრამას აქვს ცალკე პროცედურები. მაგალითად, SAS პაკეტში ფუნქციების კლასტერისთვის გამოიყენება VARCLUS პროცედურა (VARiable-დან - ცვლადი და CLUSter - კლასტერი), ხოლო დაკვირვებების კლასტერული ანალიზი ხორციელდება სხვა პროცედურებით - FASTCLUS და CLUSTER. დენდროგრამის აგება ორივე შემთხვევაში ხორციელდება TREE (ხის) პროცედურის გამოყენებით.

სხვა სტატისტიკურ პაკეტებში კლასტერიზაციისთვის ელემენტების - ობიექტების ან მახასიათებლების შერჩევა ხდება იმავე მოდულში. როგორც მახასიათებლების კლასტერიზაციის მეტრიკა, ხშირად გამოიყენება გამონათქვამები, რომლებიც მოიცავს გარკვეული კოეფიციენტების მნიშვნელობას, რომელიც ასახავს ურთიერთობის სიძლიერეს წყვილი მახასიათებლისთვის. ამ შემთხვევაში ძალიან მოსახერხებელია ერთის ტოლი კავშირის სიძლიერის მქონე ნიშნებმა (ფუნქციური დამოკიდებულება) აიღონ მანძილი ნიშნებს შორის ნულის ტოლი. მართლაც, ფუნქციური კავშირით, ერთი მახასიათებლის მნიშვნელობას შეუძლია ზუსტად გამოთვალოს სხვა მახასიათებლის მნიშვნელობა. ნიშნებს შორის ურთიერთობის სიძლიერის შემცირებით, მანძილი შესაბამისად იზრდება. ქვემოთ მოცემულია გრაფიკი, რომელიც გვიჩვენებს 12 მახასიათებლის კომბინაციის დენდროგრამას, რომლებიც გამოყენებული იყო ზემოთ 70 ანალიტიკური ნიმუშის დაჯგუფებისას.

გრაფიკი 10. დენდროგრამა12 მახასიათებლის დაჯგუფება.

როგორც ამ დენდროგრამიდან ჩანს, საქმე გვაქვს ნიშნების ორ ლოკალურ დაჯგუფებასთან: X1-X10 და X11-X12.მახასიათებელთა ჯგუფი X1-X10 ხასიათდება კლასტერთაშორისი მანძილების საკმაოდ მცირე მნიშვნელობით, რომელიც არ აღემატება დაახლოებით 100 ერთეულს. აქ ჩვენ ასევე ვხედავთ რამდენიმე შიდა დაწყვილებულ ქვეჯგუფს: X1 და X2, X3 და X4, X6 და X7. მანძილი ამ წყვილების მახასიათებლებს შორის, რომელიც ძალიან ახლოს არის ნულთან, მიუთითებს მათ ძლიერ წყვილურ ურთიერთობაზე. ხოლო X11 და X12 წყვილისთვის კლასტერთაშორისი მანძილის მნიშვნელობა გაცილებით დიდია და არის დაახლოებით 300 ერთეული. დაბოლოს, ძალიან დიდი მანძილი მარცხენა (X1-X10) და მარჯვენა (X11-X12) კლასტერებს შორის, დაახლოებით 1150 ერთეულის ტოლია, მიუთითებს იმაზე, რომ მახასიათებლების ამ ორ ჯგუფს შორის ურთიერთობა საკმაოდ მინიმალურია.

5. კლასტერინგის სტაბილურობა და ხარისხი

ცხადია, აბსურდული იქნება დავსვათ კითხვა, რამდენად აბსოლუტურია კლასტერული ანალიზის მეთოდებით მიღებული ესა თუ ის კლასიფიკაცია. როდესაც კლასტერული მეთოდი იცვლება, სტაბილურობა გამოიხატება იმაში, რომ დენდროგრამებზე საკმაოდ მკაფიოდ ჩანს ორი მტევანი.

კლასტერული ანალიზის შედეგების სტაბილურობის შესამოწმებლად ერთ-ერთ შესაძლო გზად შეიძლება გამოვიყენოთ სხვადასხვა კლასტერული ალგორითმისთვის მიღებული შედეგების შედარების მეთოდი. სხვა გზებია ბ. ეფრონის მიერ 1977 წელს შემოთავაზებული ეგრეთ წოდებული ჩატვირთვის მეთოდი, „ჯეკნიფის“ და „სრიალის კონტროლის“ მეთოდები. კასეტური ხსნარის სტაბილურობის შემოწმების უმარტივესი საშუალება შეიძლება იყოს საწყისი ნიმუშის შემთხვევით დაყოფა ორ დაახლოებით თანაბარ ნაწილად, ორივე ნაწილის დაჯგუფება და შემდეგ შედეგების შედარება. უფრო შრომატევადი გზა მოიცავს დასაწყისში პირველი ობიექტის თანმიმდევრულ გამორიცხვას და დარჩენილი (N - 1) ობიექტების დაჯგუფებას. გარდა ამისა, ამ პროცედურის თანმიმდევრული ჩატარება, გარდა მეორე, მესამე და ა.შ. ობიექტები, გაანალიზებულია ყველა N მიღებული კლასტერის სტრუქტურა. სტაბილურობის შემოწმების კიდევ ერთი ალგორითმი მოიცავს მრავალჯერადი რეპროდუქციას, N ობიექტის ორიგინალური ნიმუშის დუბლირებას, შემდეგ ყველა დუბლირებულ ნიმუშს ერთ დიდ ნიმუშში (ფსევდო-ზოგადი პოპულაცია) გაერთიანებას და N ობიექტის ახალი ნიმუშის შემთხვევით ამოღებას მისგან. ამის შემდეგ ხდება ამ ნიმუშის დაჯგუფება, შემდეგ ხდება ახალი შემთხვევითი ნიმუშის აღება და ხელახლა ტარდება კლასტერირება და ა.შ. ის ასევე საკმაოდ შრომატევადია.

არანაკლებ პრობლემებია კლასტერიზაციის ხარისხის შეფასებისას. ცნობილია კასეტური გადაწყვეტილებების ოპტიმიზაციის რამდენიმე ალგორითმი. 50-იან წლებში გამოჩნდა პირველი ნამუშევრები, რომლებიც შეიცავდა კრიტერიუმის ფორმულირებას კლასტერშიდა დისპერსიის მინიმიზაციისთვის და ალგორითმს (k-means ტიპის) ოპტიმალური გადაწყვეტის მოსაძებნად. 1963 წელს J. Ward-ის სტატიაში ასევე წარმოდგენილი იყო ოპტიმიზაციის მსგავსი იერარქიული ალგორითმი. არ არსებობს უნივერსალური კრიტერიუმი კასეტური გადაწყვეტის ოპტიმიზაციისთვის. ყოველივე ეს ართულებს მკვლევარს ოპტიმალური გადაწყვეტის არჩევას. ასეთ სიტუაციაში საუკეთესო გზითიმის მტკიცება, რომ ნაპოვნი კასეტური ამოხსნა ოპტიმალურია კვლევის ამ ეტაპზე, მხოლოდ ამ ამოხსნის თანმიმდევრულობაა მრავალვარიანტული სტატისტიკის სხვა მეთოდების გამოყენებით მიღებულ დასკვნებთან.

კლასტერიზაციის ოპტიმალურობის შესახებ დასკვნის სასარგებლოდ, ასევე დადებითი შედეგებია მიღებული ამოხსნის პროგნოზირებადი მომენტების შემოწმების უკვე სხვა სასწავლო ობიექტებზე. კლასტერული ანალიზის იერარქიული მეთოდების გამოყენებისას ჩვენ შეგვიძლია გირჩიოთ რამდენიმე გრაფიკის ერთმანეთთან შედარება დამატებითი ცვლილებაკლასტერთაშორისი მანძილი. ამ შემთხვევაში უპირატესობა უნდა მიენიჭოს იმ ვარიანტს, რომლისთვისაც ასეთი ნამატის ბრტყელი ხაზი შეინიშნება პირველი საფეხურიდან რამდენიმე ბოლო საფეხურამდე, ამ გრაფიკის მკვეთრი ვერტიკალური აწევით კლასტერიზაციის ბოლო 1-2 საფეხურზე.

დასკვნები

ჩემს ნამუშევარში შევეცადე მეჩვენებინა არა მხოლოდ ამ ტიპის ანალიზის სირთულე, არამედ მონაცემთა დამუშავების ოპტიმალური შესაძლებლობები, რადგან ხშირად შედეგების სიზუსტისთვის თქვენ უნდა გამოიყენოთ ათეულიდან ასობით ნიმუში. ამ ტიპისანალიზი ხელს უწყობს შედეგების კლასიფიკაციას და დამუშავებას. ასევე უმნიშვნელოდ მიმაჩნია ამ ანალიზში კომპიუტერული ტექნოლოგიების მისაღებობა, რაც შესაძლებელს ხდის შედეგების დამუშავების პროცესს ნაკლები დრო დასჭირდეს და ამით მეტი ყურადღება მიექცეს ანალიზისთვის შერჩევის სისწორეს.

კლასტერული ანალიზის გამოყენებისას არის ისეთი დახვეწილობა და დეტალები, რომლებიც ცალკეულ კონკრეტულ შემთხვევებში ჩნდება და დაუყოვნებლივ არ ჩანს. მაგალითად, მახასიათებლების მასშტაბის როლი შეიძლება იყოს მინიმალური და ზოგიერთ შემთხვევაში დომინანტი. ასეთ შემთხვევებში აუცილებელია ცვლადი ტრანსფორმაციების გამოყენება. ეს განსაკუთრებით ეფექტურია იმ მეთოდების გამოყენებისას, რომლებიც წარმოქმნიან არაწრფივი მახასიათებლების ტრანსფორმაციას, რაც ზოგადად ზრდის მახასიათებლებს შორის კორელაციის საერთო დონეს.

კიდევ უფრო დიდი სპეციფიკაა კლასტერული ანალიზის გამოყენება ობიექტებთან მიმართებაში, რომლებიც აღწერილია მხოლოდ თვისებრივი მახასიათებლებით. ამ შემთხვევაში, ხარისხობრივი მახასიათებლების წინასწარი დიგიტალიზაციის და ახალი ფუნქციებით კლასტერული ანალიზის მეთოდები საკმაოდ წარმატებულია. ჩემს ნაშრომში ვაჩვენე, რომ კლასტერული ანალიზი იძლევა უამრავ ახალ და ორიგინალურ ინფორმაციას, როგორც საკმარისად შესწავლილ სისტემებში მისი გამოყენების შემთხვევაში, ასევე უცნობი სტრუქტურის მქონე სისტემების შესწავლისას.

ასევე უნდა აღინიშნოს, რომ კლასტერული ანალიზი შეუცვლელი გახდა ევოლუციურ კვლევებში, რაც საშუალებას აძლევს ფილოგენეტიკური ხეების აგებას, რომლებიც აჩვენებენ ევოლუციური ბილიკებს. ეს მეთოდები ფართოდ გამოიყენება პროგრამებში სამეცნიერო გამოკვლევაფიზიკურ და ანალიტიკურ ქიმიაში.

ბიბლიოგრაფია

1) აივაზიანი S. A., Enyukov I. S., Meshalkin L. D. გამოყენებითი სტატისტიკური ანალიზისთვის პროგრამული პაკეტის სტრუქტურისა და შინაარსის შესახებ//ალგორითმული და პროგრამული უზრუნველყოფაგამოყენებითი სტატისტიკური ანალიზი.--მ., 1980 წ.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. მრავალგანზომილებიანი დაკვირვებების კლასიფიკაცია.--M.: სტატისტიკა, 1974 წ.

3) Becker V. A., Lukatskaya M. L. დაწყვილების კოეფიციენტების მატრიცის სტრუქტურის ანალიზის შესახებ//ეკონომიკური და სტატისტიკური მოდელირებისა და პროგნოზირების საკითხები ინდუსტრიაში.-- ნოვოსიბირსკი, 1970 წ.

4) Braverman E. M., Muchnik I.B. სტრუქტურული მეთოდებიმონაცემთა დამუშავება.--მ.: ნაუკა, 1983 წ.

5) ვორონინი იუ.ა. კლასიფიკაციის თეორია და მისი გამოყენება.--ნოვოსიბირსკი: ნაუკა, 1987 წ.

6) Good I. J. Botryology of botryology//კლასიფიკაცია და კლასტერი.--M.: Mir, 1980 წ.

7) დუბროვსკი S.A. გამოყენებითი მრავალვარიანტული სტატისტიკური ანალიზი.--M.: ფინანსები და სტატისტიკა, 1982 წ.

8) Duran N., Odell P. Cluster analysis.--M.: სტატისტიკა, 1977 წ.

9) Eliseeva I.I., Rukavishnikov V.S. დაჯგუფება, კორელაცია, ნიმუშის ამოცნობა.--M.: სტატისტიკა, 1977 წ.

10) Zagoruiko N. G. ამოცნობის მეთოდები და მათი გამოყენება.-- M .: საბჭოთა რადიო, 1972 წ.

11) Zade L. A. Fuzzy კომპლექტები და მათი გამოყენება ნიმუშის ამოცნობასა და კლასტერულ ანალიზში //კლასიფიკაცია და კლასტერი.--M.: Mir, 1980 წ.

12) Kildishev G.S., Abolentsev Yu.I. მრავალგანზომილებიანი დაჯგუფებები.--M.: სტატისტიკა, 1978 წ.

13) Raiskaya II, Gostilin NI, Frenkel AA კლასტერულ ანალიზში დაყოფის მართებულობის შესამოწმებლად ერთი ხერხის შესახებ.//მულტივარიანტული სტატისტიკური ანალიზის გამოყენება ეკონომიკაში და პროდუქტის ხარისხის შეფასებაში.--ქ. პ.ტარტუ, 1977 წ.

14) შურიგინი A. M. წერტილთაშორისი მანძილების და განსხვავებების განაწილება // პროგრამული და ალგორითმული მხარდაჭერა გამოყენებული მრავალგანზომილებიანი სტატისტიკური ანალიზისთვის.--M., 1983 წ.

15) Eeremaa R. კლასტერული სისტემების და ალგორითმების დიზაინის ზოგადი თეორია მათი რიცხვითი გამოსახულებების მოსაძებნად: თსუ გამოთვლითი ცენტრის შრომები.--ტარტუ, 1978 წ.

16) Yastremsky B.S. რჩეული ნაშრომები.--M.: სტატისტიკა, 1964 წ.

მსგავსი დოკუმენტები

    ბაზრის სეგმენტაციის მიზნები მარკეტინგული საქმიანობა. კლასტერული ანალიზის არსი, მისი განხორციელების ძირითადი ეტაპები. აირჩიეთ როგორ გავზომოთ მანძილი ან მსგავსება. იერარქიული, არაიერარქიული კლასტერიზაციის მეთოდები. სანდოობისა და სანდოობის შეფასება.

    ანგარიში, დამატებულია 02.11.2009წ

    ძირითადი მახასიათებლები ფინანსური მდგომარეობასაწარმოები. კრიზისი საწარმოში, მისი მიზეზები, სახეები და შედეგები. თანამედროვე მეთოდებიდა კლასტერული ანალიზის ინსტრუმენტები, მათი გამოყენების თავისებურებები საწარმოს ფინანსური და ეკონომიკური შეფასებისთვის.

    ნაშრომი, დამატებულია 10/09/2013

    შეასრულეთ საწარმოების კლასტერული ანალიზი Statgraphics Plus-ის გამოყენებით. წრფივი რეგრესიის განტოლების აგება. ელასტიურობის კოეფიციენტების გამოთვლა რეგრესიული მოდელებით. განტოლების სტატისტიკური მნიშვნელოვნებისა და განსაზღვრის კოეფიციენტის შეფასება.

    დავალება, დამატებულია 03/16/2014

    ტიპოლოგიური რეგრესიების აგება დაკვირვების ცალკეული ჯგუფებისთვის. სივრცითი მონაცემები და დროითი ინფორმაცია. კლასტერული ანალიზის გამოყენების სფერო. ობიექტების ჰომოგენურობის ცნება, მანძილის მატრიცის თვისებები. ტიპოლოგიური რეგრესიის განხორციელება.

    პრეზენტაცია, დამატებულია 26/10/2013

    კომბინირებული მოდელებისა და მეთოდების შექმნა როგორც თანამედროვე გზაპროგნოზირება. ARIMA-ზე დაფუძნებული მოდელი სტაციონარული და არასტაციონარული დროის სერიების აღწერისთვის კლასტერული ამოცანების გადაჭრისას. ავტორეგრესიული AR მოდელები და კორელოგრამების გამოყენება.

    პრეზენტაცია, დამატებულია 05/01/2015

    სხვადასხვა ტიპის მეტრიკის მახასიათებლები. უახლოესი მეზობელი მეთოდი და მისი განზოგადება. უახლოესი მეზობლის ალგორითმი. Parzen ფანჯრის მეთოდი. განზოგადებული მეტრიკული კლასიფიკატორი. მეტრიკის არჩევის პრობლემა. მანჰეტენისა და ევკლიდეს მანძილი. კოსინუსის ზომა.

    ნაშრომი, დამატებულია 03/08/2015

    კრასნოდარის ტერიტორიის სამშენებლო ინდუსტრიის მახასიათებლები. საბინაო მშენებლობის განვითარების პროგნოზი. კლასტერული ანალიზის თანამედროვე მეთოდები და ინსტრუმენტები. საწარმოს ეკონომიკური მდგომარეობის დიაგნოსტიკის მრავალგანზომილებიანი სტატისტიკური მეთოდები.

    ნაშრომი, დამატებულია 07/20/2015

    იპოთეკური სესხის მახასიათებლები ბრიანსკის რეგიონის მაგალითზე. გადაწყვეტილების მიღების მათემატიკური მეთოდების მიმოხილვა: საექსპერტო შეფასებები, თანმიმდევრული და წყვილთა შედარება, იერარქიის ანალიზი. ოპტიმალური იპოთეკური სესხის საძიებო პროგრამის შემუშავება.

    საკურსო ნაშრომი, დამატებულია 29.11.2012

    სისტემის ანალიზის გამოყენების სფეროები, მისი ადგილი, როლი, მიზნები და ფუნქციები თანამედროვე მეცნიერება. სისტემური ანალიზის მეთოდების კონცეფცია და შინაარსი, მისი არაფორმალური მეთოდები. ევრისტიკული და საექსპერტო კვლევის მეთოდების თავისებურებები და მათი გამოყენების თავისებურებები.

    საკურსო ნაშრომი, დამატებულია 20/05/2013

    ეკონომიკური მონაცემების სპეციფიკის გათვალისწინებით და საჭიროებების შესაბამისად ეკონომეტრიული მეთოდების შემუშავება და კვლევა ეკონომიკადა პრაქტიკები. ეკონომეტრიული მეთოდებისა და მოდელების გამოყენება ეკონომიკური მონაცემების სტატისტიკური ანალიზისთვის.

უნივერსიტეტი: VZFEI

წელი და ქალაქი: მოსკოვი 2008 წ


1. შესავალი. კლასტერული ანალიზის მეთოდის კონცეფცია.

2. კლასტერული ანალიზის გამოყენების მეთოდოლოგიის აღწერა. პრობლემის გადაჭრის საკონტროლო მაგალითი.

4. გამოყენებული ლიტერატურის სია

  1. შესავალი. კლასტერული ანალიზის მეთოდის კონცეფცია.

კლასტერული ანალიზი არის მეთოდების ერთობლიობა, რომელიც იძლევა მრავალგანზომილებიანი დაკვირვებების კლასიფიკაციის საშუალებას, რომელთაგან თითოეული აღწერილია X1, X2, ..., Xk მახასიათებლების (პარამეტრების) ნაკრებით.

კლასტერული ანალიზის მიზანია ერთმანეთის მსგავსი ობიექტების ჯგუფების ჩამოყალიბება, რომლებსაც ჩვეულებრივ კლასტერებს უწოდებენ (კლასი, ტაქსონი, კონცენტრაცია).

კლასტერული ანალიზი სტატისტიკური კვლევის ერთ-ერთი სფეროა. მას განსაკუთრებით მნიშვნელოვანი ადგილი უჭირავს მეცნიერების იმ დარგებში, რომლებიც დაკავშირებულია მასობრივი ფენომენების და პროცესების შესწავლასთან. კლასტერული ანალიზის მეთოდების შემუშავების აუცილებლობა და მათი გამოყენება ნაკარნახევია იმით, რომ ისინი ხელს უწყობენ მეცნიერულად დაფუძნებული კლასიფიკაციების აგებას, იდენტიფიცირებას. შიდა კომუნიკაციებიდაკვირვებული მოსახლეობის ერთეულებს შორის. გარდა ამისა, კლასტერული ანალიზის მეთოდები შეიძლება გამოყენებულ იქნას ინფორმაციის შეკუმშვისთვის, რაც მნიშვნელოვანი ფაქტორია სტატისტიკური მონაცემების ნაკადების მუდმივი ზრდისა და სირთულის პირობებში.

კლასტერული ანალიზის მეთოდები საშუალებას გაძლევთ გადაჭრას შემდეგი პრობლემები:

ობიექტების კლასიფიკაციის განხორციელება იმ მახასიათებლების გათვალისწინებით, რომლებიც ასახავს საგნების არსს, ბუნებას. ასეთი პრობლემის გადაწყვეტა, როგორც წესი, იწვევს ცოდნის გაღრმავებას კლასიფიცირებული ობიექტების მთლიანობის შესახებ;

ობიექტთა შესწავლილ კომპლექტში რაიმე სტრუქტურის არსებობის შესახებ გამოთქმული ვარაუდების შემოწმება, ე.ი. არსებული სტრუქტურის ძიება;

ახალი კლასიფიკაციების აგება ცუდად შესწავლილი ფენომენებისთვის, როდესაც საჭიროა პოპულაციის შიგნით კავშირების არსებობის დადგენა და მასში სტრუქტურის დანერგვის მცდელობა (1. გვ. 85-86).

2. კლასტერული ანალიზის გამოყენების მეთოდოლოგიის აღწერა. პრობლემის გადაჭრის საკონტროლო მაგალითი.

კლასტერული ანალიზი საშუალებას გაძლევთ ჩამოაყალიბოთ დაყოფა ერთგვაროვან ჯგუფებად (კლასტერებად) n ობიექტიდან, რომლებიც ხასიათდება k მახასიათებლებით. ობიექტების ერთგვაროვნება განისაზღვრება p(xi xj) მანძილით, სადაც xi = (xi1, …., xik) და xj= (xj1,…,xjk) არის ვექტორები, რომლებიც შედგება i-ის k ატრიბუტების მნიშვნელობებისგან. -ე და j-ე ობიექტები, შესაბამისად.

რიცხობრივი მახასიათებლებით დამახასიათებელი ობიექტებისთვის მანძილი განისაზღვრება შემდეგი ფორმულით:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

ობიექტები განიხილება ერთგვაროვანი, თუ p(xi xj)< p предельного.

კავშირის გრაფიკული გამოსახულება შეიძლება მივიღოთ კასეტური კავშირის ხის - დენდროგრამის გამოყენებით. (2. თავი 39).

სატესტო შემთხვევა (მაგალითი 92).

გაყიდვების მოცულობა

მოდით დავახარისხოთ ეს ობიექტები „ახლო მეზობლის“ პრინციპის გამოყენებით. მოდით ვიპოვოთ მანძილი ობიექტებს შორის ფორმულის გამოყენებით (1)* . შევავსოთ ცხრილი.

ავხსნათ როგორ ივსება ცხრილი.

i მწკრივისა და j სვეტის გადაკვეთაზე მითითებულია მანძილი p(xi xj) (შედეგი მრგვალდება ორ ათწილადამდე).

მაგალითად, რიგის 1-ისა და მე-3 სვეტის გადაკვეთაზე მითითებულია მანძილი p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10, ხოლო მე-3 მწკრივისა და სვეტის გადაკვეთაზე. 5, მანძილი p(x3, x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. ვინაიდან p(xi, xj) = p(xj,xi), ცხრილის ქვედა ნაწილის შევსება საჭირო არ არის.

გამოვიყენოთ „ახლო მეზობლის“ პრინციპი. ცხრილში ვპოულობთ დისტანციებს შორის ყველაზე პატარას (თუ რამდენიმე მათგანია, მაშინ ვირჩევთ რომელიმე მათგანს). ეს არის p 1.2 ≈ p 4.5 \u003d 2.24. მოდით p min = p 4.5 = 2.24. შემდეგ ჩვენ შეგვიძლია გავაერთიანოთ ობიექტები 4 და 5 ერთ ჯგუფში, ანუ გაერთიანებული სვეტი 4 და 5 შეიცავს თავდაპირველი მანძილის ცხრილის 4 და 5 სვეტების შესაბამისი რიცხვებიდან ყველაზე პატარას. იგივეს ვაკეთებთ მე-4 და მე-5 სტრიქონებთან ერთად. ვიღებთ ახალ ცხრილს.

მიღებულ ცხრილში ვპოულობთ დისტანციებს შორის უმცირესს (თუ რამდენიმე მათგანია, მაშინ ვირჩევთ რომელიმე მათგანს): р min = р 1,2 = 2,24. შემდეგ შეგვიძლია გავაერთიანოთ ობიექტები 1,2,3 ერთ ჯგუფში, ანუ გაერთიანებული სვეტი 1,2,3 შეიცავს წინა მანძილის ცხრილის 1 და 2 და 3 სვეტების შესაბამისი რიცხვებიდან ყველაზე პატარას. იგივეს ვაკეთებთ 1 და 2 და 3 რიგებით. ვიღებთ ახალ ცხრილს.

მივიღეთ ორი კლასტერი: (1,2,3) და (4,5).

3. პრობლემების გადაჭრა საკონტროლო სამუშაოსთვის.

პრობლემა 85.

Ვადები:ხუთი საწარმოო ობიექტი ხასიათდება ორი მახასიათებლით: გაყიდვების მოცულობა და ძირითადი საშუალებების საშუალო წლიური ღირებულება.

გაყიდვების მოცულობა

საშუალო წლიური ღირებულებაძირითადი საწარმოო საშუალებები

გამოსავალი:მოდი ვიპოვოთ ობიექტებს შორის მანძილი ფორმულის გამოყენებით (1)* (დავამრგვალებთ ორ ათწილადამდე):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1.2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3.61

p 1.3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5.83

p 2.2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2.3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2.24

p 3.4 \u003d √ (7-12) 2 + (10-8) 2 ≈5.39

p 3.5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7.81

p 4.5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3.16

გამოთვლების შედეგების მიხედვით, ჩვენ ვავსებთ ცხრილს:

გამოვიყენოთ უახლოესი მეზობლის პრინციპი. ამისათვის ცხრილში ვპოულობთ დისტანციებს შორის ყველაზე პატარას (თუ რამდენიმე მათგანია, მაშინ აირჩიეთ რომელიმე). ეს არის p 2.3=2.24. მოდით p min = p 2.3 = 2.24, შემდეგ შეგვიძლია გავაერთიანოთ სვეტების "2" და "3" ობიექტები და ასევე გავაერთიანოთ ობიექტების რიგები "2" და "3". ახალ ცხრილში, ჩვენ შევიყვანთ უმცირეს მნიშვნელობებს ორიგინალური ცხრილიდან გაერთიანებულ ჯგუფებში.

ახალ ცხრილში ვპოულობთ დისტანციებს შორის ყველაზე პატარას (თუ რამდენიმეა, მაშინ ვირჩევთ რომელიმე მათგანს). ეს არის p 4.5=3.16. მოდით p min = p 4.5 = 3.16, შემდეგ შეგვიძლია გავაერთიანოთ სვეტების "4" და "5" ობიექტები და ასევე გავაერთიანოთ ობიექტების რიგები "4" და "5". ახალ ცხრილში, ჩვენ შევიყვანთ უმცირეს მნიშვნელობებს ორიგინალური ცხრილიდან გაერთიანებულ ჯგუფებში.

ახალ ცხრილში ვპოულობთ დისტანციებს შორის ყველაზე პატარას (თუ რამდენიმეა, მაშინ ვირჩევთ რომელიმე მათგანს). ეს არის p 1, 2 და 3=3.61. მოდით p min = p 1, 2 და 3 = 3.61, შემდეგ ჩვენ შეგვიძლია გავაერთიანოთ სვეტის ობიექტები "1" და "2 და 3" და ასევე გავაერთიანოთ რიგები. ახალ ცხრილში, ჩვენ შევიყვანთ უმცირეს მნიშვნელობებს ორიგინალური ცხრილიდან გაერთიანებულ ჯგუფებში.

ვიღებთ ორ კლასტერს: (1,2,3) და (4,5).

დენდროგრამაზე ნაჩვენებია ელემენტების შერჩევის რიგი და შესაბამისი მინიმალური მანძილი pmin.

პასუხი:„უახლოესი მეზობლის“ პრინციპის მიხედვით კლასტერული ანალიზის შედეგად წარმოიქმნება ერთმანეთის მსგავსი ობიექტების 2 მტევანი: (1,2,3) და (4,5).

პრობლემა 211.

Ვადები:ხუთი საწარმოო ობიექტი ხასიათდება ორი მახასიათებლით: გაყიდვების მოცულობა და ძირითადი საშუალებების საშუალო წლიური ღირებულება.

გაყიდვების მოცულობა

ძირითადი საწარმოო საშუალებების საშუალო წლიური ღირებულება

ამ ობიექტების კლასიფიკაცია უახლოესი მეზობლის პრინციპის გამოყენებით.

გამოსავალი:პრობლემის გადასაჭრელად ჩვენ წარმოვადგენთ მონაცემებს თავდაპირველ ცხრილში. მოდით განვსაზღვროთ მანძილი ობიექტებს შორის. ჩვენ დავახარისხებთ ობიექტებს „უახლოესი მეზობლის“ პრინციპის მიხედვით. შედეგები წარმოდგენილია დენდროგრამის სახით.

გაყიდვების მოცულობა

ძირითადი საწარმოო საშუალებების საშუალო წლიური ღირებულება

ფორმულის (1)* გამოყენებით ვპოულობთ დისტანციებს ობიექტებს შორის:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2,3 = 7,07, p 2,4 = 2, p 2,5 = 3,3 = p 2,5 = 3,32, 0, p 3.4 = 5.10, p 3.5 = 4.12, p 4, 4 = 0, p4.5 = 1, p5.5 = 0.

შედეგები მოცემულია ცხრილში:

ცხრილში მანძილების უმცირესი მნიშვნელობა არის p 4.5=1. მოდით p min = p 4.5 = 1, შემდეგ ჩვენ შეგვიძლია გავაერთიანოთ სვეტების "4" და "5" ობიექტები და ასევე გავაერთიანოთ ობიექტების რიგები "4" და "5". ახალ ცხრილში, ჩვენ შევიყვანთ უმცირეს მნიშვნელობებს ორიგინალური ცხრილიდან გაერთიანებულ ჯგუფებში.

ახალ ცხრილში მანძილების უმცირესი მნიშვნელობა არის p 2, 4 და 5=2. მოდით p min = p 2, 4 და 5=2, შემდეგ შეგვიძლია გავაერთიანოთ "4 და 5" და "3" სვეტების ობიექტები, ასევე გავაერთიანოთ ობიექტების რიგები "4 და 5" და "3". ახალ ცხრილში ჩვენ შევიყვანთ ცხრილიდან უმცირეს მნიშვნელობებს კომბინირებულ ჯგუფებში.

ახალ ცხრილში მანძილების უმცირესი მნიშვნელობა არის p 3,4,5=2. დავუშვათ p min = p 3,4,5=2, შემდეგ შეგვიძლია გავაერთიანოთ სვეტების "3,4,5" და "2" ობიექტები და ასევე გავაერთიანოთ ობიექტების რიგები "3,4,5" და " 2". ახალ ცხრილში ჩვენ შევიყვანთ ცხრილიდან უმცირეს მნიშვნელობებს კომბინირებულ ჯგუფებში.

ან შედით საიტზე.

Მნიშვნელოვანი! ყველა წარმოდგენილი ტესტის ნაშრომი უფასო ჩამოტვირთვისთვის განკუთვნილია თქვენი საკუთარი სამეცნიერო ნაშრომის გეგმის ან საფუძვლის შედგენისთვის.

Მეგობრები! Შენ გაქვს უნიკალური შესაძლებლობადაეხმარე შენნაირ სტუდენტებს! თუ ჩვენი საიტი დაგეხმარათ პოვნაში სწორი სამუშაო, მაშინ თქვენ ნამდვილად გესმით, როგორ შეუძლია თქვენს მიერ დამატებულმა ნამუშევარმა გააადვილოს სხვების მუშაობა.

თუ კონტროლი მუშაობს, თქვენი აზრით, ცუდი ხარისხი, ან თქვენ უკვე შეხვდით ამ ნამუშევარს, შეგვატყობინეთ ამის შესახებ.

იხილეთ კლასტერული ანალიზი. ანტინაზი. სოციოლოგიის ენციკლოპედია, 2009 ... სოციოლოგიის ენციკლოპედია

კლასტერული ანალიზი- ეს არის მეთოდების ნაკრები, რომელიც საშუალებას გაძლევთ კლასიფიციროთ მრავალგანზომილებიანი დაკვირვებები, რომელთაგან თითოეული აღწერილია ცვლადების გარკვეული ნაკრებით. კლასტერული ანალიზის მიზანია ერთმანეთის მსგავსი ობიექტების ჯგუფების ჩამოყალიბება, რომლებსაც ჩვეულებრივ უწოდებენ ... ... სოციოლოგიური ლექსიკონი სოციუმი

კლასტერული ანალიზი- მრავალგანზომილებიანი ანალიზის მათემატიკური პროცედურა, რომელიც საშუალებას იძლევა, რიგი ობიექტების (მაგალითად, საგნების) დამახასიათებელი ინდიკატორების საფუძველზე, დაჯგუფდეს ისინი კლასებად (კლასტერებად), რათა ერთ კლასში შემავალი ობიექტები მეტი იყოს. ..... დიდი ფსიქოლოგიური ენციკლოპედია

კლასტერული ანალიზი- მათემატიკური პროცედურა, რომელიც საშუალებას იძლევა, რომელიმე კომპლექტის თითოეული ობიექტისთვის (მაგალითად, სუბიექტისთვის) დამახასიათებელი რამდენიმე მახასიათებლის რაოდენობრივი მნიშვნელობების მსგავსებიდან გამომდინარე, დაჯგუფდეს ეს ობიექტები გარკვეულ კლასებად, ან კლასტერებად. .. ფსიქოლოგიური ლექსიკონი

კლასტერული ანალიზი- - [L.G. Sumenko. საინფორმაციო ტექნოლოგიების ინგლისური რუსული ლექსიკონი. M.: GP TsNIIS, 2003.] თემები Საინფორმაციო ტექნოლოგიაზოგადად EN კლასტერული ანალიზი… ტექნიკური მთარგმნელის სახელმძღვანელო

კლასტერული ანალიზი- * კლასტერული ანალიზი * კლასტერული ანალიზი ან მონაცემთა კლასტერირება არის მრავალგანზომილებიანი სტატისტიკური პროცედურა, რომელიც აგროვებს ინფორმაციას, რომელიც შეიცავს ინფორმაციას ობიექტების შერჩევის შესახებ და შემდეგ აწყობს ობიექტებს კლასტერების შედარებით ერთგვაროვან ჯგუფებად (Q ... ... გენეტიკა. ენციკლოპედიური ლექსიკონი

კლასტერული ანალიზი- სასურველია ამ სტატიის დახვეწა მათემატიკაში?: სქოლიოების დადება, წყაროების უფრო ზუსტი მითითება. სტატიის გასწორება ვიკიპედიის სტილისტური წესების მიხედვით. გადამუშავება ofo ... ვიკიპედია

კლასტერული ანალიზი- - მრავალგანზომილებიანი ანალიზის მათემატიკური პროცედურა, რომელიც საშუალებას იძლევა, ინდიკატორების ერთობლიობის საფუძველზე, რომლებიც ახასიათებენ რამდენიმე ობიექტს (მაგალითად, საგნებს), დაჯგუფდეს ისინი კლასებად (კლასტერებად), რათა ერთ კლასში შემავალი ობიექტები იყოს მეტი...... ფსიქოლოგიის და პედაგოგიკის ენციკლოპედიური ლექსიკონი

კლასტერული ანალიზი - საერთო სახელიკომპლექსურ მონაცემებში ღრმა სტრუქტურის დასადგენად სხვადასხვა მათემატიკური მეთოდისთვის. კლასტერული ანალიზი მრავალი თვალსაზრისით მსგავსია ფაქტორული ანალიზის. ორივე მოიცავს უნიტარული ელემენტების (ფაქტორები ან კლასტერების) ძიებას, რომლებიც... ... ფსიქოლოგიის განმარტებითი ლექსიკონი

კლასტერული ანალიზი- (კლასტერული ანალიზი) ტექნიკა, რომელიც გამოიყენება ობიექტების ან ადამიანების ჯგუფების იდენტიფიცირებისთვის, რომლებმაც შეიძლება აჩვენონ შედარებითი განსხვავება მონაცემთა ერთობლიობაში. შემდეგ შეისწავლება ასეთი ადამიანების მახასიათებლები თითოეულ ჯგუფში. ბაზრის კვლევისას, ...... დიდი განმარტებითი სოციოლოგიური ლექსიკონი

კლასტერული ანალიზი- (კლასტერული ანალიზი) სტატისტიკური ტექნიკის ჯგუფი, რომელიც გამოიყენება მონაცემთა შიდა სტრუქტურის დასადგენად მრავალი ცვლადის შესახებ კვლევის ინფორმაციის ანალიზისას. კლასტერული ანალიზის მიზანია ობიექტების ჯგუფების იდენტიფიცირება ... ... სოციოლოგიური ლექსიკონი

ეს წიგნი ეძღვნება ამ თვალსაზრისით მრავალგანზომილებიანი პროცესებისა და ფენომენების ანალიზის მხოლოდ ერთ-ერთ ყველაზე პერსპექტიულ მიდგომას - კლასტერულ ანალიზს.

კლასტერული ანალიზი არის მრავალგანზომილებიანი ობიექტების დაჯგუფების ხერხი, რომელიც ეფუძნება ინდივიდუალური დაკვირვების შედეგების პრეზენტაციას შესაფერისი გეომეტრიული სივრცის წერტილების მიხედვით, რასაც მოჰყვება ჯგუფების შერჩევა, როგორც ამ წერტილების "გროვები". სინამდვილეში, "კლასტერი" (კლასტერი) in ინგლისური ენადა ნიშნავს „თრომბს“, „მტევანს (ყურძნის)“, „მტევანს (ვარსკვლავთა)“ და ა.შ. ეს ტერმინი უჩვეულოდ ჯდება სამეცნიერო ტერმინოლოგიაში, რადგან მისი პირველი მარცვალი შეესაბამება ტრადიციულ ტერმინს „კლასს“, ხოლო მეორე, როგორც იქნა, მიუთითებს მის ხელოვნურ წარმოშობაზე. ჩვენ ეჭვი არ გვეპარება, რომ კლასტერული ანალიზის ტერმინოლოგია ჩაანაცვლებს ამ მიზნით ადრე გამოყენებულ ყველა კონსტრუქციას (თარგების უკონტროლო ამოცნობა, სტრატიფიკაცია, ტაქსონომია, ავტომატური კლასიფიკაცია და ა.შ.). აშკარაა კლასტერული ანალიზის პოტენციური შესაძლებლობები, რომ გადაჭრას, ვთქვათ, მსგავს პირობებში მოქმედი საწარმოთა ჯგუფების ან მსგავსი შედეგების მქონე საწარმოთა ჯგუფების იდენტიფიცირების პრობლემები, მოსახლეობის ჰომოგენური ჯგუფები ცხოვრების სხვადასხვა ასპექტში ან ზოგადად ცხოვრების წესში და ა.შ.

როგორც სამეცნიერო მიმართულება, კლასტერულმა ანალიზმა თავი გამოაცხადა 60-იანი წლების შუა ხანებში და მას შემდეგ სწრაფად ვითარდებოდა, რაც იყო სტატისტიკური მეცნიერების ყველაზე ინტენსიური ზრდის ერთ-ერთი ფილიალი. საკმარისია ითქვას, რომ მხოლოდ კლასტერული ანალიზის შესახებ დღემდე გამოქვეყნებული მონოგრაფიების რაოდენობა ასობით არის გაზომილი (მაშინ, რომ ვთქვათ, მრავალვარიანტული სტატისტიკური ანალიზის ისეთი „დამსახურებული“ მეთოდის მიხედვით, როგორიცაა ფაქტორული ანალიზიძნელად შეიძლება რამდენიმე ათეული წიგნის დათვლა). და ეს სრულიად გასაგებია. ჩვენ ხომ რეალურად ვსაუბრობთ დაჯგუფების ოპერაციის მოდელირებაზე, ერთ-ერთი ყველაზე მნიშვნელოვანი არა მხოლოდ სტატისტიკაში, არამედ ზოგადად – როგორც შემეცნებაში, ასევე გადაწყვეტილების მიღებისას.

ჩვენს ქვეყანაში გამოქვეყნებულია არაერთი მონოგრაფია, რომელიც მიეძღვნა კლასტერული ანალიზის გამოყენებით კონკრეტული სოციალურ-ეკონომიკური პრობლემების შესწავლას (1), სოციალურ-ეკონომიკურ კვლევებში კლასტერული ანალიზის გამოყენების მეთოდოლოგიას (2), კლასტერული ანალიზის მეთოდოლოგიას, როგორც ასეთი ( 3) (სტატისტიკური ანალიზის საფუძვლები)

მანდელის მიერ შემოთავაზებული წიგნი, როგორც იქნა, ამ კლასიფიკაციის პერპენდიკულარულია: მისი შინაარსი დაკავშირებულია ამ სამი სფეროდან თითოეულთან.

წიგნის მიზანია შეჯამება ხელოვნების დონეკლასტერული ანალიზი, მისი გამოყენების შესაძლებლობების ანალიზი და შემდგომი განვითარების ამოცანები. ეს იდეა თავისთავად არ იწვევს პატივისცემას: მიუკერძოებელი ანალიზი და განზოგადება მოითხოვს დიდ შრომას, ერუდიციას, გამბედაობას და შეფასებულია სამეცნიერო საზოგადოების მიერ ბევრად უფრო დაბალი, ვიდრე საკუთარი დიზაინის პოპულარიზაცია და განვითარება. (თუმცა, წიგნი ასევე შეიცავს ავტორის ორიგინალურ განვითარებებს, რომლებიც დაკავშირებულია „ინტენსიურ“ ანალიზთან და კლასიფიკაციის ორმაგობასთან.)

წიგნის უპირატესობაც და ნაკლოვანებებიც სწორედ ამ მიზნის განხორციელებას უკავშირდება. უპირატესობები უნდა შეიცავდეს:

· ჰომოგენურობის, დაჯგუფებისა და კლასიფიკაციის ცნებების მეთოდოლოგიური შესწავლა ფენომენებისა და პროცესების მრავალგანზომილებიანობის გათვალისწინებით;

· კლასტერული ანალიზის მიდგომებისა და მეთოდების სისტემატური მიმოხილვა (150-მდე კონკრეტული ალგორითმის ჩათვლით);

· კლასტერული ანალიზის პროცედურების ექსპერიმენტული შედარების ტექნოლოგიისა და შედეგების პრეზენტაცია; ეს წიგნი ეძღვნება ამ თვალსაზრისით მრავალგანზომილებიანი პროცესებისა და ფენომენების ანალიზის მხოლოდ ერთ-ერთ ყველაზე პერსპექტიულ მიდგომას - კლასტერულ ანალიზს.

კლასტერული ანალიზი არის მრავალგანზომილებიანი ობიექტების დაჯგუფების ხერხი, რომელიც ეფუძნება ინდივიდუალური დაკვირვების შედეგების პრეზენტაციას შესაფერისი გეომეტრიული სივრცის წერტილების მიხედვით, რასაც მოჰყვება ჯგუფების შერჩევა, როგორც ამ წერტილების "გროვები". ფაქტობრივად, „კლასტერი“ (მტევანი) ინგლისურად ნიშნავს „თბილობას“, „მტევანს (ყურძნის)“, „მტევანს (ვარსკვლავების)“ და ა.შ. ეს ტერმინი უჩვეულოდ ჯდება სამეცნიერო ტერმინოლოგიაში, რადგან მისი პირველი მარცვალი შეესაბამება ტრადიციულს. ტერმინი "კლასი", ხოლო მეორე, როგორც იქნა, მიუთითებს მის ხელოვნურ წარმოშობაზე. ჩვენ ეჭვი არ გვეპარება, რომ კლასტერული ანალიზის ტერმინოლოგია ჩაანაცვლებს ამ მიზნით ადრე გამოყენებულ ყველა კონსტრუქციას (თარგების უკონტროლო ამოცნობა, სტრატიფიკაცია, ტაქსონომია, ავტომატური კლასიფიკაცია და ა.შ.). აშკარაა კლასტერული ანალიზის პოტენციური შესაძლებლობები, რომ გადაჭრას, ვთქვათ, მსგავს პირობებში მოქმედი საწარმოთა ჯგუფების ან მსგავსი შედეგების მქონე საწარმოთა ჯგუფების იდენტიფიცირების პრობლემები, მოსახლეობის ჰომოგენური ჯგუფები ცხოვრების სხვადასხვა ასპექტში ან ზოგადად ცხოვრების წესში და ა.შ.

როგორც სამეცნიერო მიმართულება, კლასტერულმა ანალიზმა თავი გამოაცხადა 60-იანი წლების შუა ხანებში და მას შემდეგ სწრაფად ვითარდებოდა, რაც იყო სტატისტიკური მეცნიერების ყველაზე ინტენსიური ზრდის ერთ-ერთი ფილიალი. საკმარისია იმის თქმა, რომ მხოლოდ რამდენიმე მონოგრაფია კლასტერული ანალიზის, განვითარების ზოგადი სქემებისაკმაოდ საილუსტრაციო ცხრილებში დანერგილი კლასტერული ანალიზის მეთოდების გამოყენება; პრეზენტაციის სარეკომენდაციო ხასიათი.

ეს უპირატესობები განსაზღვრავს I.D. Mandel-ის წიგნის დამოუკიდებელ ადგილს სხვა პუბლიკაციებს შორის.

წიგნის ნაკლოვანებებია ზოგიერთი რეკომენდაციის ბუნდოვანება და საგნობრივ სოციალურ-ეკონომიკურ აპლიკაციებში კლასტერული ანალიზის მეთოდების გამოყენების საკითხების სისტემატური ანალიზის არარსებობა. მართალია, ეს უკანასკნელი განპირობებულია ამ სფეროში კლასტერული ანალიზის არასაკმარისი გამოყენებით.

წიგნი იძლევა პლაცდარმს, რომლის გამოყენება ხელს უწყობს პროგრესს ნებისმიერი თეორიის ურთულეს საკითხში – მის მიერ მოწოდებული ინსტრუმენტების პრაქტიკულ გამოყენებაში.

B. G. Mirkin

კვლევის თემები მერყეობს ახალ გვინეაში მუმიფიცირებული მღრღნელების მორფოლოგიიდან დაწყებული, ამერიკელი სენატორების კენჭისყრის შედეგების შესწავლამდე, გაყინული ტარაკნების ქცევითი ფუნქციების ანალიზიდან მათი გალღობისას, გეოგრაფიული გავრცელების შესწავლამდე. სასკაჩევანში ლიქენების გარკვეული ტიპები.

პუბლიკაციების ამ აფეთქებამ უდიდესი გავლენა მოახდინა კლასტერული ანალიზის განვითარებასა და გამოყენებაზე. მაგრამ, სამწუხაროდ, არის უარყოფითი მხარეებიც. კლასტერული ანალიზის შესახებ პუბლიკაციების სწრაფმა ზრდამ გამოიწვია მომხმარებელთა დაჯგუფების ჩამოყალიბება და, შედეგად, ჟარგონის შექმნა, რომელსაც გამოიყენებდნენ მხოლოდ მისი შემქმნელი დაჯგუფებები (Blashfield and Aldenderfer, 1978; Blashfield, 1980).

დარგის სპეციალისტების მიერ ჟარგონის ფორმირების შესახებ სოციალური მეცნიერებებიდასტურდება, მაგალითად, უორდის მეთოდთან დაკავშირებული მრავალფეროვანი ტერმინოლოგიით. „ვარდის მეთოდს“ ლიტერატურაში სხვანაირად უწოდებენ. ცნობილია მისი კიდევ ოთხი სახელი მაინც: "მინიმალური დისპერსიის მეთოდი", "კვადრატული შეცდომის მეთოდი", "იერარქიული დაჯგუფების მინიმიზაცია" და "HGROUP". პირველი ორი სახელი უბრალოდ ეხება კრიტერიუმს, რომლის ოპტიმუმი განისაზღვრება უორდის მეთოდით, ხოლო მესამე დაკავშირებულია კვადრატული შეცდომების ჯამთან, რომელიც წარმოადგენს W მატრიცის მონოტონურ კვალის ტრანსფორმაციას, ჯგუფშიდა კოვარიანსულ მატრიცას. და ბოლოს, ფართოდ გამოყენებული სახელი "HGROUP" არის პოპულარული სახელი კომპიუტერული პროგრამა, რომელიც ახორციელებს Ward მეთოდს (Veldman, 1967).

ჟარგონის ფორმირება აფერხებს ინტერდისციპლინარული კავშირების განვითარებას, აფერხებს ეფექტური შედარებაკლასტერული ანალიზის გამოყენების მეთოდოლოგია და შედეგები მეცნიერების სხვადასხვა დარგში იწვევს ზედმეტ ძალისხმევას (იგივე ალგორითმების ხელახლა გამოგონება) და, ბოლოს და ბოლოს, ახალ მომხმარებლებს არ აძლევს მათ მიერ არჩეული მეთოდების ღრმა გაგებას (ბლეშფილდი და ალდენდერფერი, 1978 წ. ). მაგალითად, სოციალურ მეცნიერებათა ერთმა კვლევამ (როჯერსი და ლინდენი, 1973) შეადარა სამი განსხვავებული კლასტერული მეთოდი ერთი და იგივე მონაცემების გამოყენებით. მათ ამ მეთოდებს ასე უწოდეს: „იერარქიული დაჯგუფება“, „იერარქიული კლასტერირება ანუ HCG“ და „კლასტერული ანალიზი“. და არც ერთი ეს სახელი არ იყო ნაცნობი კლასტერიზაციის მეთოდებისთვის. კლასტერული ანალიზის პროგრამების ახალბედა მომხმარებელი დაბნეული იქნება ყველა არსებული სახელებით და ვერ შეძლებს მათ დაკავშირებას კლასტერული მეთოდების სხვა აღწერილობებთან. გამოცდილი მომხმარებლები რთულ მდგომარეობაში აღმოჩნდებიან, როდესაც თავიანთ კვლევას მსგავს სამუშაოს ადარებენ. შეიძლება უკიდურესობამდე მივდივართ, მაგრამ ჟარგონი სერიოზული პრობლემაა.

ბოლო წლებში, კლასტერული ანალიზის განვითარება გარკვეულწილად შენელდა, თუ ვიმსჯელებთ პუბლიკაციების რაოდენობით და იმ დისციპლინების რაოდენობით, სადაც ეს მეთოდი გამოიყენება. შეგვიძლია ვთქვათ, რომ ამჟამად ფსიქოლოგია, სოციოლოგია, ბიოლოგია, სტატისტიკა და სხვა ტექნიკური დისციპლინებიშევიდეს კონსოლიდაციის ეტაპზე კლასტერული ანალიზის მიმართ.

თანდათან მცირდება სტატიების რაოდენობა, რომლებიც ადიდებენ კლასტერული ანალიზის ღირსებებს. ამავდროულად, სულ უფრო მეტი ნამუშევარია, რომლებშიც საკონტროლო მონაცემებზე შედარებულია სხვადასხვა კლასტერული მეთოდების გამოყენებადობა. ლიტერატურაში მეტი ყურადღება დაეთმო აპლიკაციებს. მრავალი კვლევა მიზნად ისახავს პრაქტიკული ზომების შემუშავებას კლასტერული ანალიზის გამოყენებით მიღებული შედეგების მართებულობის შესამოწმებლად. ეს ყველაფერი მოწმობს სერიოზულ მცდელობებზე შექმნას კლასტერული მეთოდების გონივრული სტატისტიკური თეორია.


ᲖᲐᲠᲘ

არიან ისეთებიც, ვინც ამ ამბებს შენამდე კითხულობს.
გამოიწერეთ უახლესი სტატიების მისაღებად.
ელფოსტა
სახელი
გვარი
როგორ გინდა წაიკითხო ზარი
არ არის სპამი