ХОНХ

Энэ мэдээг чамаас өмнө уншсан хүмүүс бий.
Хамгийн сүүлийн үеийн нийтлэлүүдийг авахын тулд бүртгүүлнэ үү.
Имэйл
Нэр
Овог
Та "Хонх"-ыг хэрхэн уншихыг хүсч байна вэ?
Спам байхгүй

Мэдлэгийн санд сайн ажлаа илгээх нь энгийн зүйл юм. Доорх маягтыг ашиглана уу

Мэдлэгийн баазыг суралцаж, ажилдаа ашигладаг оюутнууд, аспирантууд, залуу эрдэмтэд танд маш их талархах болно.

Оршил

1. "Кластер анализ"-ийн түүх

2.Нэр томьёо

2.1 Объект ба гарын үсэг

2.2 Объект хоорондын зай (метрик)

2.3 Багцын нягтрал ба нутагшмал байдал

2.4 Кластер хоорондын зай

3. Бүлэглэх аргууд

3.1 Шаталсан бөөгнөрөлийн аргын онцлог

3.2 Давталтын кластерийн аргын онцлог

4. Онцлогуудыг нэгтгэх

5. Бүлэглэлтийн тогтвортой байдал, чанар

Ном зүй

ОРШИЛ

"Кластерын шинжилгээ гэдэг нь тэдгээрийн хоорондох зай эсвэл холболтын (ойролцооны хэмжүүр) мэдээллийн дагуу" ойрын "объектуудын" бүлгүүдийг бие биенээсээ харьцангуй "алслагдсан" бүлэгт бүрдүүлэх зорилготой математик аргуудын багц юм. Энэ нь нэр томъёотой утгаараа төстэй: автомат ангилал, ангилал зүй, хэв маягийг багшгүйгээр таних." Кластер шинжилгээний энэхүү тодорхойлолтыг Статистикийн толь бичгийн сүүлийн хэвлэлд өгсөн болно. Үнэн хэрэгтээ "кластер шинжилгээ" нь ангилал үүсгэхэд ашигладаг нэлээд том алгоритмуудын ерөнхий нэр юм. Хэд хэдэн хэвлэлд мөн кластерийн шинжилгээнд ангилах, хуваах зэрэг ижил утгатай үгсийг ашигладаг. Шинжлэх ухаанд кластерийн шинжилгээг типологийн шинжилгээний хэрэгсэл болгон өргөн ашигладаг. Аливаа шинжлэх ухааны үйл ажиллагаанд ангилал нь үндсэн бүрэлдэхүүн хэсгүүдийн нэг бөгөөд үүнгүйгээр шинжлэх ухааны таамаглал, онолыг бий болгох, турших боломжгүй юм. Тиймээс би ажлынхаа хүрээнд кластерийн шинжилгээний асуудлуудыг (кластер шинжилгээний үндэс) авч үзэх, түүнчлэн түүний нэр томьёог авч үзэх, өгөгдөл боловсруулах энэ аргыг өөрийн үндсэн зорилго болгон ашиглах зарим жишээг өгөх шаардлагатай гэж үзэж байна.

1. "КЛАСТЕР ШИНЖИЛГЭЭ"-ИЙН ТҮҮХ

Дотоодын болон гадаадын хэвлэлд хийсэн дүн шинжилгээ нь кластерийн шинжилгээг хими, биологи, анагаах ухаан, археологи, түүх, газарзүй, эдийн засаг, филологи гэх мэт олон төрлийн шинжлэх ухааны салбарт ашигладаг болохыг харуулж байна. В.В.Налимовын "Хэлний магадлалын загвар" номонд 70 аналитик дээжийг судлахдаа кластерийн шинжилгээг ашиглах талаар тайлбарласан болно. Кластер шинжилгээний талаархи ихэнх ном зохиол сүүлийн 30 жилийн хугацаанд гарч ирсэн боловч кластерын аргуудын талаар дурдсан анхны бүтээлүүд нэлээд эрт гарч ирсэн. Польшийн антропологич К.Чекановский "бүтцийн ангилал"-ын санааг дэвшүүлсэн бөгөөд үүнд кластерийн шинжилгээний гол санаа болох объектуудын авсаархан бүлгүүдийг хуваарилах санааг агуулсан болно.

1925 онд Зөвлөлтийн гидробиологич П.В. Терентьев харилцан хамаарал бүхий шинж чанаруудыг бүлэглэх зорилготой "корреляцийн pleiades арга" гэж нэрлэгддэг аргыг боловсруулсан. Энэ арга нь график ашиглан бүлэглэх аргуудыг хөгжүүлэхэд түлхэц өгсөн. "Кластер шинжилгээ" гэсэн нэр томъёог анх Трион санал болгосон. "Кластер" гэдэг үгийг англи хэлнээс "баглаа, сойз, баглаа, бүлэг" гэж орчуулдаг. Ийм учраас энэ төрлийн шинжилгээг анх "кластерийн шинжилгээ" гэж нэрлэдэг байсан. 1950-иад оны эхээр шаталсан кластерийн шинжилгээний алгоритмын талаар Р.Льюис, Э.Фикс, Ж.Ходжес нарын нийтлэлүүд гарч ирэв. Кластерийн шинжилгээний ажлыг хөгжүүлэхэд мэдэгдэхүйц түлхэц болсон Р.Розенблаттын таних төхөөрөмж (перцептрон) дээр хийсэн ажил нь "багшгүйгээр хэв маягийг таних" онолыг хөгжүүлэх үндэс суурийг тавьсан юм.

Кластерын аргуудыг хөгжүүлэхэд түлхэц болсон нь 1963 онд хэвлэгдсэн "Тоон ангилал зүйн зарчмууд" ном юм. хоёр биологич - Роберт Сокал, Питер Снит нар. Энэхүү номын зохиогчид биологийн үр дүнтэй ангиллыг бий болгохын тулд кластер хийх журам нь судалж буй организмуудыг тодорхойлсон янз бүрийн үзүүлэлтүүдийг ашиглах, эдгээр организмын ижил төстэй байдлын түвшинг үнэлэх, ижил төстэй организмуудыг байрлуулахыг баталгаажуулах ёстой гэж үзсэн. ижил бүлэгт. Энэ тохиолдолд үүссэн бүлгүүд нь хангалттай "орон нутгийн" байх ёстой, өөрөөр хэлбэл. бүлэг доторх объектуудын (организмуудын) ижил төстэй байдал нь бүлгүүдийн ижил төстэй байдлаас давсан байх ёстой. Тодорхойлсон бүлгүүдийн дараагийн дүн шинжилгээ нь зохиогчдын үзэж байгаагаар эдгээр бүлгүүд өөр өөр биологийн зүйлтэй тохирч байгаа эсэхийг тодруулж чадна. Тиймээс Сокал, Снеат нар объектуудыг бүлэгт хуваарилах бүтцийг илчлэх нь эдгээр бүтцийг бий болгох үйл явцыг бий болгоход тусалдаг гэж үзсэн. Янз бүрийн кластер (бүлэг) -ийн организмын ялгаа, ижил төстэй байдал нь одоо байгаа хувьслын үйл явцыг ойлгох, түүний механизмыг тодруулах үндэс суурь болж чадна.

Тэр жилүүдэд J. McKean, G. Ball, D. Hall зэрэг зохиогчид k-means аргыг ашиглан олон алгоритмуудыг санал болгосон; Г.Лэнс ба В.Уильямс, Н.Жардин болон бусад - шаталсан аргын талаар. Кластер шинжилгээний аргуудыг хөгжүүлэхэд дотоодын эрдэмтэд болох Э.М.Браверман, А.А.Дорофеюк, И.Б.Мучник, Л.А.Растригин, Ю.И., Ялангуяа 60-70-аад оны үед ихээхэн хувь нэмэр оруулсан. Новосибирскийн математикч Н.Г.Загоруйко, В.Н.Элькина, Г.С.Лбов нарын боловсруулсан олон тооны алгоритмууд маш их алдартай байв. Эдгээр нь FOREL, BIGFOR, KRAB, NTTP, DRET, TRF гэх мэт алдартай алгоритмууд юм. Эдгээр багцууд дээр үндэслэн тусгай OTEX програм хангамжийн багцыг бүтээсэн. Үүнээс багагүй сонирхолтой програм хангамжийн бүтээгдэхүүн PPSA болон Klass-Master-ийг Москвагийн математикч С.А.Айвазян, И.С.Енуков, Б.Г.Миркин нар бүтээжээ.

SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS зэрэг дотоодын болон гадаадын хамгийн алдартай статистикийн багцуудад тодорхой хэмжээгээр кластер шинжилгээний аргууд байдаг. , GENSTAT, S -PLUS гэх мэт. Мэдээжийн хэрэг, энэхүү тоймыг гаргаснаас хойш 10 жилийн дараа маш их зүйл өөрчлөгдсөн, статистикийн олон програмын шинэ хувилбарууд гарч ирж, шинэ алгоритмуудыг ашигладаг цоо шинэ програмууд гарч ирж, хүч чадлыг ихээхэн нэмэгдүүлсэн. компьютерийн шинжлэх ухаан. Гэсэн хэдий ч ихэнх статистикийн багцууд нь 60-70-аад оны үед санал болгож, боловсруулсан алгоритмуудыг ашигладаг.

Мэргэжилтнүүдийн ойролцоогоор тооцоолсноор кластерийн шинжилгээ, түүний мэдлэгийн янз бүрийн салбарт ашиглах талаархи нийтлэлийн тоо гурван жил тутамд хоёр дахин нэмэгддэг. Энэ төрлийн шинжилгээг ийм их сонирхох болсон шалтгаан юу вэ? Объектив байдлаар энэ үзэгдлийн гурван үндсэн шалтгаан бий. Энэ бол хүчирхэг тооцоолох технологи бий болсон бөгөөд үүнгүйгээр бодит өгөгдөлд кластер шинжилгээ хийх нь бараг боломжгүй юм. Хоёрдахь шалтгаан нь орчин үеийн шинжлэх ухаан барилга байгууламжийн ангилалд тулгуурлан улам бүр нэмэгдсээр байна. Түүнээс гадна энэ үйл явц улам бүр гүнзгийрч байна, учир нь үүнтэй зэрэгцэн мэдлэгийн мэргэшил нэмэгдэж байгаа бөгөөд энэ нь хангалттай объектив ангилалгүйгээр боломжгүй юм.

Гурав дахь шалтгаан - тусгай мэдлэгийг гүнзгийрүүлэх нь тодорхой объект, үзэгдлийн шинжилгээнд харгалзан үзсэн хувьсагчдын тоог нэмэгдүүлэхэд хүргэдэг. Үүний үр дүнд өмнө нь нэлээд цөөн тооны шинж чанарыг харгалзан үзсэн субьектив ангилал нь ихэвчлэн найдваргүй болдог. Өсөн нэмэгдэж буй объектын шинж чанар бүхий объектив ангилал нь зөвхөн орчин үеийн компьютерийн үндсэн дээр хэрэгжиж болох нарийн төвөгтэй кластерийн алгоритмуудыг ашиглахыг шаарддаг. Эдгээр шалтгаанууд нь "кластер тэсрэлт"-ийг бий болгосон. Гэсэн хэдий ч эмч, биологичдын дунд кластерийн шинжилгээ нь нэлээд түгээмэл, түгээмэл судалгааны арга болж чадаагүй байна.

2 НЭР томьёо

2. 1 ОБЪЕКТ, ГАРЫН ТА

Эхлээд объект, шинж чанар гэх мэт ойлголтуудыг танилцуулъя. Объект - Латин хэлний объектум - субъект. Хими, биологитой холбоотой объектуудын хувьд бид физик, химийн болон бусад аргуудыг ашиглан судалж буй судалгааны тодорхой сэдвүүдийг хэлнэ. Ийм объектууд нь жишээ нь дээж, ургамал, амьтан гэх мэт байж болно. Судлаачдад судлах боломжтой объектын тодорхой багцыг түүвэр буюу түүвэр багц гэж нэрлэдэг. Ийм олонлогийн объектын тоог ихэвчлэн түүврийн хэмжээ гэж нэрлэдэг. Ихэвчлэн түүврийн хэмжээг Латин үсгээр "n" эсвэл "N" гэж тэмдэглэдэг.

Тэмдэг (синоним - шинж чанар, хувьсагч, шинж чанар; англи хэл - хувьсагч - хувьсагч.) - объектын тодорхой шинж чанар юм. Эдгээр шинж чанаруудыг тоон болон тоон бус утгуудаар илэрхийлж болно. Жишээлбэл, цусны даралтыг (систолын эсвэл диастолын) мөнгөн усны миллиметрээр, жинг килограммаар, өндрийг сантиметрээр хэмждэг. Ийм шинж тэмдэг нь тоон шинж чанартай байдаг. Эдгээр тасралтгүй тоон шинж чанаруудаас (масштаб) ялгаатай нь хэд хэдэн онцлог нь салангид, тасалдалтай утгатай байж болно. Хариуд нь ийм салангид шинж чанаруудыг ихэвчлэн хоёр бүлэгт хуваадаг.

1) Эхний бүлэг нь эрэмбийн хувьсагч эсвэл тэдгээрийг дарааллын хувьсагч (масштаб) гэж нэрлэдэг. Ийм тэмдгүүд нь эдгээр утгыг эрэмбэлэх шинж чанараараа тодорхойлогддог. Үүнд тодорхой өвчний үе шат, насны бүлэг, сурагчдын мэдлэгийн оноо, Рихтерийн газар хөдлөлтийн 12 баллын хуваарь гэх мэт орно.

2) Хоёрдахь бүлгийн салангид шинж чанарууд нь ийм дараалалгүй бөгөөд нэрлэсэн ("нэрлэсэн" гэсэн үгнээс - дээж) эсвэл ангиллын шинж чанарууд гэж нэрлэдэг. Ийм шинж тэмдгийн жишээ нь өвчтөний нөхцөл байдал - "эрүүл" эсвэл "өвчтэй", өвчтөний хүйс, ажиглалтын хугацаа - "эмчилгээний өмнө", "эмчилгээний дараа" гэх мэт байж болно. Эдгээр тохиолдолд ийм шинж чанарууд нь нэрсийн масштабтай холбоотой гэж хэлэх нь заншилтай байдаг.

Объект ба шинж чанарын тухай ойлголтыг ихэвчлэн "Объект-шинж чанар" эсвэл "Объект-онцлог" матриц гэж нэрлэдэг. Матриц нь судалж буй ажиглалтын түүврийн шинж чанарыг тодорхойлсон шинж чанаруудын утгуудаас бүрдэх тэгш өнцөгт хүснэгт болно. Энэ хүрээнд нэг ажиглалтыг ашигласан шинж чанаруудын утгуудаас бүрдсэн тусдаа мөрөнд бүртгэнэ. Ийм өгөгдлийн матриц дахь тусдаа атрибут нь дээж дэх бүх объектын энэ шинж чанарын утгуудаас бүрдэх баганаар дүрслэгдэх болно.

2. 2 ОБЬЕКТИЙН ХООРОНДЫН ЗАЙ (METRIC)

"Объект хоорондын зай" гэсэн ойлголтыг танилцуулъя. Энэ ойлголт нь бие биетэйгээ ижил төстэй объектуудын салшгүй хэмжүүр юм. Онцлог орон зай дахь объектуудын хоорондох зай нь дараах аксиомуудыг хангасан d ij утгатай байна.

1. d ij > 0 (зайны сөрөг бус байдал)

2. d ij = d ji (тэгш хэм)

3. d ij + d jk > d ik (гурвалжны тэгш бус байдал)

4. Хэрэв d ij нь 0-тэй тэнцүү биш бол i нь j-тэй тэнцүү биш (ижил бус объектуудыг ялгах чадвар)

5. Хэрэв d ij = 0 бол i = j (ижил биетүүдийн ялгагдахгүй байдал)

Объектуудын ойролцоо (ижил төстэй) хэмжигдэхүүнийг илэрхийлэхэд тохиромжтой харилцанобъектуудын хоорондох зай дээр. Кластерийн шинжилгээнд зориулсан олон тооны хэвлэлд объект хоорондын зайг тооцоолох 50 гаруй аргыг тайлбарласан байдаг. Уран зохиолд "зай" гэсэн нэр томъёоноос гадна өөр нэг нэр томъёо байдаг - "метр" гэдэг нь тодорхой зайг тооцоолох аргыг илэрхийлдэг. Тоон үзүүлэлтүүдийн хувьд ойлголт, ойлголтод хамгийн хүртээмжтэй нь "Евклидийн зай" эсвэл "Евклидийн хэмжүүр" гэж нэрлэгддэг. Энэ зайг тооцоолох томъёо нь:

Энэ томьёо нь дараах тэмдэглэгээг ашигладаг.

· d ij - i-р ба j-р объектуудын хоорондох зай;

· x ik - i-р объектын хувьд k-р хувьсагчийн тоон утга;

· x jk - j-р объектын k-р хувьсагчийн тоон утга;

· v - объектыг дүрсэлсэн хувьсагчийн тоо.

Иймээс v=2 тохиолдлын хувьд зөвхөн хоёр тоон тэмдэгтэй үед d ij зай нь тэгш өнцөгт координатын системийн хоёр цэгийг холбосон тэгш өнцөгт гурвалжны гипотенузын урттай тэнцүү байх болно. Эдгээр хоёр цэг нь түүврийн i-р ба j-р ажиглалттай тохирно. Ихэнхдээ ердийн Евклидийн зайны оронд түүний квадрат d 2 ij ашигладаг. Нэмж дурдахад зарим тохиолдолд "жигнэсэн" Евклидийн зайг ашигладаг бөгөөд үүнийг тооцоолохдоо жингийн коэффициентийг бие даасан нэр томъёонд ашигладаг. Евклидийн хэмжүүрийн тухай ойлголтыг харуулахын тулд бид энгийн сургалтын жишээг ашигладаг. Доорх хүснэгтэд үзүүлсэн өгөгдлийн матриц нь 5 ажиглалт, хоёр хувьсагчаас бүрдэнэ.

Хүснэгт 1

Таван ажиглагдсан дээж, хоёр хувьсагчийн өгөгдлийн матриц.

Евклидийн хэмжигдэхүүнийг ашиглан бид d ij - i-р ба j-р объектуудын хоорондох зай гэсэн утгуудаас бүрдэх объект хоорондын зайны матрицыг тооцоолно. Манай тохиолдолд i ба j нь объектын тоо, ажиглалт юм. Түүврийн хэмжээ 5 тул i ба j нь 1-ээс 5 хүртэлх утгыг авч болно. Мөн бүх боломжит хос зайн тоо 5*5=25 байх нь ойлгомжтой. Үнэн хэрэгтээ, эхний объектын хувьд эдгээр нь дараах зай байх болно: 1-1; 1-2; 1-3; 1-4; 1-5. 2-р объектын хувьд мөн 5 боломжит зай байх болно: 2-1; 2-2; 2-3; 2-4; 2-5 гэх мэт. Гэсэн хэдий ч тоо өөр өөр зайИжил объектуудын үл ялгах шинж чанарыг харгалзан үзэх шаардлагатай тул 25-аас бага байх болно - i = j-ийн хувьд d ij = 0. Энэ нь №1 объект болон ижил объектын №1 хоорондын зай тэг болно гэсэн үг юм. Бусад бүх тохиолдлуудад i = j гэсэн тэг зай ижил байх болно. Үүнээс гадна тэгш хэмийн шинж чанараас харахад дурын i ба j-ийн хувьд d ij = d ji байна. Тэдгээр. №1 ба №2 объектын хоорондох зай нь №2 ба №1 объектын хоорондох зайтай тэнцүү байна.

Евклидийн зайны илэрхийлэл нь ерөнхийлсөн Минковскийн чадлын зайтай маш төстэй бөгөөд үүнд хоёр зэрэглэлийн оронд өөр утгыг ашигладаг. Ерөнхий тохиолдолд энэ утгыг "p" тэмдгээр тэмдэглэнэ.

p = 2-ын хувьд бид ердийн Евклидийн зайг авна. Минковскийн ерөнхий хэмжүүрийн илэрхийлэл нь дараах хэлбэртэй байна.

"p" илтгэгчийн тодорхой утгын сонголтыг судлаач өөрөө хийдэг.

Минковскийн зайн онцгой тохиолдол бол p=1-д харгалзах Манхэттэн зай буюу "хотын блокийн зай" юм.

Тиймээс Манхэттэний зай нь объектуудын харгалзах шинж чанаруудын ялгааны модулиудын нийлбэр юм. p-ийг хязгааргүйд чиглүүлбэл "давамгайлал" хэмжигдэхүүн буюу Суп-метрийг авна:

Үүнийг мөн d ij = max| хэлбэрээр илэрхийлж болно x ik - x jk |.

Minkowski хэмжигдэхүүн нь үнэндээ хамгийн алдартай хэмжигдэхүүнүүдийг багтаасан том гэр бүл юм. Гэсэн хэдий ч объект хоорондын зайг тооцоолох Minkowski хэмжүүрээс үндсэндээ ялгаатай аргууд байдаг. Эдгээрээс хамгийн чухал нь Махаланобисын зай гэж нэрлэгддэг бөгөөд энэ нь нэлээд өвөрмөц шинж чанартай байдаг. Энэ хэмжүүрийн илэрхийлэл:

Эндээс X биболон X j i-р ба j-р объектуудын хувьсах утгын баганын векторуудыг зааж өгсөн болно. Тэмдэг Т илэрхийлэлд (X би - X j ) Т вектор шилжүүлэн суулгах үйл ажиллагаа гэж нэрлэгддэг үйлдлийг илэрхийлдэг. Тэмдэг С нийтлэг бүлгийн дотоод дисперс-ковариацын матрицыг зааж өгсөн болно. Билэг тэмдэг -1 дээрх С матрицыг эргүүлэх хэрэгтэй гэсэн үг С . Минковски ба Евклидийн хэмжүүрээс ялгаатай нь варианс-ковариацын матрицаар дамжих Махаланобисын зай С хувьсагчдын хамааралтай холбоотой. Хувьсагчдын хоорондын хамаарал тэг байх үед Махаланобисын зай нь Евклидийн зайны квадраттай тэнцүү байна.

Дихотомийн (хоёрхон утгатай) чанарын шинж чанарыг ашиглах тохиолдолд Хаммингийн зайг өргөн ашигладаг.

авч үзсэн i-р ба j-р объектын харгалзах шинж чанаруудын утгуудын үл нийцэх тоотой тэнцүү байна.

2. 3 КЛАСТЕРИЙН Нягтшил, НУТАГ

Кластер шинжилгээний гол зорилго нь түүвэр дотроос өөр хоорондоо төстэй объектуудын бүлгийг олох явдал юм. Зарим боломжит аргуудын тусламжтайгаар бид ийм бүлгүүд - кластеруудыг олж авсан гэж бодъё. Кластерын чухал шинж чанаруудыг тэмдэглэх нь зүйтэй. Эдгээр шинж чанаруудын нэг нь цэгүүдийн тархалтын нягтрал, кластер доторх ажиглалт юм. Энэ шинж чанар нь олон хэмжээст орон зайн бусад бүс нутгуудтай харьцуулахад харьцангуй нягт, цэгүүдийг огт агуулаагүй эсвэл цөөн тооны ажиглалт агуулсан цэгүүдийн бөөгнөрлийг кластер гэж тодорхойлох боломжийг бидэнд олгодог. Өөрөөр хэлбэл, энэ кластер хэр нягт, эсвэл эсрэгээрээ, хэр сийрэг вэ. Энэ өмчийн хангалттай нотолгоо байгаа хэдий ч ийм үзүүлэлтийг (нягтрал) тооцоолох хоёрдмол утгагүй арга байхгүй. Өгөгдсөн кластер дахь олон хэмжээст ажиглалтын нягтрал, нягтралыг тодорхойлдог хамгийн амжилттай үзүүлэлт бол кластерын төвөөс кластерын бие даасан цэг хүртэлх зайны тархалт юм. Энэ зайны тархалт бага байх тусам ажиглалтууд кластерын төв рүү ойртох тусам бөөгнөрөлийн нягтрал ихсэх болно. Мөн эсрэгээр, зайны тархалт их байх тусам энэ кластер илүү сийрэг байдаг бөгөөд ингэснээр кластерын төвийн ойролцоо, мөн кластерын төвөөс нэлээд хол зайд байрладаг цэгүүд байдаг.

Кластеруудын дараагийн шинж чанар нь тэдгээрийн хэмжээ юм. Кластерын хэмжээг тодорхойлох гол үзүүлэлт нь түүний "радиус" юм. Хэрэв тооцоолсон кластер нь дугуй хэлбэртэй, олон хэмжээст орон зайд хэт бөмбөрцөг хэлбэртэй байвал энэ шинж чанар нь кластерын бодит хэмжээг бүрэн илэрхийлдэг. Гэсэн хэдий ч кластерууд нь уртассан хэлбэртэй байвал радиус эсвэл диаметр гэсэн ойлголт нь кластерын жинхэнэ хэмжээг тусгахаа больсон.

Кластерын өөр нэг чухал шинж чанар бол тэдгээрийн байршил, салангид байдал юм. Энэ нь олон хэмжээст орон зайд кластеруудын бие биенээсээ алслагдсан байдал, давхцлын зэргийг тодорхойлдог. Жишээлбэл, доорх зураг дээрх шинэ, нэгдсэн шинж чанаруудын орон зайд гурван кластерын тархалтыг авч үзье. 1 ба 2-р тэнхлэгийг электрон микроскоп ашиглан судалсан янз бүрийн хэлбэрийн эритроцитуудын тусгал шинж чанарын 12 онцлогоос тусгай аргаар гаргаж авсан.

Зураг 1

1-р кластер хамгийн бага хэмжээтэй бол 2 ба 3-р кластерууд ойролцоогоор ижил хэмжээтэй байгааг бид харж байна. Үүний зэрэгцээ бид хамгийн бага нягтрал, улмаар хамгийн их зайны тархалт нь 3-р кластерын шинж чанар гэж хэлж болно. Үүнээс гадна кластер 1 нь кластер 2 болон кластер 3-аас хангалттай том хоосон зайгаар тусгаарлагдсан байдаг. Харин кластерууд 2 ба 3 нь бие биетэйгээ хэсэгчлэн давхцдаг. Сонирхолтой нь кластер 1 нь 1-р тэнхлэгийн дагуух 2 ба 3-р кластеруудаас 2-р тэнхлэгийн дагуухаас хамаагүй их ялгаатай байдаг. Эсрэгээр, 2 ба 3-р кластерууд нь 1-р тэнхлэгийн дагуу болон 2-р тэнхлэгийн дагуу бие биенээсээ ойролцоогоор тэнцүү ялгаатай байдаг. Мэдээжийн хэрэг, ийм харааны дүн шинжилгээ хийхийн тулд дээжийн бүх ажиглалтыг тусгай тэнхлэгт төлөвлөх шаардлагатай бөгөөд үүнд кластерийн элементүүдийн төсөөлөл нь тусдаа кластер хэлбэрээр харагдах болно.

2. 4 КЛАСТЕР ХООРОНДЫН ЗАЙ

Өргөн утгаараа объектыг "объект-өмчийн" матрицад тусдаа шугам хэлбэрээр харуулсан судалгааны анхны субьектууд, эсвэл олон хэмжээст шинж чанарын орон зайн бие даасан цэгүүд гэж ойлгохоос гадна эдгээр цэгүүдийн тусдаа бүлэг гэж ойлгож болно. , нэг эсвэл өөр алгоритмаар нэгтгэсэн кластерт. Энэ тохиолдолд ийм цэгүүдийн хуримтлал (кластер) хоорондын зайг хэрхэн ойлгох, яаж тооцоолох вэ гэсэн асуулт гарч ирдэг. Энэ тохиолдолд боломжуудын олон янз байдал нь олон хэмжээст орон зайд хоёр ажиглалтын хоорондох зайг тооцоолохоос ч илүү юм. Энэ процедур нь цэгүүдээс ялгаатай нь кластерууд нь тодорхой хэмжээний олон хэмжээст орон зайг эзэлдэг бөгөөд олон цэгээс бүрддэг тул төвөгтэй байдаг. Кластерийн шинжилгээнд хамгийн ойрын хөрш (хамгийн ойрын хөрш), таталцлын төв, хамгийн хол хөрш, медиануудын зарчмаар тооцдог кластер хоорондын зайг өргөн ашигладаг. Нэг холбоос, бүтэн холбоос, дундаж холбоос, Вардын арга гэсэн дөрвөн аргыг хамгийн өргөн ашигладаг. Нэг холбоосын аргын хувьд кластерын дор хаяж нэг элемент нь нэгдэж буй объекттой ижил түвшний ижил төстэй байвал объектыг аль хэдийн байгаа кластерт хавсаргана. Бүрэн холболтын аргын хувьд, оруулах нэр дэвшигч болон кластерын аль нэг элементийн хоорондох ижил төстэй байдал нь тодорхой босго хэмжээнээс багагүй тохиолдолд л объектыг кластерт хавсаргана. Дундаж холболтын аргын хувьд хэд хэдэн өөрчлөлтүүд байдаг бөгөөд эдгээр нь дан болон бүрэн холболтын хооронд буулт хийдэг. Тэд одоо байгаа кластерын бүх объекттой оруулах нэр дэвшигчийн ижил төстэй байдлын дундаж утгыг тооцоолно. Олдсон ижил төстэй байдлын дундаж утга нь тодорхой босго хэмжээнд хүрэх буюу түүнээс давсан тохиолдолд хавсралтыг гүйцэтгэдэг. Хамгийн түгээмэл хэрэглэгддэг зүйл бол кластерын объект болон кластерт оруулах нэр дэвшигчийн хоорондох арифметик дундаж ижил төстэй байдал юм.

Кластерын олон аргууд нь алгоритмууд нь алхам бүртээ төрөл бүрийн хуваалтын чанарын функцуудыг тооцдогоороо бие биенээсээ ялгаатай. Алдартай Тойргийн аргыг кластер доторх зайн хамгийн бага хэлбэлзлийг оновчтой болгох үүднээс бүтээдэг. Эхний алхамд кластер бүр нь нэг объектоос бүрдэх ба үүний улмаас кластер доторх зайны тархалт 0-тэй тэнцүү байна. Энэ аргаар дисперсийн хамгийн бага өсөлтийг өгдөг объектуудыг нэгтгэдэг бөгөөд үүний үр дүнд энэ арга нь хэт бөмбөрцөг хэлбэртэй кластер үүсгэх.

Кластер шинжилгээний аргуудыг ангилах олон оролдлого нь хэдэн арван эсвэл бүр хэдэн зуун өөр өөр ангиудад хүргэдэг. Ийм олон янз байдал нь бие даасан ажиглалтын хоорондох зайг тооцоолох олон тооны боломжит аргууд, кластер хийх явцад тусдаа кластер хоорондын зайг тооцоолох цөөнгүй тооны аргууд, эцсийн кластерийн бүтцийн оновчтой байдлын янз бүрийн тооцооллуудаас бүрддэг.

Алдартай статистикийн багцад хамгийн өргөн хэрэглэгддэг нь кластерийн шинжилгээний хоёр бүлэг алгоритмууд: шаталсан бөөгнөрөлийн аргууд ба давталтын бүлэглэлийн аргууд.

3. БҮЛЭГЛЭХ АРГА

3. 1 ШАТНАЛТЫН АГЛОМЕРАТИВ АРГЫН ОНЦЛОГ

Бодит биоанагаах ухааны судалгаанд илүү их ашиглагддаг бөөгнөрөл шаталсан алгоритмуудад эхлээд бүх объектыг (ажиглалт) зөвхөн нэг элементээс бүрдсэн тусдаа, бие даасан кластер гэж үздэг. Хүчирхэг компьютерийн технологийг ашиглахгүйгээр кластерийн өгөгдлийн шинжилгээг хэрэгжүүлэх нь маш их асуудалтай байдаг.

Хэмжилтийн сонголтыг судлаач өөрөө хийдэг. Зайны матрицыг тооцоолсны дараа процесс эхэлнэ бөөгнөрөл (Латин агломеро - би хавсаргаж, хуримтлуулдаг), алхам алхмаар дараалан дамждаг. Энэ үйл явцын эхний шатанд хамгийн бага зайтай хоёр анхны ажиглалт (монокластер) нь аль хэдийн хоёр объект (ажиглалт) -аас бүрдсэн нэг кластерт нэгтгэгддэг. Тиймээс, өмнөх N монокластеруудын (нэг объектоос бүрдэх кластерууд) оронд эхний алхамын дараа N-1 кластерууд гарч ирэх бөгөөд тэдгээрийн нэг кластер нь хоёр объект (ажиглалт) байх бөгөөд N-2 кластерууд нь зөвхөн нэг объект. Хоёр дахь шатанд N-2 кластеруудыг нэгтгэх янз бүрийн аргууд боломжтой. Учир нь эдгээр кластеруудын аль нэг нь хоёр объектыг агуулж байна. Ийм учраас хоёр үндсэн асуулт гарч ирнэ.

· хоёр (мөн хоёроос дээш) объектын ийм кластерын координатыг хэрхэн тооцоолох;

· "монокластер"-аас ийм "полиобъект" кластер хүртэлх зай болон "поли объект" кластер хоорондын зайг хэрхэн тооцоолох.

Эцсийн эцэст эдгээр асуултууд нь эцсийн кластеруудын эцсийн бүтцийг тодорхойлдог (кластерын бүтэц гэдэг нь тусдаа кластеруудын бүтэц, олон хэмжээст орон зай дахь тэдгээрийн харьцангуй байрлалыг хэлнэ). Кластеруудын координат ба харилцан зайг тооцоолох хэмжүүр, аргуудын янз бүрийн хослолууд нь кластерын шинжилгээний олон янзын аргуудыг бий болгодог. Хоёрдахь шатанд хэд хэдэн объектоос бүрдэх кластерын координатыг тооцоолох сонгосон арга, бөөгнөрөл хоорондын зайг тооцоолох аргаас хамааран хоёр тусдаа ажиглалтыг шинэ кластерт нэгтгэх эсвэл нэг шинэ ажиглалтыг нэгтгэх боломжтой. хоёр объектоос бүрдсэн кластерт ажиглалт хийх. Тохиромжтой болгохын тулд ажлын төгсгөлд бөөгнөрөл-шаталсан аргын ихэнх програмууд нь үзэх хоёр үндсэн графикийг өгөх боломжтой. Эхний графикийг дендрограм гэж нэрлэдэг (Грекийн dendron - мод) нь бөөгнөрөл үүсэх үйл явц, бие даасан ажиглалтыг нэг эцсийн кластер болгон нэгтгэх үйл явцыг тусгасан. Хоёр хувьсагчтай 5 ажиглалтын дендрограмын жишээг өгье.

Хуваарь1

Ийм графикийн босоо тэнхлэг нь кластер хоорондын зайны тэнхлэг бөгөөд объектуудын тоо - шинжилгээнд ашигласан тохиолдлууд - хэвтээ тэнхлэгийн дагуу тэмдэглэгдсэн байдаг. Энэ дендрограмаас харахад 1 ба 2 дугаар объектуудын хоорондох зай нь хамгийн бага бөгөөд 1-тэй тэнцүү тул эхлээд нэг кластерт нэгтгэгддэг. Энэхүү нэгдлийг график дээр босоо сегментүүдийг холбосон хэвтээ шугамаар харуулав. C_1 ба C_2 гэж тэмдэглэгдсэн цэгүүдээс гарч ирэх. Хэвтээ шугам нь өөрөө бөөгнөрөл хоорондын зайн 1-тэй тэнцүү түвшинд яг дамждаг гэдгийг анхааръя. Цаашлаад хоёр дахь шатанд C_3 гэж тодорхойлсон №3 объект аль хэдийн хоёр объектыг багтаасан энэ кластерт нэгдэнэ. Дараагийн алхам нь №4 ба №5 объектуудыг нэгтгэх явдал бөгөөд тэдгээрийн хоорондох зай нь 1.41-тэй тэнцүү байна. Мөн сүүлийн алхамд 1, 2, 3-р объектын кластерийг 4, 5-р объектын кластертай нэгтгэнэ. Графикаас харахад эдгээр хоёр сүүлчийн кластерын хоорондох зай (сүүлийн кластерт бүх 5 объект багтана) 5-аас их байна. , гэхдээ 6-аас бага, учир нь эцсийн хоёр кластерыг холбосон дээд хэвтээ шугам нь ойролцоогоор 7-той тэнцүү түвшинд дамждаг бөгөөд 4 ба 5-р объектуудын холболтын түвшин 1.41 байна.

Доорх дендрограммыг боловсруулсан 70-аас бүрдсэн бодит мэдээллийн багцад дүн шинжилгээ хийх замаар олж авсан химийн дээж, тус бүр нь 12 онцлог шинж чанартай байв.

График 2

Сүүлийн шатанд сүүлийн хоёр кластер нэгдэх үед тэдгээрийн хоорондын зай 200 нэгж болж байгааг графикаас харж болно. Эндээс харахад эхний кластерт хоёр дахь кластераас хамаагүй цөөн объект багтсан байна.Доор нь C_65, C_58 гэх мэтээр тэмдэглэсэн ажиглалтын тоо тодорхой харагдах дендрограммын томруулсан хэсгийг үзүүлэв. (зүүнээс баруун тийш): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 гэх мэт.

График 3 Дээрх графикийн №2 томруулсан хэсэг

44-р объект нь сүүлчийн алхамд баруун кластертай нийлдэг монокластер бөгөөд эцсийн шатанд бүх ажиглалтыг нэг кластерт нэгтгэдэг болохыг харж болно.

Ийм журмын дагуу бүтээгдсэн өөр нэг график бол нэгдлийн алхам бүр дэх кластер хоорондын зайны график юм. Дээрх дендрограммын ижил төстэй схемийг доор харуулав.

График 4

Хэд хэдэн программуудад кластер хийх алхам бүрт объектуудыг нэгтгэсний үр дүнг хүснэгт хэлбэрээр харуулах боломжтой. Эдгээр хүснэгтийн ихэнхэд төөрөгдөл гаргахгүйн тулд анхны ажиглалтууд - монокластерууд, хоёр ба түүнээс дээш ажиглалтаас бүрдсэн бодит кластеруудыг тодорхойлох өөр нэр томъёог ашигладаг. Англи хэл дээрх статистикийн багцад анхны ажиглалтыг (өгөгдлийн матрицын мөр) "хэрэг" - тохиолдол гэж тодорхойлсон. Кластерийн бүтэц нь хэмжүүрийн сонголт болон кластерын нэгдлийн алгоритмын сонголтоос хамааралтай болохыг харуулахын тулд бид бүрэн холболтын алгоритмд тохирох дендрограммыг доор үзүүлэв. Эндээс бид 44-р объектыг хамгийн сүүлийн шатанд үлдсэн сонголттой нэгтгэж байгааг харж байна.

График 5

Одоо ижил өгөгдөл дээр нэг холбоосын аргыг ашиглан олж авсан өөр диаграммтай харьцуулж үзье. Бүрэн холболтын аргаас ялгаатай нь энэ арга нь бие биендээ дараалсан залгагдсан объектуудын урт гинжийг үүсгэдэг болохыг харж болно. Гэсэн хэдий ч гурван тохиолдолд хоёуланд нь хоёр үндсэн бүлэг ялгардаг гэж хэлж болно.

График 6

Гурван тохиолдлын хувьд 44-р объект нь бөөгнөрөх үйл явцын өөр өөр үе шатанд монокластер хэлбэрээр нэгдэж байгааг анхаарч үзье. Ийм монокластеруудыг сонгох нь гадуурх гэж нэрлэгддэг хэвийн бус ажиглалтыг илрүүлэх сайн хэрэгсэл юм. Энэ 44-р "сэжигтэй" объектыг устгаад дахин бөөгнөрөл хийцгээе. Бид дараах дендрограммыг авна.

График 7

Орон нутгийн ажиглалтын хоёр бүлэгт хуваагдсан шиг "гинжин" нөлөө хадгалагдаж байгааг харж болно.

3. 2 ДАВТАЛТЫН КЛАСТЕРЛЭХ АРГЫН ОНЦЛОГ

Давталтын аргуудын дотроос хамгийн алдартай арга бол МакКины k-means арга юм. Шаталсан аргуудаас ялгаатай нь энэ аргын ихэнх хэрэгжилтэд хэрэглэгч өөрөө хүссэн тооны эцсийн кластеруудыг зааж өгөх ёстой бөгөөд үүнийг ихэвчлэн "k" гэж тэмдэглэдэг. Шаталсан кластерын аргуудын нэгэн адил хэрэглэгч нэг буюу өөр төрлийн хэмжигдэхүүнийг сонгох боломжтой. k-means аргын өөр өөр алгоритмууд нь өгөгдсөн кластеруудын анхны төвүүдийг сонгох арга барилаараа ялгаатай байдаг. Аргын зарим хувилбаруудад хэрэглэгч өөрөө ийм анхны цэгүүдийг бодит ажиглалтаас сонгох эсвэл эдгээр цэгүүдийн координатыг хувьсагчид тус бүрээр зааж өгөх боломжтой (эсвэл заавал байх ёстой). Энэ аргын бусад хэрэгжилтийн хувьд эхний цэгүүдийн өгөгдсөн тооны k-ийн сонголтыг санамсаргүй байдлаар хийдэг бөгөөд эдгээр анхны цэгүүдийг (кластер үр тариа) дараа нь хэд хэдэн үе шаттайгаар сайжруулж болно. Ийм аргын 4 үндсэн үе шат байдаг:

· кластеруудын үндсэн төв болох k ажиглалтыг сонгох буюу хуваарилах;

· шаардлагатай бол ажиглалт бүрийг хамгийн ойр байрлах кластерийн төвүүдэд хуваарилах замаар завсрын кластеруудыг бүрдүүлнэ;

· бүх ажиглалтыг тус тусад нь кластерт хуваарилсны дараа кластерын анхдагч төвүүдийг кластерын дундажаар солино;

· кластерын төвүүдийн координатын өөрчлөлт хамгийн бага болох хүртэл өмнөх давталт давтагдана.

Энэ аргын зарим хувилбаруудад хэрэглэгч шалгуурын тоон утгыг тохируулах боломжтой бөгөөд энэ нь кластерын шинэ төвүүдийг сонгох хамгийн бага зай гэж тайлбарлагддаг. Ажиглалтыг нэр дэвшигч гэж үзэхгүй шинэ төвкластер, хэрэв кластерын орлуулсан төв хүртэлх зай нь заасан тооноос давсан бол. Энэ параметрийг зарим программд "радиус" гэж нэрлэдэг. Энэ параметрээс гадна давталтын хамгийн их тоог тохируулах эсвэл бүх кластерын төвүүдийн зайны өөрчлөлтийг харьцуулах тодорхой, ихэвчлэн нэлээд бага тоонд хүрэх боломжтой. Энэ тохиргоог ихэвчлэн "конвергенц" гэж нэрлэдэг, учир нь давтагдах бөөгнөрөлийн үйл явцын нэгдмэл байдлыг илэрхийлдэг. Өмнөх өгөгдлүүдэд McKean k-means аргыг ашиглан олж авсан зарим үр дүнг доор харуулав. Хүссэн кластеруудын тоог эхлээд 3, дараа нь 2 болгож тохируулсан. Тэдний эхний хэсэг нь нэг хүчин зүйлийн үр дүнг агуулна. дисперсийн шинжилгээ, үүнд кластерын дугаар нь бүлэглэх хүчин зүйл болдог. Эхний баганад 12 хувьсагчийн жагсаалт, дараа нь квадратуудын нийлбэр (SS) ба эрх чөлөөний зэрэг (df), дараа нь Фишерийн F-тест, сүүлчийн баганад хүрсэн ач холбогдлын түвшин "p" байна.

Хүснэгт 2 McKean k-70 туршилтын дээжинд хамаарах өгөгдөл гэсэн үг.

Хувьсагч

Энэ хүснэгтээс харахад гурван бүлгийн хэрэгслийн тэгш байдлын талаархи тэг таамаглалыг үгүйсгэж байна. Доорх нь тусдаа кластеруудын бүх хувьсагчийн дундажуудын график юм. Хувьсагчдын ижил кластерын утгыг хүснэгт хэлбэрээр доор үзүүлэв.

Хүснэгт 3. Гурван кластерын жишээн дээрх өгөгдлийн дэлгэрэнгүй тойм.

Хувьсагч

Кластер №1

№2 кластер

Кластер №3

График 8

Кластер бүрийн хувьсагчдын дундаж утгыг шинжлэх нь X1 шинж чанарын дагуу 1 ба 3-р кластерууд ойролцоо утгатай, 2-р кластер нь бусад хоёр кластераас хамаагүй бага дундаж утгатай байна гэж дүгнэх боломжийг олгодог. Харин эсрэгээр X2 онцлогоос харахад эхний кластер хамгийн бага утгатай байхад 2, 3-р кластерууд илүү өндөр, ойролцоо дундаж утгатай байна. X3-X12 шинж чанаруудын хувьд 1-р кластерын дундаж утга нь кластер 2 ба 3-аас хамаагүй өндөр байна. Хоёр кластерт кластерын үр дүнгийн ANOVA шинжилгээний дараах хүснэгт нь тэгш байдлын талаархи тэг таамаглалыг үгүйсгэх шаардлагатай байгааг харуулж байна. бүлгийн утга нь X4 хувьсагчаас бусад бараг бүх 12 шинж чанарын хувьд хүрсэн ач холбогдлын түвшин 5% -иас дээш гарсан байна.

Хүснэгт 4. Хоёр кластерт бөөгнүүлсний үр дүнгийн дисперсийн шинжилгээний хүснэгт.

Хувьсагч

Доорх нь хоёр кластерт хуваагдах тохиолдолд бүлгийн хэрэгслийн график ба хүснэгтийг үзүүлэв.

Хүснэгт 5. Хоёр кластерт бөөгнөрөх тохиолдлын хүснэгт.

Хувьсагч

Кластер №1

№2 кластер

График 9.

Судлаач хамгийн их магадлалтай кластерын тоог урьдчилан тодорхойлох боломжгүй тохиолдолд тооцооллыг давтаж, дээр дурдсантай адил өөр тоог тогтоох шаардлагатай болдог. Дараа нь олж авсан үр дүнг бие биетэйгээ харьцуулж, хамгийн хүлээн зөвшөөрөгдсөн кластерийн сонголтуудын нэг дээр зогс.

4 . ОНЦЛОГЫН БҮГДҮҮЛЭЛТ

Бие даасан ажиглалтыг кластер хийхээс гадна онцлог кластерын алгоритмууд бас байдаг. Ийм анхны аргуудын нэг бол корреляцийн плеиадын арга юм Terentiev P.V. Ийм pleiades-ийн анхдагч зургуудыг биоанагаахын хэвлэлээс ихэвчлэн тэмдэглэгээг холбосон сумтай тойрог хэлбэрээр олж болно. Объект, функцийг кластер болгох хэд хэдэн програмууд нь тусдаа журамтай байдаг. Жишээлбэл, функцүүдийн кластерийн SAS багцад VARCLUS процедурыг (VARiable - хувьсагч ба CLUSter - кластераас) ашигладаг бол ажиглалтын кластерийн шинжилгээг бусад процедурууд - FASTCLUS болон CLUSTER гүйцэтгэдэг. Хоёр тохиолдолд дендрограммыг барих ажлыг TREE (мод) процедурыг ашиглан гүйцэтгэнэ.

Бусад статистикийн багцуудад кластер хийх элементүүдийг сонгох - объект эсвэл функцийг ижил модуль дээр хийдэг. Онцлогын кластерын хэмжүүрийн хувьд хос шинж чанарын харилцааны бат бөх байдлыг тусгасан тодорхой коэффициентүүдийн утгыг агуулсан илэрхийллийг ихэвчлэн ашигладаг. Энэ тохиолдолд холболтын хүч нь нэгтэй тэнцэх (функциональ хамаарал) тэмдгүүдийн хоорондох зайг тэгтэй тэнцүү байлгах нь маш тохиромжтой. Үнэн хэрэгтээ, функциональ холболттой бол нэг функцийн үнэ цэнэ нь өөр нэг функцийн утгыг нарийн тооцоолох боломжтой. Онцлог шинж чанаруудын хоорондын харилцааны бат бөх чанар буурах тусам зай нь нэмэгддэг. Доорх нь 70 аналитик дээжийг кластер болгоход ашигласан 12 шинж чанарыг хослуулсан дендрограммыг харуулсан график юм.

График 10. Дендрограмм12 онцлогийг бүлэглэх.

Энэхүү дендрограммаас харахад бид X1-X10 ба X11-X12 гэсэн орон нутгийн шинж чанаруудын хоёр бүлэглэлийг авч үзэж байна.X1-X10 шинж чанаруудын бүлэг нь ойролцоогоор 100 нэгжээс хэтрэхгүй кластер хоорондын зайны нэлээд бага утгаараа тодорхойлогддог. Энд бид мөн зарим дотоод хосолсон дэд бүлгүүдийг харж байна: X1 ба X2, X3 ба X4, X6 ба X7. Эдгээр хосуудын шинж чанаруудын хоорондох зай нь тэгтэй маш ойрхон байгаа нь тэдний хосын хүчтэй харилцааг илтгэнэ. Харин X11 ба X12 хосуудын хувьд кластер хоорондын зай нь хамаагүй том бөгөөд ойролцоогоор 300 нэгж байна. Эцэст нь зүүн (X1-X10) ба баруун (X11-X12) кластеруудын хоорондох маш том зай нь ойролцоогоор 1150 нэгжтэй тэнцэх нь эдгээр хоёр бүлгийн шинж чанаруудын хоорондын хамаарал маш бага байгааг харуулж байна.

5. БҮЛГЭЛИЙН ТОГТВОРТОЙ БАЙДАЛ, ЧАНАР

Кластер шинжилгээний аргын тусламжтайгаар олж авсан энэ эсвэл бусад ангилал нь хэр үнэмлэхүй вэ гэсэн асуултыг тавих нь утгагүй байх нь ойлгомжтой. Кластерын аргыг өөрчлөхөд тогтвортой байдал нь дендрограмм дээр хоёр кластер нэлээд тод харагдаж байгаагаар илэрдэг.

Кластерын шинжилгээний үр дүнгийн тогтвортой байдлыг шалгах боломжит аргуудын нэг болох янз бүрийн кластерийн алгоритмуудад олж авсан үр дүнг харьцуулах аргыг ашиглаж болно. Бусад арга замууд нь 1977 онд Б.Эфроны санал болгосон bootstrap арга гэж нэрлэгддэг "jackknife" болон "sliding control" аргууд юм. Кластер шийдлийн тогтвортой байдлыг шалгах хамгийн энгийн арга бол эхний дээжийг санамсаргүй байдлаар ойролцоогоор тэнцүү хоёр хэсэгт хувааж, хоёр хэсгийг нь кластер хийж, дараа нь үр дүнг харьцуулах явдал юм. Илүү их цаг хугацаа шаардсан арга бол эхний объектыг дараалан хасаж, үлдсэн (N - 1) объектуудыг нэгтгэх явдал юм. Цаашилбал, хоёр дахь, гурав дахь гэх мэтээс бусад тохиолдолд энэ журмыг дараалан гүйцэтгэнэ. объектын бүх N кластерын бүтцэд дүн шинжилгээ хийсэн. Тогтвортой байдлыг шалгах өөр нэг алгоритм нь олон дахин хуулбарлах, N объектын анхны дээжийг хуулбарлах, дараа нь бүх давхардсан дээжийг нэг том түүвэрт (псевдо-ерөнхий популяци) нэгтгэж, түүнээс N объектын шинэ дээжийг санамсаргүйгээр гаргаж авах явдал юм. Үүний дараа энэ түүврийг кластер хийж, дараа нь шинэ санамсаргүй түүвэр авч, дахин кластер хийх гэх мэт. Энэ нь бас нэлээд хөдөлмөр их шаарддаг.

Кластерын чанарыг үнэлэхэд багагүй асуудал гардаг. Кластерийн шийдлүүдийг оновчтой болгох хэд хэдэн алгоритмууд мэдэгдэж байна. Кластер доторх дисперсийг багасгах шалгуурын томъёолол, оновчтой шийдлийг олох алгоритм (k-дунжийн төрлийн) агуулсан анхны бүтээлүүд 50-аад онд гарч ирэв. 1963 онд Ж.Вардын нийтлэлд мөн ижил төстэй оновчлолын шаталсан алгоритмыг танилцуулсан. Кластерийн шийдлийг оновчтой болгох бүх нийтийн шалгуур байдаггүй. Энэ бүхэн нь судлаачийг оновчтой шийдлийг сонгоход хүндрэл учруулдаг. Ийм нөхцөлд хамгийн сайн аргаарСудалгааны энэ үе шатанд олдсон кластерийн шийдэл нь оновчтой гэж батлах нь зөвхөн олон хувьсагчтай статистикийн бусад аргуудыг ашиглан олж авсан дүгнэлттэй энэ шийдлийн нийцтэй байдал юм.

Кластерын оновчтой байдлын талаархи дүгнэлтийг дэмжихийн тулд бусад судалгааны объектууд дээр олж авсан шийдлийн урьдчилан таамаглах мөчүүдийг шалгах эерэг үр дүн гарч байна. Кластер шинжилгээний шаталсан аргыг ашиглахдаа бид хэд хэдэн графикийг бие биетэйгээ харьцуулахыг зөвлөж байна нэмэлт өөрчлөлткластер хоорондын зай. Энэ тохиолдолд кластерийн сүүлийн 1-2 үе шатанд энэ графикийн огцом босоо өсөлттэй эхний алхамаас эцсийн өмнөх хэд хэдэн үе шат хүртэл ийм өсөлтийн хавтгай шугам ажиглагдах сонголтыг илүүд үзэх хэрэгтэй.

ДҮГНЭЛТ

Би ажилдаа энэ төрлийн шинжилгээний нарийн төвөгтэй байдлыг төдийгүй өгөгдөл боловсруулах оновчтой чадавхийг харуулахыг хичээсэн, учир нь үр дүнгийн нарийвчлалыг олж авахын тулд та олон арван, хэдэн зуун дээжийг ашиглах хэрэгтэй болдог. Энэ төрөлдүн шинжилгээ нь үр дүнг ангилах, боловсруулахад тусалдаг. Энэхүү шинжилгээнд компьютерийн технологийг хүлээн зөвшөөрөх нь чухал биш гэж би үзэж байгаа бөгөөд энэ нь үр дүнг боловсруулах үйл явцыг цаг хугацаа бага шаарддаг бөгөөд ингэснээр шинжилгээнд зориулж дээж авах зөв байдалд илүү их анхаарал хандуулах боломжийг олгодог.

Кластерийн шинжилгээг ашиглахдаа тодорхой тохиолдлуудад гарч ирдэг нарийн ширийн зүйлс, нарийн ширийн зүйлс байдаг бөгөөд тэдгээр нь шууд харагдахгүй байдаг. Жишээлбэл, онцлог шинж чанаруудын цар хүрээний үүрэг нь хамгийн бага байж болох бөгөөд зарим тохиолдолд давамгайлж болно. Ийм тохиолдолд хувьсах хувиргалтыг ашиглах шаардлагатай. Энэ нь онцлог шинж чанаруудын хоорондын хамаарлын ерөнхий түвшинг нэмэгдүүлэх шугаман бус шинж чанарыг хувиргах аргуудыг ашиглах үед ялангуяа үр дүнтэй байдаг.

Зөвхөн чанарын шинж чанараар тодорхойлогддог объектуудтай холбоотой кластерийн шинжилгээг ашиглах нь бүр илүү онцлог шинж чанартай байдаг. Энэ тохиолдолд чанарын шинж чанаруудыг урьдчилан дижитал хэлбэрт оруулах, шинэ боломжуудтай кластер шинжилгээ хийх аргууд нэлээд амжилттай байдаг. Кластерийн шинжилгээ нь хангалттай судлагдсан системд ашиглах, үл мэдэгдэх бүтэцтэй системийг судлахад маш олон шинэ, анхны мэдээллийг өгдөг болохыг би ажилдаа харуулсан.

Түүнчлэн кластерийн шинжилгээ нь хувьслын судалгаанд зайлшгүй шаардлагатай болж, хувьслын замыг харуулсан филогенетик модыг барих боломжийг олгосон гэдгийг тэмдэглэх нь зүйтэй. Эдгээр аргуудыг программд өргөн ашигладаг Шинжлэх ухааны судалгааФизик ба аналитик химийн чиглэлээр.

НОМ ЗҮЙ

1) Айвазян С.А., Энюков И.С., Мешалкин Л.Д. Хэрэглээний статистик шинжилгээний програм хангамжийн багцын бүтэц, агуулгын тухай//Алгоритм ба програм хангамжхэрэглээний статистик шинжилгээ.--М., 1980.

2) Айвазян С.А., Бежаева З.И., Староверов О.В. Олон хэмжээст ажиглалтын ангилал.--М.: Статистик, 1974.

3) Бекер В.А., Лукацкая М.Л. Холбох коэффициентийн матрицын бүтцийн дүн шинжилгээнд // Аж үйлдвэрийн эдийн засаг, статистик загварчлал, таамаглалын асуудлууд.-- Новосибирск, 1970 он.

4) Braverman E. M., Muchnik I. B. Бүтцийн аргуудөгөгдөл боловсруулах.--М.: Наука, 1983.

5) Воронин Ю.А. Ангиллын онол ба түүний хэрэглээ.--Новосибирск: Наука, 1987.

6) Сайн I. J. Ботриологийн ботриологи//Ангилал ба кластер.--М.: Мир, 1980.

7) Дубровский С.А. Хэрэглээний олон хувьсагчтай статистик шинжилгээ.--М.: Санхүү, статистик, 1982 он.

8) Duran N., Odell P. Cluster analysis.--M.: Statistics, 1977.

9) Елисеева И.И., Рукавишников В.С. Бүлэглэх, хамаарал, хэв маягийг таних.--М.: Статистик, 1977.

10) Загоруйко Н.Г. Таних аргууд ба тэдгээрийн хэрэглээ.--M .: Зөвлөлтийн радио, 1972 он.

11) Заде Л.А. Бүдэг олонлогууд ба тэдгээрийн хэв маягийг таних, кластерийн шинжилгээнд хэрэглэх нь//Ангилал ба кластер.--М.: Мир, 1980.

12) Килдишев Г.С., Аболенцев Ю.И. Олон хэмжээст бүлэглэлүүд.--М.: Статистик, 1978.

13) Райская II, Гостилин Н.И., Френкель А.А. Кластерийн шинжилгээнд хуваалтын үнэн зөвийг шалгах нэг аргын тухай.//Эдийн засаг, бүтээгдэхүүний чанарын үнэлгээнд олон хувьсах статистикийн шинжилгээ хэрэглэх нь.--Ч. П.Тарту, 1977.

14) Шурыгин A. M. Цэг хоорондын зай ба ялгааны хуваарилалт // Хэрэглээний олон хэмжээст статистик шинжилгээний програм хангамж, алгоритмын дэмжлэг.--М., 1983.

15) Ээрэмаа Р. Кластерийн системийг зохиох ерөнхий онол, тэдгээрийн тоон дүрслэлийг олох алгоритм: СУИС-ийн тооцооллын төвийн эмхтгэл.--Тарту, 1978 он.

16) Ястремский B.S. Сонгосон бүтээлүүд.--М.: Статистик, 1964.

Үүнтэй төстэй баримт бичиг

    Зах зээлийг сегментчилэх зорилго маркетингийн үйл ажиллагаа. Кластер шинжилгээний мөн чанар, түүнийг хэрэгжүүлэх үндсэн үе шатууд. Зай эсвэл ижил төстэй байдлын хэмжүүрийг хэрхэн хэмжихийг сонгоно уу. Шаталсан, шаталсан бус кластерийн аргууд. Найдвартай байдал, найдвартай байдлын үнэлгээ.

    тайлан, 2009.11.02 нэмэгдсэн

    Үндсэн шинж чанарууд санхүүгийн байдалаж ахуйн нэгжүүд. Аж ахуйн нэгжийн хямрал, түүний шалтгаан, төрөл, үр дагавар. Орчин үеийн аргуудба кластер шинжилгээний хэрэгслүүд, тэдгээрийг аж ахуйн нэгжийн санхүү, эдийн засгийн үнэлгээнд ашиглах онцлог.

    дипломын ажил, 2013 оны 10-р сарын 09-нд нэмэгдсэн

    Statgraphics Plus ашиглан аж ахуйн нэгжүүдэд кластер шинжилгээ хийх. Шугаман регрессийн тэгшитгэл байгуулах. Регрессийн загвараар уян хатан байдлын коэффициентийг тооцоолох. Тэгшитгэлийн статистик ач холбогдлын үнэлгээ ба детерминацийн коэффициент.

    даалгавар, 2014-03-16-нд нэмэгдсэн

    Ажиглалтын бие даасан бүлгүүдэд зориулсан типологийн регрессийн бүтээн байгуулалт. Орон зайн мэдээлэл ба цаг хугацааны мэдээлэл. Кластер шинжилгээний хэрэглээний хамрах хүрээ. Объектуудын нэгэн төрлийн байдлын тухай ойлголт, зайны матрицын шинж чанарууд. Типологийн регресс хийх.

    танилцуулга, 10/26/2013 нэмэгдсэн

    зэрэг хосолсон загвар, аргуудыг бий болгох орчин үеийн аргаурьдчилан мэдээлэх. Кластерын асуудлыг шийдвэрлэхэд стационар болон стационар бус хугацааны цувааг дүрслэх ARIMA-д суурилсан загвар. Авторегрессив AR загварууд ба коррелограммын хэрэглээ.

    танилцуулга, 05/01/2015 нэмэгдсэн

    Төрөл бүрийн хэмжүүрүүдийн шинж чанар. Хамгийн ойрын хөршийн арга ба түүний ерөнхий дүгнэлт. Хамгийн ойрын хөршийн алгоритм. Парзен цонхны арга. Ерөнхий хэмжүүр ангилагч. Хэмжилтийг сонгох асуудал. Манхэттэн ба Евклидийн зай. косинусын хэмжүүр.

    хугацааны баримт бичиг, 2015 оны 03-р сарын 08-нд нэмэгдсэн

    Краснодар хязгаарын барилгын салбарын онцлог. Орон сууцны барилгын хөгжлийн урьдчилсан мэдээ. Кластер шинжилгээний орчин үеийн арга, хэрэгсэл. Аж ахуйн нэгжийн эдийн засгийн байдлыг оношлох олон хэмжээст статистик аргууд.

    дипломын ажил, 2015 оны 07-р сарын 20-нд нэмэгдсэн

    Брянск мужийн жишээн дээр моргейжийн зээлийн онцлог. Математикийн шийдвэр гаргах аргуудын тойм: шинжээчийн үнэлгээ, дараалсан ба хос харьцуулалт, шаталсан шинжилгээ. Ипотекийн зээлийн оновчтой хувилбарыг эрэлхийлэх хөтөлбөр боловсруулах.

    2012 оны 11-р сарын 29-нд нэмэгдсэн курсын ажил

    Системийн шинжилгээний хэрэглээний чиглэл, түүний байр суурь, үүрэг, зорилго, чиг үүрэг орчин үеийн шинжлэх ухаан. Системийн шинжилгээний аргын тухай ойлголт, агуулга, түүний албан бус аргууд. Эвристик ба шинжээчийн судалгааны аргуудын онцлог, тэдгээрийн хэрэглээний онцлог.

    хугацааны баримт бичиг, 2013 оны 05-р сарын 20-нд нэмэгдсэн

    Эдийн засгийн өгөгдлийн онцлогийг харгалзан, хэрэгцээ шаардлагад нийцүүлэн эконометрикийн аргыг боловсруулах, судлах эдийн засагболон дадлага. Эдийн засгийн өгөгдөлд статистик дүн шинжилгээ хийх эконометрик арга, загварыг ашиглах.

Их сургууль: VZFEI

Он, хот: Москва 2008 он


1. Танилцуулга. Кластер шинжилгээний аргын тухай ойлголт.

2. Кластер шинжилгээг хэрэглэх аргачлалын тодорхойлолт. Асуудлыг шийдвэрлэх хяналтын жишээ.

4. Ашигласан уран зохиолын жагсаалт

  1. Оршил. Кластер шинжилгээний аргын тухай ойлголт.

Кластер шинжилгээ нь олон хэмжээст ажиглалтыг ангилах боломжийг олгодог аргуудын багц бөгөөд тус бүрийг X1, X2, ..., Xk шинж чанаруудаар (параметрүүд) тодорхойлсон байдаг.

Кластер шинжилгээний зорилго нь хоорондоо ижил төстэй объектуудын бүлгүүдийг үүсгэх бөгөөд тэдгээрийг ихэвчлэн кластер (анги, таксон, төвлөрөл) гэж нэрлэдэг.

Кластер шинжилгээ нь статистикийн судалгааны нэг чиглэл юм. Энэ нь массын үзэгдэл, үйл явцыг судлахтай холбоотой шинжлэх ухааны салбаруудад онцгой чухал байр суурийг эзэлдэг. Кластер шинжилгээний аргуудыг хөгжүүлэх хэрэгцээ, тэдгээрийн хэрэглээ нь шинжлэх ухааны үндэслэлтэй ангиллыг бий болгох, тодорхойлоход тусалдагтай холбоотой юм. дотоод харилцаа холбооажиглагдсан популяцийн нэгжийн хооронд. Түүнчлэн статистикийн мэдээллийн урсгал байнга нэмэгдэж, нарийн төвөгтэй байдаг нөхцөлд чухал хүчин зүйл болох мэдээллийг шахахад кластер шинжилгээний аргуудыг ашиглаж болно.

Кластер шинжилгээний аргууд нь дараахь асуудлыг шийдвэрлэх боломжийг олгодог.

Объектуудын мөн чанар, шинж чанарыг тусгасан шинж чанарыг харгалзан объектын ангилалыг хийх. Ийм асуудлыг шийдэх нь дүрмээр бол ангилж буй объектуудын нийт талаархи мэдлэгийг гүнзгийрүүлэхэд хүргэдэг;

Судалгаанд хамрагдсан объектын багцад зарим бүтэц байгаа эсэх талаархи таамаглалыг шалгах, жишээлбэл. одоо байгаа бүтцийг хайх;

Хүн амын доторх холбоог бий болгох, түүнд бүтцийг нэвтрүүлэхийг оролдох шаардлагатай үед муу судлагдсан үзэгдлийн шинэ ангиллыг бий болгох (1. х. 85-86).

2. Кластер шинжилгээг хэрэглэх аргачлалын тодорхойлолт. Асуудлыг шийдвэрлэх хяналтын жишээ.

Кластерын шинжилгээ нь k шинж чанараар тодорхойлогддог n объектоос нэгэн төрлийн бүлэг (кластер) болгон задлах боломжийг олгодог. Объектуудын нэгэн төрлийн байдлыг p(xi xj) зайгаар тодорхойлдог бөгөөд xi = (xi1, …., xik) ба xj= (xj1,…,xjk) нь i-ийн k шинж чанарын утгуудаас бүрдэх векторууд юм. -р ба j-р объектууд.

Тоон шинж чанараар тодорхойлогддог объектуудын хувьд зайг дараах томъёогоор тодорхойлно.

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Хэрэв p(xi xj) бол объектуудыг нэгэн төрлийн гэж үзнэ.< p предельного.

Нэгдлийн график дүрслэлийг кластерын нэгдлийн мод - дендрограм ашиглан олж авч болно. (2. Бүлэг 39).

Туршилтын тохиолдол (жишээ 92).

Борлуулалтын хэмжээ

Эдгээр объектуудыг "ойр хөрш" зарчмаар ангилъя. (1)* томъёог ашиглан объект хоорондын зайг олъё. Хүснэгтийг бөглөцгөөе.

Хүснэгтийг хэрхэн дүүргэхийг тайлбарлая.

I мөр ба j баганын огтлолцол дээр p(xi xj) зайг заана (үр дүнг хоёр аравтын бутархай хүртэл дугуйрсан).

Жишээлбэл, 1-р мөр ба 3-р баганын огтлолцол дээр p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10 зайг зааж, 3-р мөр ба баганын огтлолцол дээр. 5, p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08 зай. p(xi, xj) = p(xj,xi) тул хүснэгтийн доод хэсгийг бөглөх шаардлагагүй.

"Ойрын хөрш" зарчмыг хэрэгжүүлье. Хүснэгтээс бид хамгийн бага зайг олдог (хэрэв хэд хэдэн байгаа бол тэдгээрийн аль нэгийг нь сонгоно). Энэ нь p 1.2 ≈ p 4.5 \u003d 2.24. p min = p 4.5 = 2.24 гэж үзье. Дараа нь бид 4 ба 5-р объектуудыг нэг бүлэгт нэгтгэж болно, өөрөөр хэлбэл 4 ба 5-р багана нь анхны зайны хүснэгтийн 4, 5-р баганын харгалзах тоонуудын хамгийн бага хэсгийг агуулна. Бид 4 ба 5-р мөрөнд адилхан хийдэг. Бид шинэ хүснэгтийг авдаг.

Хүснэгтээс бид хамгийн бага зайг оллоо (хэрэв хэд хэдэн байгаа бол тэдгээрийн аль нэгийг нь сонгох болно): р min = р 1.2 = 2.24. Дараа нь бид 1,2,3-р объектуудыг нэг бүлэгт нэгтгэж болно, өөрөөр хэлбэл нэгтгэсэн багана 1,2,3 нь өмнөх зайны хүснэгтийн 1, 2, 3-р баганын харгалзах тоонуудын хамгийн бага хэсгийг агуулна. Бид 1, 2, 3-р эгнээнд адилхан хийдэг. Бид шинэ хүснэгтийг авдаг.

Бид хоёр кластер авсан: (1,2,3) ба (4,5).

3. Хяналтын ажилд асуудлыг шийдвэрлэх.

Асуудал 85.

Нөхцөл:Таван үйлдвэрлэлийн байгууламж нь борлуулалтын хэмжээ, үндсэн хөрөнгийн жилийн дундаж өртөг гэсэн хоёр онцлог шинж чанартай байдаг.

Борлуулалтын хэмжээ

Жилийн дундаж зардалүйлдвэрлэлийн үндсэн хөрөнгө

Шийдэл:(1)* томъёог ашиглан объект хоорондын зайг олцгооё (бид аравтын бутархайн хоёр орон хүртэл дугуйруулна):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1.2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3.61

p 1.3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5.83

p 2.2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2.3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2.24

p 3.4 \u003d √ (7-12) 2 + (10-8) 2 ≈5.39

p 3.5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7.81

p 4.5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3.16

Тооцооллын үр дүнд үндэслэн бид хүснэгтийг бөглөнө.

Хамгийн ойрын хөршийн зарчмыг хэрэгжүүлье. Үүнийг хийхийн тулд хүснэгтэд бид хамгийн бага зайг олно (хэрэв хэд хэдэн байгаа бол тэдгээрийн аль нэгийг нь сонгоно уу). Энэ нь p 2.3=2.24 байна. p min = p 2.3 = 2.24 гэж үзье, тэгвэл бид "2" ба "3" баганын объектуудыг нэгтгэж, мөн "2" ба "3" объектын мөрүүдийг нэгтгэж болно. Шинэ хүснэгтэд бид анхны хүснэгтээс хамгийн бага утгыг нэгтгэсэн бүлгүүдэд оруулна.

Шинэ хүснэгтэд бид хамгийн бага зайг олдог (хэрэв хэд хэдэн байгаа бол тэдгээрийн аль нэгийг нь сонгоно). Энэ нь p 4.5=3.16 байна. p min = p 4.5 = 3.16 гэж үзье, дараа нь бид "4" ба "5" баганын объектуудыг нэгтгэж, мөн "4" ба "5" объектын мөрүүдийг нэгтгэж болно. Шинэ хүснэгтэд бид анхны хүснэгтээс хамгийн бага утгыг нэгтгэсэн бүлгүүдэд оруулна.

Шинэ хүснэгтэд бид хамгийн бага зайг олдог (хэрэв хэд хэдэн байгаа бол тэдгээрийн аль нэгийг нь сонгоно). Эдгээр нь p 1, 2 ба 3=3.61. p min = p 1, 2 ба 3 = 3.61 гэж үзье, тэгвэл бид "1" ба "2 ба 3" баганын объектуудыг нэгтгэж, мөн мөрүүдийг нэгтгэж болно. Шинэ хүснэгтэд бид анхны хүснэгтээс хамгийн бага утгыг нэгтгэсэн бүлгүүдэд оруулна.

Бид хоёр кластер авдаг: (1,2,3) ба (4,5).

Дендрограмм нь элементүүдийг сонгох дараалал ба харгалзах хамгийн бага зай pmin-ийг харуулав.

Хариулт:"Хамгийн ойрын хөрш" зарчмын дагуу кластерийн шинжилгээний үр дүнд бие биетэйгээ төстэй объектуудын 2 кластер үүсдэг: (1,2,3) ба (4,5).

Асуудал 211.

Нөхцөл:Таван үйлдвэрлэлийн байгууламж нь борлуулалтын хэмжээ, үндсэн хөрөнгийн жилийн дундаж үнэ гэсэн хоёр онцлог шинж чанартай байдаг.

Борлуулалтын хэмжээ

Үйлдвэрлэлийн үндсэн хөрөнгийн жилийн дундаж өртөг

Эдгээр объектуудыг хамгийн ойрын хөршийн зарчмаар ангил.

Шийдэл:Асуудлыг шийдэхийн тулд бид өгөгдлийг анхны хүснэгтэд үзүүлэв. Объектуудын хоорондох зайг тодорхойлъё. Бид объектуудыг "хамгийн ойрын хөрш" зарчмаар ангилах болно. Үр дүнг дендрограмм хэлбэрээр үзүүлэв.

Борлуулалтын хэмжээ

Үйлдвэрлэлийн үндсэн хөрөнгийн жилийн дундаж өртөг

(1)* томъёог ашиглан бид объектуудын хоорондох зайг олно:

p 1.1 = 0, p 1.2 = 6, p 1.3 = 8.60, p 1.4 = 6.32, p 1.5 = 6.71, p 2.2 = 0, p 2 ,3 = 7.07, p 2.4 = 2, p 2.5 = 3.32, p = 3.33 p. 0, p 3.4 = 5.10, p 3.5 = 4.12, p 4 ,4=0, p4.5=1, p5.5=0.

Үр дүнг хүснэгтэд үзүүлэв.

Хүснэгт дэх зайнуудын хамгийн бага утга нь p 4.5=1. p min = p 4.5 = 1 гэж үзье, тэгвэл бид "4" ба "5" баганын объектуудыг нэгтгэж, мөн "4" ба "5" объектын мөрүүдийг нэгтгэж болно. Шинэ хүснэгтэд бид анхны хүснэгтээс хамгийн бага утгыг нэгтгэсэн бүлгүүдэд оруулна.

Шинэ хүснэгтийн зайн хамгийн бага утга нь p 2, 4 ба 5=2 байна. p min = p 2, 4 ба 5=2 гэж үзье, тэгвэл бид "4 ба 5" ба "3" баганын объектуудыг нэгтгэж, мөн "4 ба 5" ба "3" объектын мөрүүдийг нэгтгэж болно. Шинэ хүснэгтэд бид хүснэгтээс хамгийн бага утгыг нэгтгэсэн бүлгүүдэд оруулна.

Шинэ хүснэгтэд байгаа зайнуудын хамгийн бага утга нь p 3,4,5=2 байна. p min = p 3,4,5=2 гэж үзье, тэгвэл бид "3,4,5" ба "2" баганын объектуудыг нэгтгэж, мөн "3,4,5" ба " объектын мөрүүдийг нэгтгэж болно. 2". Шинэ хүснэгтэд бид хүснэгтээс хамгийн бага утгыг нэгтгэсэн бүлгүүдэд оруулна.

эсвэл сайт руу нэвтэрнэ үү.

Чухал! Үнэгүй татаж авах бүх танилцуулсан тестийн баримтууд нь таны шинжлэх ухааны ажлын төлөвлөгөө, үндэслэлийг гаргах зорилготой юм.

Найзууд аа! Танд байна өвөрмөц боломжчам шиг оюутнуудад туслаарай! Хэрэв манай сайт танд олоход тусалсан бол зөв ажил, тэгвэл таны нэмсэн ажил бусдын ажлыг хэрхэн хөнгөвчлөхийг ойлгох нь гарцаагүй.

Хэрэв хяналт ажилладаг бол таны бодлоор Муу чанар, эсвэл та энэ ажилтай аль хэдийн танилцсан бол энэ талаар бидэнд мэдэгдээрэй.

КЛАСТЕР ШИНЖИЛГЭЭГ үзнэ үү. Антинази. Социологийн нэвтэрхий толь, 2009 ... Социологийн нэвтэрхий толь бичиг

кластерийн шинжилгээ- энэ бол олон хэмжээст ажиглалтыг ангилах боломжийг олгодог аргуудын багц бөгөөд тус бүрийг тодорхой хувьсагчаар тайлбарладаг. Кластер шинжилгээний зорилго нь бие биетэйгээ төстэй объектуудын бүлгүүдийг үүсгэх явдал бөгөөд тэдгээрийг ихэвчлэн ... гэж нэрлэдэг. Социологийн толь бичиг Социум

кластерийн шинжилгээ- олон хэмжээст дүн шинжилгээ хийх математикийн процедур бөгөөд энэ нь хэд хэдэн объектыг (жишээлбэл, субьект) тодорхойлсон олон тооны шалгуур үзүүлэлтийн үндсэн дээр нэг ангилалд багтсан объектууд илүү олон байхын тулд тэдгээрийг анги (кластер) болгон бүлэглэх боломжийг олгодог. .. ... Их сэтгэлзүйн нэвтэрхий толь бичиг

Кластерийн шинжилгээ- аливаа багцын объект бүрийн (жишээлбэл, субьект) хэд хэдэн шинж чанаруудын тоон утгын ижил төстэй байдалд үндэслэн эдгээр объектыг тодорхой анги, кластер болгон бүлэглэх боломжийг олгодог математикийн процедур. ... . .. Сэтгэл судлалын толь бичиг

кластерийн шинжилгээ- - [Л.Г.Суменко. Мэдээллийн технологийн англи орос толь бичиг. М.: GP TsNIIS, 2003.] Сэдэв Мэдээллийн технологиерөнхийдөө EN кластерийн шинжилгээ ... Техникийн орчуулагчийн гарын авлага

кластерийн шинжилгээ- * кластерын шинжилгээ * кластерын шинжилгээ эсвэл мэдээллийн кластерчлал нь объектуудын сонгон шалгаруулалтын талаархи мэдээллийг агуулсан өгөгдлийг цуглуулж, дараа нь объектуудыг харьцангуй нэгэн төрлийн кластерын бүлэг болгон зохион байгуулдаг олон хэмжээст статистикийн процедур юм (Q ... ... Генетик. нэвтэрхий толь бичиг

кластерийн шинжилгээ- Математикийн энэ өгүүллийг сайжруулах нь зүйтэй болов уу?: Зүүлт тайлбар хийж, эх сурвалжийг илүү нарийн зааж өгнө үү. Википедиагийн хэв маягийн дүрмийн дагуу нийтлэлийг засна уу. Дахин боловсруулах ... Википедиа

КЛАСТЕР ШИНЖИЛГЭЭ- - олон хэмжээст дүн шинжилгээ хийх математикийн процедур бөгөөд энэ нь хэд хэдэн объектыг (жишээ нь, субьект) тодорхойлсон үзүүлэлтүүдийн багцад үндэслэн тэдгээрийг анги (кластер) болгон бүлэглэх боломжийг олгодог бөгөөд ингэснээр нэг ангид багтсан объектууд ижил төстэй байх болно. дэлгэрэнгүй ...... Сэтгэл судлал, сурган хүмүүжүүлэх нэвтэрхий толь бичиг

КЛАСТЕР ШИНЖИЛГЭЭ - Түгээмэл нэрнарийн төвөгтэй өгөгдлийн гүн бүтцийг тодорхойлох янз бүрийн математик аргуудын хувьд. Кластер шинжилгээ нь олон талаараа хүчин зүйлийн шинжилгээтэй төстэй. Аль аль нь нэгдмэл элементүүдийг (хүчин зүйл эсвэл кластер) хайхыг хамардаг ... ... Сэтгэл судлалын тайлбар толь бичиг

КЛАСТЕР ШИНЖИЛГЭЭ- (кластер шинжилгээ) нь өгөгдлийн багцад харьцангуй ялгаатай байж болох объектын бүлэг эсвэл хүмүүсийг тодорхойлоход ашигладаг арга. Дараа нь бүлэг бүрийн доторх ийм хүмүүсийн шинж чанарыг судалдаг. Зах зээлийн судалгаанд ...... Социологийн том тайлбар толь бичиг

КЛАСТЕР ШИНЖИЛГЭЭ- (КЛАСТЕР ШИНЖИЛГЭЭ) Олон хувьсагчтай холбоотой судалгааны мэдээллийн шинжилгээнд өгөгдлийн дотоод бүтцийг тодорхойлоход ашигладаг статистикийн бүлэг арга. Кластер шинжилгээний зорилго нь объектуудын бүлгийг тодорхойлох явдал юм ... ... социологийн толь бичиг

Энэхүү ном нь энэ утгаараа олон хэмжээст үйл явц, үзэгдлийн дүн шинжилгээ хийх хамгийн ирээдүйтэй аргуудын нэг болох кластерийн шинжилгээнд зориулагдсан болно.

Кластер шинжилгээ гэдэг нь бие даасан ажиглалтын үр дүнг тохиромжтой геометрийн орон зайн цэгүүдээр танилцуулж, дараа нь эдгээр цэгүүдийн "бөөгнөрөл" болгон бүлгүүдийг сонгоход үндэслэсэн олон хэмжээст объектуудыг бүлэглэх арга юм. Үнэндээ "кластер" (кластер) нь Англи хэлмөн "бөглөг", "баглаа (усан үзэм)", " бөөгнөрөл (оддын)" гэх мэт гэсэн утгатай. Энэ нэр томъёо нь шинжлэх ухааны нэр томьёонд ер бусын нийцдэг, учир нь түүний эхний үе нь уламжлалт "анги" гэсэн нэр томъёотой тохирч, хоёр дахь нь, Энэ нь түүний зохиомол гарал үүслийг илтгэнэ. Кластер шинжилгээний нэр томьёо нь өмнө нь энэ зорилгоор хэрэглэгдэж байсан бүх бүтээцийг (хяналтгүй хэв маягийг таних, давхрага, ангилал зүй, автомат ангилал гэх мэт) орлох болно гэдэгт бид эргэлзэхгүй байна. Кластер шинжилгээний боломжит боломжууд нь ижил төстэй нөхцөлд эсвэл ижил төстэй үр дүнтэй үйл ажиллагаа явуулж буй аж ахуйн нэгжүүдийн бүлгүүд, амьдралын янз бүрийн талбарт хүн амын нэг төрлийн бүлгүүд, ерөнхийдөө амьдралын хэв маягийг тодорхойлох гэх мэт асуудлыг шийдвэрлэхэд ойлгомжтой юм.

Шинжлэх ухааны чиглэлийн хувьд кластер шинжилгээ нь 60-аад оны дундуур өөрийгөө тунхагласан бөгөөд түүнээс хойш эрчимтэй хөгжиж, статистикийн шинжлэх ухааны хамгийн эрчимтэй өсөлтийн нэг салбар болжээ. Өнөөдрийг хүртэл янз бүрийн улс орнуудад хэвлэгдсэн кластерийн шинжилгээний талаархи монографиуд зөвхөн хэдэн зуугаар хэмжигддэг гэдгийг хэлэхэд хангалттай (гэхдээ олон хувьсах статистик шинжилгээний ийм "гавъяатай" аргын дагуу жишээ нь. хүчин зүйлийн шинжилгээ, хэдэн арван номыг тоолох нь бараг боломжгүй юм). Мөн энэ нь нэлээд ойлгомжтой юм. Эцсийн эцэст бид зөвхөн статистикийн төдийгүй ерөнхийд нь танин мэдэхүйн болон шийдвэр гаргахад хамгийн чухал зүйл болох бүлэглэх ажиллагааг загварчлах талаар ярьж байна.

Манай улсад нийгэм, эдийн засгийн тодорхой асуудлуудыг кластерийн шинжилгээ (1), нийгэм-эдийн засгийн судалгаанд кластерийн шинжилгээг ашиглах арга зүй (2), кластерийн шинжилгээний арга зүй (2) ашиглан судлахад зориулагдсан хэд хэдэн монографи хэвлэгдсэн. 3) (Статистикийн шинжилгээний үндэс)

Манделийн санал болгож буй ном нь энэ ангилалд перпендикуляр юм: агуулга нь эдгээр гурван чиглэл тус бүртэй холбоотой юм.

Номын зорилго нь хураангуйлах явдал юм орчин үеийн байдалкластерийн дүн шинжилгээ хийх, түүнийг ашиглах боломж, цаашдын хөгжлийн зорилтуудад дүн шинжилгээ хийх. Энэхүү санаа нь өөрөө хүндэтгэлийг төрүүлэхээс өөр аргагүй юм: нэг талыг барьсан дүн шинжилгээ хийх, нэгтгэх нь маш их хөдөлмөр, мэдлэг, эр зориг шаарддаг бөгөөд шинжлэх ухааны нийгэмлэгээс өөрсдийн загварыг сурталчлах, хөгжүүлэхээс хамаагүй доогуур үнэлэгддэг. (Гэсэн хэдий ч энэ номонд мөн "intensional" шинжилгээ, ангиллын хоёрдмол байдалтай холбоотой зохиогчийн анхны боловсруулалтыг багтаасан болно.)

Номын давуу тал болон дутагдалтай талууд нь энэ зорилгыг хэрэгжүүлэхтэй холбоотой юм. Давуу талууд нь дараахь зүйлийг агуулсан байх ёстой.

· үзэгдэл, үйл явцын олон талт байдлыг харгалзан нэгэн төрлийн, бүлэглэх, ангилах үзэл баримтлалын арга зүйн судалгаа;

· кластерийн шинжилгээний арга, аргуудын системчилсэн дүн шинжилгээ (үүнд 150 хүртэлх тодорхой алгоритм орно);

· кластерийн шинжилгээний журмын туршилтын харьцуулалтын технологи, үр дүнгийн танилцуулга; Энэхүү ном нь энэ утгаараа олон хэмжээст үйл явц, үзэгдлийн дүн шинжилгээ хийх хамгийн ирээдүйтэй аргуудын нэг болох кластерийн шинжилгээнд зориулагдсан болно.

Кластер шинжилгээ гэдэг нь бие даасан ажиглалтын үр дүнг тохиромжтой геометрийн орон зайн цэгүүдээр танилцуулж, дараа нь эдгээр цэгүүдийн "бөөгнөрөл" болгон бүлгүүдийг сонгоход үндэслэсэн олон хэмжээст объектуудыг бүлэглэх арга юм. Үнэн хэрэгтээ англиар "cluster" (cluster) нь "бөглөг", "баглаа (усан үзэм)", "cluster (оддын)" гэх мэт утгатай. "анги" гэсэн нэр томъёо, хоёр дахь нь түүний зохиомол гарал үүслийг илтгэнэ. Кластер шинжилгээний нэр томьёо нь өмнө нь энэ зорилгоор хэрэглэгдэж байсан бүх бүтээцийг (хяналтгүй хэв маягийг таних, давхрага, ангилал зүй, автомат ангилал гэх мэт) орлох болно гэдэгт бид эргэлзэхгүй байна. Кластер шинжилгээний боломжит боломжууд нь ижил төстэй нөхцөлд эсвэл ижил төстэй үр дүнтэй үйл ажиллагаа явуулж буй аж ахуйн нэгжүүдийн бүлгүүд, амьдралын янз бүрийн талбарт хүн амын нэг төрлийн бүлгүүд, ерөнхийдөө амьдралын хэв маягийг тодорхойлох гэх мэт асуудлыг шийдвэрлэхэд ойлгомжтой юм.

Шинжлэх ухааны чиглэлийн хувьд кластер шинжилгээ нь 60-аад оны дундуур өөрийгөө тунхагласан бөгөөд түүнээс хойш эрчимтэй хөгжиж, статистикийн шинжлэх ухааны хамгийн эрчимтэй өсөлтийн нэг салбар болжээ. Зөвхөн кластерийн шинжилгээ, хөгжлийн талаархи хэд хэдэн монографи гэж хэлэхэд хангалттай ерөнхий схемүүднэлээд дүрсэлсэн хүснэгтэд хэрэгжүүлсэн кластер шинжилгээний аргуудыг ашиглах; илтгэлийн зөвлөмжийн шинж чанар.

Эдгээр давуу талууд нь бусад хэвлэлүүдийн дунд I. D. Mandel-ийн номын бие даасан байр суурийг тодорхойлдог.

Номын дутагдалтай тал нь зарим зөвлөмжийн тодорхой бус байдал, нийгэм, эдийн засгийн сэдвийн хүрээнд кластерийн шинжилгээний аргыг ашиглах асуудалд системтэй дүн шинжилгээ хийгээгүй явдал юм. Үнэн бол сүүлийнх нь энэ чиглэлээр кластерийн шинжилгээг хангалтгүй ашигладагтай холбоотой юм.

Энэхүү ном нь аливаа онолын хамгийн хэцүү асуудал болох практик хэрэглүүрийг ашиглахад ахиц дэвшил гаргах боломжийг олгодог трамплиныг өгдөг.

Б.Г.Миркин

Судалгааны сэдвүүд нь Шинэ Гвинейн муммижуулсан мэрэгчдийн морфологийн шинжилгээнээс эхлээд АНУ-ын сенаторуудын санал хураалтын үр дүнг судлах, хөлдөөсөн жоомыг гэсгээх үеийн зан үйлийн шинжилгээ, газарзүйн тархалтыг судлах зэрэг багтана. Саскачеван дахь зарим төрлийн хаг .

Хэвлэлүүдийн энэхүү тэсрэлт нь кластерийн шинжилгээний хөгжил, хэрэглээнд асар их нөлөө үзүүлсэн. Гэвч харамсалтай нь сөрөг талууд бас бий. Кластерийн шинжилгээний талаархи нийтлэлүүдийн хурдацтай өсөлт нь хэрэглэгчдийн бүлэглэлийг бий болгоход хүргэсэн бөгөөд үүний үр дүнд зөвхөн түүнийг үүсгэсэн бүлэглэлд хэрэглэгддэг үг хэллэг бий болсон (Блашфилд ба Алдендерфер, 1978; Блашфилд, 1980).

Салбарын мэргэжилтнүүдийн үг хэллэгийг бий болгох талаар Нийгмийн шинжлэх ухаанЖишээ нь, Вардын аргатай холбоотой янз бүрийн нэр томъёогоор нотлогдсон. "Тойргийн арга" -ыг уран зохиолд өөрөөр нэрлэдэг. Үүний дор хаяж дөрвөн нэр нь мэдэгдэж байна: "хамгийн бага хэлбэлзлийн арга", "квадрат алдааны нийлбэр арга", "шаталсан бүлэглэлийг багасгах" ба "HGROUP". Эхний хоёр нэр нь Уордын аргаар оновчтой нь тодорхойлогддог шалгуурыг хэлдэг бол гурав дахь нь бүлэг доторх ковариацын матриц болох W матрицын нэг хэвийн ул мөрийн хувиргалт болох квадрат алдааны нийлбэртэй холбоотой. Эцэст нь өргөн хэрэглэгддэг "HGROUP" нэр нь алдартай хүмүүсийн нэр юм компьютерийн программ, Тойргийн аргыг хэрэгжүүлдэг (Veldman, 1967).

Хэл үг үүсэх нь салбар хоорондын холбоог хөгжүүлэхэд саад болж, саад болдог үр дүнтэй харьцуулалтШинжлэх ухааны янз бүрийн салбарт кластерийн шинжилгээг ашиглах арга зүй, үр дүн нь шаардлагагүй хүчин чармайлт (ижил алгоритмыг дахин зохион бүтээх) -д хүргэдэг бөгөөд эцэст нь шинэ хэрэглэгчдэд сонгосон аргуудын талаар гүнзгий ойлголт өгөхгүй (Blashfield and aldenderfer, 1978) ). Жишээлбэл, нийгмийн шинжлэх ухааны нэгэн судалгаагаар (Rogers and Linden, 1973) ижил өгөгдлийг ашиглан гурван өөр кластерийн аргыг харьцуулсан. Тэд эдгээр аргуудыг дараах байдлаар нэрлэсэн: "шаталсан бүлэглэл", "шаталсан кластер эсвэл HCG", "кластерийн шинжилгээ". Эдгээр нэрсийн аль нь ч кластер хийх аргыг мэддэггүй байв. Кластер шинжилгээний програмын шинэхэн хэрэглэгч одоо байгаа бүх нэрэнд андуурч, тэдгээрийг кластерын аргуудын бусад тайлбартай холбох боломжгүй болно. Туршлагатай хэрэглэгчид судалгаагаа ижил төстэй ажилтай харьцуулахдаа хэцүү байдалд орох болно. Бид хэт туйлширч магадгүй ч үг хэллэг нь ноцтой асуудал юм.

Сүүлийн жилүүдэд хэвлэгдсэн нийтлэлийн тоо, энэ аргыг хэрэглэж буй салбаруудын тоо зэргээс харахад кластер шинжилгээний хөгжил бага зэрэг удааширч байна. Одоогийн байдлаар сэтгэл судлал, социологи, биологи, статистик гэх мэт зарим зүйлийг бид хэлж чадна техникийн салбаруудкластерийн шинжилгээтэй холбоотой нэгтгэх үе шатанд орно.

Кластер шинжилгээний ач тусыг магтан дуулсан нийтлэлийн тоо аажмаар буурч байна. Үүний зэрэгцээ хяналтын өгөгдөл дээр кластерын янз бүрийн аргуудын хэрэглээг харьцуулсан ажил улам олон болж байна. Уран зохиолд хэрэглээнд илүү их анхаарал хандуулсан. Олон тооны судалгаанууд нь кластерийн шинжилгээ ашиглан олж авсан үр дүнгийн үнэн зөвийг шалгах практик арга хэмжээг боловсруулахад чиглэгддэг. Энэ бүхэн нь кластерын аргын үндэслэлтэй статистик онолыг бий болгох ноцтой оролдлогуудыг гэрчилж байна.


ХОНХ

Энэ мэдээг чамаас өмнө уншсан хүмүүс бий.
Хамгийн сүүлийн үеийн нийтлэлүүдийг авахын тулд бүртгүүлнэ үү.
Имэйл
Нэр
Овог
Та "Хонх"-ыг хэрхэн уншихыг хүсч байна вэ?
Спам байхгүй