घंटी

आपके सामने इस खबर को पढ़ने वाले लोग भी हैं।
नवीनतम लेख प्राप्त करने के लिए सदस्यता लें।
ईमेल
नाम
उपनाम
आप द बेल को कैसे पढ़ना चाहेंगे
कोई स्पैम नहीं

नॉलेज बेस में अपना अच्छा काम भेजें सरल है। नीचे दिए गए फॉर्म का प्रयोग करें

छात्र, स्नातक छात्र, युवा वैज्ञानिक जो अपने अध्ययन और कार्य में ज्ञान आधार का उपयोग करते हैं, वे आपके बहुत आभारी रहेंगे।

परिचय

1. "क्लस्टर विश्लेषण" का इतिहास

2. शब्दावली

2.1 वस्तु और विशेषता

2.2 वस्तुओं के बीच की दूरी (मीट्रिक)

2.3 क्लस्टरों का घनत्व और स्थानीयता

2.4 समूहों के बीच की दूरी

3. समूहीकरण के तरीके

3.1 पदानुक्रमित समूह विधियों की विशेषताएं

3.2 पुनरावृत्त क्लस्टरिंग विधियों की विशेषताएं

4. फ़ीचर क्लस्टरिंग

5. क्लस्टरिंग की स्थिरता और गुणवत्ता

ग्रन्थसूची

परिचय

"क्लस्टर विश्लेषण गणितीय विधियों का एक सेट है जिसे उनके बीच की दूरी या कनेक्शन (निकटता के उपाय) के बारे में जानकारी के अनुसार "करीबी" वस्तुओं के एक दूसरे समूह से अपेक्षाकृत "दूरस्थ" बनाने के लिए डिज़ाइन किया गया है। यह शब्दों के अर्थ में समान है: स्वचालित एक शिक्षक के बिना वर्गीकरण, वर्गीकरण, पैटर्न मान्यता।" क्लस्टर विश्लेषण की यह परिभाषा सांख्यिकीय शब्दकोश के नवीनतम संस्करण में दी गई है। वास्तव में, "क्लस्टर विश्लेषण" एक वर्गीकरण बनाने के लिए उपयोग किए जाने वाले एल्गोरिदम के काफी बड़े सेट के लिए एक सामान्यीकृत नाम है। कई प्रकाशन क्लस्टर विश्लेषण के लिए वर्गीकरण और विभाजन जैसे समानार्थक शब्द का भी उपयोग करते हैं। क्लस्टर विश्लेषण व्यापक रूप से विज्ञान में टाइपोलॉजिकल विश्लेषण के साधन के रूप में उपयोग किया जाता है। किसी भी वैज्ञानिक गतिविधि में, वर्गीकरण मूलभूत घटकों में से एक है, जिसके बिना वैज्ञानिक परिकल्पनाओं और सिद्धांतों का निर्माण और परीक्षण करना असंभव है। इस प्रकार, अपने काम में, मैं क्लस्टर विश्लेषण (क्लस्टर विश्लेषण का आधार) के मुद्दों पर विचार करना आवश्यक समझता हूं, साथ ही इसकी शब्दावली पर विचार करना और डेटा प्रोसेसिंग के साथ इस पद्धति का उपयोग करने के कुछ उदाहरण देना मेरा मुख्य लक्ष्य है।

1. "क्लस्टर विश्लेषण" का इतिहास

घरेलू और विदेशी प्रकाशनों के विश्लेषण से पता चलता है कि क्लस्टर विश्लेषण का उपयोग विभिन्न प्रकार के वैज्ञानिक क्षेत्रों में किया जाता है: रसायन विज्ञान, जीव विज्ञान, चिकित्सा, पुरातत्व, इतिहास, भूगोल, अर्थशास्त्र, भाषाशास्त्र, आदि। वीवी नलिमोव की पुस्तक "भाषा का संभाव्य मॉडल" 70 विश्लेषणात्मक नमूनों के अध्ययन में क्लस्टर विश्लेषण के उपयोग का वर्णन करती है। क्लस्टर विश्लेषण पर अधिकांश साहित्य पिछले तीन दशकों के दौरान सामने आया है, हालांकि क्लस्टर विधियों का उल्लेख करने वाले पहले काम काफी समय पहले सामने आए थे। पोलिश मानवविज्ञानी के। चेकानोव्स्की ने "संरचनात्मक वर्गीकरण" के विचार को सामने रखा, जिसमें क्लस्टर विश्लेषण का मुख्य विचार था - वस्तुओं के कॉम्पैक्ट समूहों का आवंटन।

1925 में, सोवियत जलविज्ञानी पी.वी. टेरेंटेव ने तथाकथित "सहसंबंध प्लीएड्स की विधि" विकसित की, जिसका उद्देश्य सहसंबद्ध विशेषताओं को समूहीकृत करना था। इस पद्धति ने रेखांकन का उपयोग करके समूहीकरण विधियों के विकास को गति दी। "क्लस्टर विश्लेषण" शब्द सबसे पहले ट्रियन द्वारा प्रस्तावित किया गया था। "क्लस्टर" शब्द का अंग्रेजी से अनुवाद "गुच्छा, ब्रश, गुच्छा, समूह" के रूप में किया गया है। इस कारण से, इस प्रकार के विश्लेषण को मूल रूप से "क्लस्टर विश्लेषण" कहा जाता था। 1950 के दशक की शुरुआत में, आर. लुईस, ई. फिक्स और जे. हॉजेस के प्रकाशन पदानुक्रमित क्लस्टर विश्लेषण एल्गोरिदम पर दिखाई दिए। क्लस्टर विश्लेषण पर काम के विकास के लिए एक ध्यान देने योग्य प्रोत्साहन आर रोसेनब्लैट के काम द्वारा मान्यता उपकरण (परसेप्ट्रॉन) पर दिया गया था, जिसने "एक शिक्षक के बिना पैटर्न मान्यता" के सिद्धांत के विकास की नींव रखी।

क्लस्टरिंग विधियों के विकास के लिए प्रेरणा 1963 में प्रकाशित "प्रिंसिपल्स ऑफ़ न्यूमेरिकल टैक्सोनॉमी" पुस्तक थी। दो जीवविज्ञानी - रॉबर्ट सोकल और पीटर स्नेथ। इस पुस्तक के लेखक इस तथ्य से आगे बढ़े हैं कि प्रभावी जैविक वर्गीकरण बनाने के लिए, क्लस्टरिंग प्रक्रिया को अध्ययन के तहत जीवों की विशेषता वाले विभिन्न संकेतकों के उपयोग को सुनिश्चित करना चाहिए, इन जीवों के बीच समानता की डिग्री का आकलन करना चाहिए, और समान जीवों की नियुक्ति सुनिश्चित करना चाहिए। एक ही समूह में। इस मामले में, गठित समूह पर्याप्त रूप से "स्थानीय" होना चाहिए, अर्थात। समूहों के भीतर वस्तुओं (जीवों) की समानता आपस में समूहों की समानता से अधिक होनी चाहिए। लेखकों की राय में, पहचाने गए समूहों के बाद के विश्लेषण से यह स्पष्ट हो सकता है कि क्या ये समूह विभिन्न जैविक प्रजातियों के अनुरूप हैं। इस प्रकार, सोकल और स्नेथ ने माना कि वस्तुओं के वितरण की संरचना को समूहों में प्रकट करने से इन संरचनाओं के गठन की प्रक्रिया को स्थापित करने में मदद मिलती है। और विभिन्न समूहों (समूहों) के जीवों का अंतर और समानता चल रही विकास प्रक्रिया को समझने और इसके तंत्र को स्पष्ट करने के लिए एक आधार के रूप में काम कर सकती है।

उसी वर्षों में, जे। मैककेन, जी। बॉल और डी। हॉल जैसे लेखकों द्वारा k- साधन विधियों का उपयोग करके कई एल्गोरिदम प्रस्तावित किए गए थे; जी। लांस और डब्ल्यू। विलियम्स, एन। जार्डिन और अन्य - पदानुक्रमित तरीकों पर। घरेलू वैज्ञानिकों द्वारा क्लस्टर विश्लेषण विधियों के विकास में एक महत्वपूर्ण योगदान दिया गया था - ई.एम. ब्रेवरमैन, ए.ए. डोरोफेयुक, आईबी मुचनिक, एल.ए. रास्ट्रिगिन, यू.आई. नोवोसिबिर्स्क गणितज्ञों एनजी ज़ागोरुइको, वी.एन. एल्किना और जीएस एलबोव द्वारा विकसित कई एल्गोरिदम को बहुत लोकप्रियता मिली। ये ऐसे प्रसिद्ध एल्गोरिदम हैं जैसे कि FOREL, BIGFOR, KRAB, NTTP, DRET, TRF, आदि। इन पैकेजों के आधार पर, एक विशेष OTEX सॉफ़्टवेयर पैकेज बनाया गया था। कम दिलचस्प नहीं सॉफ्टवेयर उत्पाद PPSA और क्लास-मास्टर को मास्को के गणितज्ञों S.A. Aivazyan, I.S. Enyukov और B.G. Mirkin द्वारा बनाया गया था।

कुछ हद तक, सबसे प्रसिद्ध घरेलू और विदेशी सांख्यिकीय पैकेजों में क्लस्टर विश्लेषण विधियां उपलब्ध हैं: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , जेनस्टैट, एस-प्लस, आदि। बेशक, इस समीक्षा के जारी होने के 10 साल बाद, काफी कुछ बदल गया है, कई सांख्यिकीय कार्यक्रमों के नए संस्करण सामने आए हैं, और पूरी तरह से नए कार्यक्रम सामने आए हैं जो नए एल्गोरिदम और बहुत बढ़ी हुई शक्ति दोनों का उपयोग करते हैं। कंप्यूटर विज्ञान. हालांकि, अधिकांश सांख्यिकीय पैकेज 60-70 के दशक में प्रस्तावित और विकसित एल्गोरिदम का उपयोग करते हैं।

विशेषज्ञों के मोटे अनुमानों के अनुसार, ज्ञान के विभिन्न क्षेत्रों में क्लस्टर विश्लेषण और इसके अनुप्रयोगों पर प्रकाशनों की संख्या हर तीन साल में दोगुनी हो जाती है। इस प्रकार के विश्लेषण में इतनी तीव्र रुचि के क्या कारण हैं? वस्तुत: इस घटना के तीन मुख्य कारण हैं। यह शक्तिशाली कंप्यूटिंग तकनीक का उदय है, जिसके बिना वास्तविक डेटा का क्लस्टर विश्लेषण व्यावहारिक रूप से संभव नहीं है। दूसरा कारण यह है कि आधुनिक विज्ञान अपने निर्माणों में वर्गीकरण पर आधारित होता जा रहा है। इसके अलावा, यह प्रक्रिया तेजी से गहरी होती जा रही है, क्योंकि इसके समानांतर ज्ञान की बढ़ती विशेषज्ञता है, जो पर्याप्त उद्देश्य वर्गीकरण के बिना असंभव है।

तीसरा कारण - विशेष ज्ञान का गहरा होना अनिवार्य रूप से कुछ वस्तुओं और घटनाओं के विश्लेषण में ध्यान में रखे गए चर की संख्या में वृद्धि की ओर जाता है। नतीजतन, व्यक्तिपरक वर्गीकरण, जो पहले काफी कम संख्या में सुविधाओं को ध्यान में रखता था, अक्सर अविश्वसनीय हो जाता है। और ऑब्जेक्टिव वर्गीकरण, ऑब्जेक्ट विशेषताओं के लगातार बढ़ते सेट के साथ, जटिल क्लस्टरिंग एल्गोरिदम के उपयोग की आवश्यकता होती है जिसे केवल आधुनिक कंप्यूटरों के आधार पर लागू किया जा सकता है। यही कारण थे कि "क्लस्टर बूम" को जन्म दिया। हालांकि, चिकित्सकों और जीवविज्ञानियों के बीच, क्लस्टर विश्लेषण अभी तक काफी लोकप्रिय और सामान्य शोध पद्धति नहीं बन पाया है।

2 शब्दावली

2. 1 वस्तु और चिन्ह

आइए पहले हम इस तरह की अवधारणाओं को वस्तु और विशेषता के रूप में पेश करें। वस्तु - लैटिन वस्तु से - विषय। रसायन विज्ञान और जीव विज्ञान के संबंध में, वस्तुओं से हमारा तात्पर्य अनुसंधान के विशिष्ट विषयों से होगा जिनका अध्ययन भौतिक, रासायनिक और अन्य विधियों का उपयोग करके किया जाता है। ऐसी वस्तुएं हो सकती हैं, उदाहरण के लिए, नमूने, पौधे, जानवर आदि। शोधकर्ता के पास अध्ययन के लिए उपलब्ध वस्तुओं के एक निश्चित समूह को नमूना या नमूना सेट कहा जाता है। ऐसी आबादी में वस्तुओं की संख्या को आमतौर पर नमूना आकार कहा जाता है। आम तौर पर, नमूना आकार लैटिन अक्षर "एन" या "एन" द्वारा दर्शाया जाता है।

साइन (समानार्थी - गुण, चर, विशेषता; अंग्रेजी - चर - चर।) - वस्तु का एक विशिष्ट गुण है। इन गुणों को संख्यात्मक या गैर-संख्यात्मक मानों के रूप में व्यक्त किया जा सकता है। उदाहरण के लिए, रक्तचाप (सिस्टोलिक या डायस्टोलिक) पारा के मिलीमीटर, किलोग्राम में वजन, सेंटीमीटर में ऊंचाई आदि में मापा जाता है। इस तरह के संकेत मात्रात्मक हैं। इन निरंतर संख्यात्मक विशेषताओं (पैमाने) के विपरीत, कई विशेषताओं में असतत, असंतत मान हो सकते हैं। बदले में, ऐसी असतत विशेषताओं को आमतौर पर दो समूहों में विभाजित किया जाता है।

1) पहला समूह रैंक चर है, या जैसा कि उन्हें क्रमिक चर (स्केल) भी कहा जाता है। इस तरह के संकेतों को इन मूल्यों को क्रमबद्ध करने की संपत्ति की विशेषता है। इनमें किसी विशेष बीमारी के चरण, आयु समूह, छात्र ज्ञान स्कोर, 12-बिंदु रिक्टर भूकंप परिमाण पैमाना आदि शामिल हैं।

2) असतत सुविधाओं के दूसरे समूह में ऐसा कोई आदेश नहीं है और इसे नाममात्र ("नाममात्र" शब्द से - नमूना) या वर्गीकरण विशेषताएं कहा जाता है। ऐसे संकेतों का एक उदाहरण रोगी की स्थिति हो सकती है - "स्वस्थ" या "बीमार", रोगी का लिंग, अवलोकन की अवधि - "उपचार से पहले" और "उपचार के बाद", आदि। इन मामलों में, यह कहने की प्रथा है कि ऐसी विशेषताएं नामों के पैमाने से संबंधित हैं।

किसी वस्तु और एक विशेषता की अवधारणाओं को आमतौर पर "ऑब्जेक्ट-प्रॉपर्टी" या "ऑब्जेक्ट-फीचर" मैट्रिक्स कहा जाता है। मैट्रिक्स एक आयताकार तालिका होगी जिसमें अध्ययन के तहत अवलोकनों के नमूने के गुणों का वर्णन करने वाली विशेषताओं के मूल्य शामिल होंगे। इस संदर्भ में, एक अवलोकन को एक अलग लाइन के रूप में दर्ज किया जाएगा जिसमें उपयोग की जाने वाली सुविधाओं के मूल्य शामिल होंगे। इस तरह के डेटा मैट्रिक्स में एक अलग विशेषता नमूने में सभी वस्तुओं के लिए इस विशेषता के मूल्यों से युक्त कॉलम द्वारा दर्शायी जाएगी।

2. 2 वस्तुओं के बीच की दूरी (मीट्रिक)

आइए "वस्तुओं के बीच की दूरी" की अवधारणा का परिचय दें। यह अवधारणा एक दूसरे से वस्तुओं की समानता का एक अभिन्न माप है। फीचर स्पेस में वस्तुओं के बीच की दूरी एक ऐसा मान d ij है जो निम्नलिखित स्वयंसिद्धों को संतुष्ट करता है:

1. d ij > 0 (दूरी की गैर-नकारात्मकता)

2. d ij = d ji (समरूपता)

3. d ij + d jk > d ik (त्रिकोण असमानता)

4. यदि d ij 0 के बराबर नहीं है, तो मैं j के बराबर नहीं है (गैर-समान वस्तुओं की पहचान)

5. यदि d ij = 0, तो i = j (समान वस्तुओं की अप्रभेद्यता)

वस्तुओं की निकटता (समानता) के माप का प्रतिनिधित्व करना सुविधाजनक है: पारस्परिकवस्तुओं के बीच की दूरी पर। क्लस्टर विश्लेषण के लिए समर्पित कई प्रकाशन वस्तुओं के बीच की दूरी की गणना करने के लिए 50 से अधिक विभिन्न तरीकों का वर्णन करते हैं। "दूरी" शब्द के अलावा, साहित्य में अक्सर एक और शब्द पाया जाता है - "मीट्रिक", जिसका अर्थ है एक विशेष दूरी की गणना के लिए एक विधि। मात्रात्मक विशेषताओं के मामले में धारणा और समझ के लिए सबसे सुलभ तथाकथित "यूक्लिडियन दूरी" या "यूक्लिडियन मीट्रिक" है। इस दूरी की गणना का सूत्र है:

यह सूत्र निम्नलिखित संकेतन का उपयोग करता है:

· d ij - i-th और j-th ऑब्जेक्ट के बीच की दूरी;

· x ik - i-वें वस्तु के लिए k-वें चर का संख्यात्मक मान;

· x jk - j-वें वस्तु के लिए k-वें चर का संख्यात्मक मान;

· v - वस्तुओं का वर्णन करने वाले चरों की संख्या।

इस प्रकार, मामले v=2 के लिए, जब हमारे पास केवल दो मात्रात्मक विशेषताएं हैं, तो दूरी d ij एक समकोण त्रिभुज के कर्ण की लंबाई के बराबर होगी, जो एक आयताकार समन्वय प्रणाली में दो बिंदुओं को जोड़ता है। ये दो बिंदु नमूने के i-वें और j-वें प्रेक्षणों के अनुरूप होंगे। अक्सर, सामान्य यूक्लिडियन दूरी के बजाय, इसके वर्ग d 2 ij का उपयोग किया जाता है। इसके अलावा, कुछ मामलों में, "भारित" यूक्लिडियन दूरी का उपयोग किया जाता है, जिसकी गणना में व्यक्तिगत शब्दों के लिए वजन गुणांक का उपयोग किया जाता है। यूक्लिडियन मीट्रिक की अवधारणा को स्पष्ट करने के लिए, हम एक साधारण प्रशिक्षण उदाहरण का उपयोग करते हैं। नीचे दी गई तालिका में दिखाए गए डेटा मैट्रिक्स में 5 अवलोकन और दो चर शामिल हैं।

तालिका एक

पांच देखे गए नमूनों और दो चर का डेटा मैट्रिक्स।

यूक्लिडियन मीट्रिक का उपयोग करते हुए, हम इंटरऑब्जेक्ट दूरी के मैट्रिक्स की गणना करते हैं, जिसमें d ij - i-th और j-th ऑब्जेक्ट्स के बीच की दूरी के मान शामिल होते हैं। हमारे मामले में, i और j वस्तु, अवलोकन की संख्या हैं। चूंकि नमूना आकार 5 है, i और j, क्रमशः, 1 से 5 तक मान ले सकते हैं। यह भी स्पष्ट है कि सभी संभावित जोड़ीदार दूरियों की संख्या 5*5=25 होगी। दरअसल, पहली वस्तु के लिए ये निम्नलिखित दूरियां होंगी: 1-1; 1-2; 1-3; 1-4; 1-5. वस्तु 2 के लिए 5 संभावित दूरियाँ भी होंगी: 2-1; 2-2; 2-3; 2-4; 2-5 आदि। हालांकि, संख्या अलग दूरी 25 से कम होगा, क्योंकि समान वस्तुओं की अप्रभेद्यता की संपत्ति को ध्यान में रखना आवश्यक है - d ij = 0 i = j के लिए। इसका अर्थ है कि वस्तु #1 और उसी वस्तु #1 के बीच की दूरी शून्य होगी। वही शून्य दूरियां अन्य सभी स्थितियों i = j के लिए होंगी। इसके अलावा, यह सममिति गुण से निकलता है कि d ij = d ji किसी भी i और j के लिए। वे। वस्तुओं #1 और #2 के बीच की दूरी #2 और #1 वस्तुओं के बीच की दूरी के बराबर है।

यूक्लिडियन दूरी के लिए अभिव्यक्ति तथाकथित सामान्यीकृत मिंकोव्स्की बिजली दूरी के समान है, जिसमें दो के बजाय एक और मूल्य का उपयोग किया जाता है। सामान्य स्थिति में, इस मान को "p" प्रतीक द्वारा दर्शाया जाता है।

p = 2 के लिए हमें सामान्य यूक्लिडियन दूरी प्राप्त होती है। तो सामान्यीकृत मिंकोव्स्की मीट्रिक के लिए अभिव्यक्ति का रूप है:

घातांक "पी" के एक विशिष्ट मूल्य का चुनाव स्वयं शोधकर्ता द्वारा किया जाता है।

मिंकोव्स्की दूरी का एक विशेष मामला तथाकथित मैनहट्टन दूरी, या "शहर-ब्लॉक दूरी" है, जो पी = 1 के अनुरूप है:

इस प्रकार, मैनहट्टन दूरी वस्तुओं की संबंधित विशेषताओं के अंतर के मॉड्यूल का योग है। पी को अनंत की ओर जाने देते हुए, हमें "प्रभुत्व" मीट्रिक, या सुपर-मीट्रिक मिलता है:

जिसे d ij = max| . के रूप में भी दर्शाया जा सकता है एक्स इक - एक्स जेके |।

मिंकोव्स्की मीट्रिक वास्तव में सबसे लोकप्रिय मीट्रिक सहित मीट्रिक का एक बड़ा परिवार है। हालांकि, वस्तुओं के बीच की दूरी की गणना करने के तरीके हैं जो मिंकोव्स्की मेट्रिक्स से मौलिक रूप से भिन्न हैं। इनमें से सबसे महत्वपूर्ण तथाकथित महालनोबिस दूरी है, जिसमें विशिष्ट गुण हैं। इस मीट्रिक के लिए अभिव्यक्ति:

यहाँ के माध्यम से एक्स मैंतथा एक्स जे i-th और j-th ऑब्जेक्ट्स के लिए वेरिएबल वैल्यू के कॉलम वैक्टर इंगित किए जाते हैं। चिन्ह, प्रतीक टी अभिव्यक्ति में (एक्स मैं - एक्स जे ) टी तथाकथित वेक्टर ट्रांसपोज़िशन ऑपरेशन को दर्शाता है। चिन्ह, प्रतीक एस सामान्य अंतर-समूह विचरण-सहप्रसरण मैट्रिक्स इंगित किया गया है। एक प्रतीक -1 के ऊपर एस इसका मतलब है कि आपको मैट्रिक्स को पलटना होगा एस . मिंकोव्स्की मीट्रिक और यूक्लिडियन मीट्रिक के विपरीत, महालनोबिस विचरण-सहसंयोजक मैट्रिक्स के माध्यम से दूरी एस चर के सहसंबंधों से जुड़ा हुआ है। जब चरों के बीच सहसंबंध शून्य होता है, तो महालनोबिस दूरी यूक्लिडियन दूरी के वर्ग के बराबर होती है।

द्विबीजपत्री (केवल दो मान वाले) गुणात्मक विशेषताओं का उपयोग करने के मामले में, हैमिंग दूरी का व्यापक रूप से उपयोग किया जाता है

माना i-th और j-th ऑब्जेक्ट के लिए संबंधित सुविधाओं के मानों में बेमेल की संख्या के बराबर।

2. 3 क्लस्टरों का घनत्व और स्थान

क्लस्टर विश्लेषण का मुख्य लक्ष्य नमूने में एक दूसरे के समान वस्तुओं के समूहों को खोजना है। आइए मान लें कि कुछ संभावित तरीकों से हमने ऐसे समूह - क्लस्टर प्राप्त किए हैं। समूहों के महत्वपूर्ण गुणों पर ध्यान दिया जाना चाहिए। इन गुणों में से एक क्लस्टर के भीतर बिंदुओं, टिप्पणियों का वितरण घनत्व है। यह गुण हमें एक क्लस्टर को एक बहुआयामी अंतरिक्ष में बिंदुओं के समूह के रूप में परिभाषित करने की अनुमति देता है जो इस स्थान के अन्य क्षेत्रों की तुलना में अपेक्षाकृत घना है जिसमें या तो बिंदु नहीं होते हैं या कम संख्या में अवलोकन होते हैं। दूसरे शब्दों में, यह क्लस्टर कितना कॉम्पैक्ट है, या इसके विपरीत, यह कितना विरल है। इस संपत्ति के पर्याप्त प्रमाण के बावजूद, ऐसे संकेतक (घनत्व) की गणना करने का कोई स्पष्ट तरीका नहीं है। कॉम्पैक्टनेस की विशेषता वाला सबसे सफल संकेतक, किसी दिए गए क्लस्टर में बहुआयामी अवलोकनों की "पैकिंग" का घनत्व, क्लस्टर के केंद्र से क्लस्टर के अलग-अलग बिंदुओं तक की दूरी का फैलाव है। इस दूरी का फैलाव जितना छोटा होगा, प्रेक्षण क्लस्टर के केंद्र के जितने करीब होंगे, क्लस्टर का घनत्व उतना ही अधिक होगा। और इसके विपरीत, दूरी फैलाव जितना अधिक होता है, यह क्लस्टर उतना ही विरल होता है, और, परिणामस्वरूप, क्लस्टर के केंद्र के पास और क्लस्टर के केंद्र से काफी दूर स्थित बिंदु होते हैं।

समूहों की अगली संपत्ति उनका आकार है। क्लस्टर के आकार का मुख्य संकेतक इसकी "त्रिज्या" है। यह गुण वास्तविक क्लस्टर आकार को पूरी तरह से दर्शाता है यदि माना गया क्लस्टर बहुआयामी अंतरिक्ष में गोल और हाइपरस्फीयर है। हालाँकि, यदि समूहों में लम्बी आकृतियाँ हैं, तो त्रिज्या या व्यास की अवधारणा अब क्लस्टर के वास्तविक आकार को नहीं दर्शाती है।

क्लस्टर की एक अन्य महत्वपूर्ण संपत्ति उनका स्थानीयता, पृथक्करणीयता है। यह एक बहुआयामी अंतरिक्ष में एक दूसरे से समूहों के ओवरलैप और पारस्परिक दूरदर्शिता की डिग्री की विशेषता है। उदाहरण के लिए, नीचे दिए गए चित्र में नई, एकीकृत सुविधाओं के स्थान पर तीन समूहों के वितरण पर विचार करें। एक्सिस 1 और 2 को इलेक्ट्रॉन माइक्रोस्कोपी का उपयोग करके अध्ययन किए गए एरिथ्रोसाइट्स के विभिन्न रूपों के परावर्तक गुणों की 12 विशेषताओं से एक विशेष विधि द्वारा प्राप्त किया गया था।

चित्र 1

हम देखते हैं कि क्लस्टर 1 का आकार न्यूनतम है, जबकि क्लस्टर 2 और 3 का आकार लगभग समान है। उसी समय, हम कह सकते हैं कि न्यूनतम घनत्व, और इसलिए अधिकतम दूरी फैलाव, क्लस्टर 3 की विशेषता है। इसके अलावा, क्लस्टर 1 को क्लस्टर 2 और क्लस्टर दोनों से खाली जगह के पर्याप्त बड़े वर्गों द्वारा अलग किया जाता है। जबकि क्लस्टर 2 और 3 आंशिक रूप से एक दूसरे के साथ ओवरलैप करते हैं। यह भी दिलचस्पी की बात है कि क्लस्टर 1 में अक्ष 2 की तुलना में अक्ष 1 के साथ 2 और 3 समूहों से बहुत अधिक अंतर है। इसके विपरीत, क्लस्टर 2 और 3 अक्ष 1 और अक्ष 2 के साथ एक दूसरे से लगभग समान रूप से भिन्न होते हैं। यह स्पष्ट है कि इस तरह के दृश्य विश्लेषण के लिए विशेष अक्षों पर प्रक्षेपित नमूने के सभी अवलोकनों का होना आवश्यक है, जिसमें क्लस्टर तत्वों के अनुमान अलग-अलग समूहों के रूप में दिखाई देंगे।

2. समूहों के बीच 4 दूरी

व्यापक अर्थों में, वस्तुओं को न केवल अनुसंधान के मूल विषयों के रूप में समझा जा सकता है, "ऑब्जेक्ट-प्रॉपर्टी" मैट्रिक्स में एक अलग लाइन के रूप में प्रस्तुत किया जाता है, या एक बहुआयामी फीचर स्पेस में अलग-अलग बिंदुओं के रूप में, बल्कि ऐसे बिंदुओं के अलग-अलग समूहों के रूप में भी समझा जा सकता है। , एक एल्गोरिथ्म या किसी अन्य द्वारा एक क्लस्टर में एकजुट। इस मामले में, यह सवाल उठता है कि इस तरह के अंक (समूहों) के संचय के बीच की दूरी को कैसे समझा जाए और इसकी गणना कैसे की जाए। इस मामले में, बहुआयामी अंतरिक्ष में दो अवलोकनों के बीच की दूरी की गणना के मामले में संभावनाओं की विविधता भी अधिक है। यह प्रक्रिया इस तथ्य से जटिल है कि, बिंदुओं के विपरीत, क्लस्टर एक निश्चित मात्रा में बहुआयामी स्थान पर कब्जा कर लेते हैं और इसमें कई बिंदु होते हैं। क्लस्टर विश्लेषण में, अंतर-क्लस्टर दूरियों का व्यापक रूप से उपयोग किया जाता है, निकटतम पड़ोसी (निकटतम पड़ोसी), गुरुत्वाकर्षण केंद्र, सबसे दूर पड़ोसी, माध्यिका के सिद्धांत पर गणना की जाती है। चार विधियों का सबसे व्यापक रूप से उपयोग किया जाता है: एकल लिंक, पूर्ण लिंक, औसत लिंक और वार्ड की विधि। एकल लिंक विधि में, एक वस्तु को पहले से मौजूद क्लस्टर से जोड़ा जाएगा यदि क्लस्टर के कम से कम एक तत्व में समान स्तर की समानता है जैसे कि वस्तु को जोड़ा जा रहा है। पूर्ण लिंक की विधि के लिए, एक वस्तु को एक क्लस्टर से तभी जोड़ा जाता है जब समावेश के लिए उम्मीदवार और क्लस्टर के किसी भी तत्व के बीच समानता एक निश्चित सीमा से कम न हो। औसत कनेक्शन पद्धति के लिए, कई संशोधन हैं, जो एकल और पूर्ण कनेक्शन के बीच कुछ समझौता हैं। वे मौजूदा क्लस्टर की सभी वस्तुओं के साथ शामिल करने के लिए उम्मीदवार की समानता के औसत मूल्य की गणना करते हैं। अटैचमेंट तब किया जाता है जब पाया गया औसत समानता मान एक निश्चित सीमा तक पहुंच जाता है या उससे अधिक हो जाता है। क्लस्टर की वस्तुओं और क्लस्टर में शामिल करने के लिए उम्मीदवार के बीच सबसे अधिक इस्तेमाल किया जाने वाला अंकगणितीय माध्य समानता है।

क्लस्टरिंग के कई तरीके एक दूसरे से इस मायने में भिन्न हैं कि प्रत्येक चरण में उनके एल्गोरिदम विभिन्न विभाजन गुणवत्ता कार्यों की गणना करते हैं। लोकप्रिय वार्ड पद्धति का निर्माण इस तरह से किया गया है कि इंट्राक्लस्टर दूरियों के न्यूनतम विचरण को अनुकूलित किया जा सके। पहले चरण में, प्रत्येक क्लस्टर में एक वस्तु होती है, जिसके कारण दूरियों का इंट्राक्लस्टर फैलाव 0 के बराबर होता है। इस पद्धति के अनुसार, वे वस्तुएँ जो फैलाव की न्यूनतम वृद्धि देती हैं, संयुक्त होती हैं, जिसके परिणामस्वरूप यह विधि प्रवृत्त होती है। हाइपरस्फेरिकल क्लस्टर उत्पन्न करने के लिए।

क्लस्टर विश्लेषण विधियों को वर्गीकृत करने के कई प्रयास दर्जनों या सैकड़ों विभिन्न वर्गों को जन्म देते हैं। इस तरह की विविधता अलग-अलग अवलोकनों के बीच की दूरी की गणना करने के लिए बड़ी संख्या में संभावित तरीकों से उत्पन्न होती है, क्लस्टरिंग की प्रक्रिया में अलग-अलग समूहों के बीच की दूरी की गणना करने के तरीकों की संख्या कम नहीं होती है, और अंतिम क्लस्टर संरचना की इष्टतमता के विविध अनुमानों से उत्पन्न होती है।

क्लस्टर विश्लेषण एल्गोरिदम के दो समूह लोकप्रिय सांख्यिकीय पैकेजों में सबसे व्यापक रूप से उपयोग किए जाते हैं: पदानुक्रमित समूह विधियाँ और पुनरावृत्त समूह विधियाँ।

3. समूहीकरण के तरीके

3. 1 श्रेणीबद्ध समूह विधियों की विशेषताएं

एग्लोमेरेटिव पदानुक्रमित एल्गोरिदम में, जो वास्तविक जैव चिकित्सा अनुसंधान में अधिक बार उपयोग किए जाते हैं, शुरू में सभी वस्तुओं (टिप्पणियों) को अलग, स्वतंत्र समूहों के रूप में माना जाता है जिसमें केवल एक तत्व होता है। शक्तिशाली कंप्यूटर प्रौद्योगिकी के उपयोग के बिना, क्लस्टर डेटा विश्लेषण का कार्यान्वयन बहुत ही समस्याग्रस्त है।

मीट्रिक का चुनाव शोधकर्ता द्वारा किया जाता है। दूरी मैट्रिक्स की गणना के बाद, प्रक्रिया शुरू होती है संकुलन (लैटिन एग्लोमेरो से - मैं संलग्न करता हूं, जमा करता हूं), क्रमिक रूप से कदम से कदम मिलाकर। इस प्रक्रिया के पहले चरण में, दो प्रारंभिक अवलोकन (मोनोक्लस्टर) उनके बीच सबसे छोटी दूरी के साथ एक क्लस्टर में संयुक्त होते हैं, जिसमें पहले से ही दो ऑब्जेक्ट (अवलोकन) होते हैं। इस प्रकार, पूर्व एन मोनोक्लस्टर (एक ऑब्जेक्ट से युक्त क्लस्टर) के बजाय, पहले चरण के बाद, एन -1 क्लस्टर होंगे, जिनमें से एक क्लस्टर में दो ऑब्जेक्ट (अवलोकन) होंगे, और एन -2 क्लस्टर अभी भी शामिल होंगे केवल एक वस्तु। दूसरे चरण में, N-2 समूहों के संयोजन के विभिन्न तरीके संभव हैं। ऐसा इसलिए है क्योंकि इनमें से एक क्लस्टर में पहले से ही दो ऑब्जेक्ट हैं। इस कारण से, दो मुख्य प्रश्न उठते हैं:

· दो (और दो से अधिक) वस्तुओं के ऐसे समूह के निर्देशांक की गणना कैसे करें;

ऐसे "पॉली-ऑब्जेक्ट" क्लस्टर्स की "मोनोक्लस्टर्स" से और "पॉली-ऑब्जेक्ट" क्लस्टर्स के बीच की दूरी की गणना कैसे करें।

अंततः, ये प्रश्न अंतिम समूहों की अंतिम संरचना निर्धारित करते हैं (समूहों की संरचना का अर्थ है व्यक्तिगत समूहों की संरचना और एक बहुआयामी अंतरिक्ष में उनकी सापेक्ष स्थिति)। क्लस्टर के निर्देशांक और आपसी दूरी की गणना के लिए मीट्रिक और विधियों के विभिन्न संयोजन क्लस्टर विश्लेषण विधियों की विविधता को जन्म देते हैं। दूसरे चरण में, कई वस्तुओं से युक्त क्लस्टर के निर्देशांक की गणना के लिए चुने गए तरीकों और इंटरक्लस्टर दूरी की गणना करने की विधि के आधार पर, यह संभव है कि दो अलग-अलग अवलोकनों को एक नए क्लस्टर में फिर से जोड़ा जाए, या एक नए में शामिल किया जाए दो वस्तुओं से युक्त क्लस्टर का अवलोकन। सुविधा के लिए, काम के अंत में समूह-पदानुक्रमित विधियों के अधिकांश कार्यक्रम देखने के लिए दो मुख्य रेखांकन प्रदान कर सकते हैं। पहले ग्राफ को डेंड्रोग्राम (ग्रीक डेंड्रोन - पेड़ से) कहा जाता है, जो ढेर की प्रक्रिया को दर्शाता है, व्यक्तिगत टिप्पणियों का एक अंतिम क्लस्टर में विलय होता है। आइए दो चरों में 5 अवलोकनों के डेंड्रोग्राम का उदाहरण दें।

अनुसूची1

इस तरह के ग्राफ का ऊर्ध्वाधर अक्ष इंटरक्लस्टर दूरी की धुरी है, और वस्तुओं की संख्या - विश्लेषण में उपयोग किए गए मामले - क्षैतिज अक्ष के साथ चिह्नित होते हैं। इस डेंड्रोग्राम से देखा जा सकता है कि वस्तुओं नंबर 1 और नंबर 2 को पहले एक क्लस्टर में जोड़ा जाता है, क्योंकि उनके बीच की दूरी सबसे छोटी और बराबर होती है। यह विलय ग्राफ पर आने वाले लंबवत खंडों को जोड़ने वाली क्षैतिज रेखा द्वारा प्रदर्शित होता है। C_1 और C_2 के रूप में चिह्नित बिंदुओं में से। आइए इस तथ्य पर ध्यान दें कि क्षैतिज रेखा स्वयं 1 के बराबर इंटरक्लस्टर दूरी के स्तर पर गुजरती है। इसके अलावा, दूसरे चरण में, ऑब्जेक्ट नंबर 3, जिसे C_3 के रूप में नामित किया गया है, इस क्लस्टर में शामिल हो जाता है, जिसमें पहले से ही दो ऑब्जेक्ट शामिल हैं। अगला कदम वस्तुओं #4 और #5 को मिलाना है, जिसके बीच की दूरी 1.41 के बराबर है। और अंतिम चरण में, वस्तुओं 1, 2 और 3 के समूह को 4 और 5 वस्तुओं के समूह के साथ जोड़ा जाता है। ग्राफ से पता चलता है कि इन दो अंतिम समूहों (अंतिम क्लस्टर में सभी 5 ऑब्जेक्ट शामिल हैं) के बीच की दूरी 5 से अधिक है। , लेकिन 6 से कम, चूंकि दो उपांतिक समूहों को जोड़ने वाली ऊपरी क्षैतिज रेखा लगभग 7 के बराबर के स्तर पर गुजरती है, और वस्तुओं 4 और 5 के कनेक्शन का स्तर 1.41 है।

नीचे दिया गया डेंड्रोग्राम एक वास्तविक डेटासेट का विश्लेषण करके प्राप्त किया गया था जिसमें 70 संसाधित रासायनिक नमूने, जिनमें से प्रत्येक को 12 विशेषताओं की विशेषता थी।

चार्ट 2

ग्राफ से यह देखा जा सकता है कि अंतिम चरण में, जब अंतिम दो समूहों का विलय होता है, तो उनके बीच की दूरी लगभग 200 इकाई होती है। यह देखा जा सकता है कि पहले क्लस्टर में दूसरे क्लस्टर की तुलना में बहुत कम ऑब्जेक्ट शामिल हैं। नीचे डेंड्रोग्राम का एक बड़ा खंड है जिस पर अवलोकन संख्या स्पष्ट रूप से दिखाई दे रही है, जिसे C_65, C_58, आदि के रूप में दर्शाया गया है। (बाएं से दाएं): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94, आदि।

चार्ट 3 ऊपर चार्ट #2 का बढ़ा हुआ भाग

यह देखा जा सकता है कि ऑब्जेक्ट 44 एक मोनोक्लस्टर है जो अंतिम चरण में सही क्लस्टर के साथ जुड़ता है, और फिर, अंतिम चरण में, सभी अवलोकनों को एक क्लस्टर में जोड़ दिया जाता है।

इस तरह की प्रक्रियाओं में बनाया गया एक और ग्राफ संघ के प्रत्येक चरण पर इंटरक्लस्टर दूरी का ग्राफ है। नीचे उपरोक्त डेंड्रोग्राम के लिए एक समान प्लॉट है।

चार्ट 4

कई कार्यक्रमों में, क्लस्टरिंग के प्रत्येक चरण में वस्तुओं के संयोजन के परिणामों को सारणीबद्ध रूप में प्रदर्शित करना संभव है। इनमें से अधिकांश तालिकाओं में, भ्रम से बचने के लिए, प्रारंभिक अवलोकनों को निर्दिष्ट करने के लिए विभिन्न शब्दावली का उपयोग किया जाता है - मोनोक्लस्टर, और वास्तविक क्लस्टर जिसमें दो या अधिक अवलोकन होते हैं। अंग्रेजी भाषा के सांख्यिकीय पैकेजों में, प्रारंभिक अवलोकन (डेटा मैट्रिक्स की पंक्तियों) को "केस" - केस के रूप में नामित किया गया है। मीट्रिक की पसंद और क्लस्टर संयोजन एल्गोरिदम की पसंद पर क्लस्टर संरचना की निर्भरता को प्रदर्शित करने के लिए, हम पूर्ण कनेक्शन एल्गोरिदम के अनुरूप एक डेंड्रोग्राम के नीचे प्रस्तुत करते हैं। और यहाँ हम देखते हैं कि वस्तु #44 को अंतिम चरण में शेष चयन के साथ मिला दिया गया है।

चार्ट 5

आइए अब इसकी तुलना उसी डेटा पर सिंगल लिंक विधि का उपयोग करके प्राप्त दूसरे आरेख से करते हैं। पूर्ण कनेक्शन विधि के विपरीत, यह देखा जा सकता है कि यह विधि एक दूसरे से क्रमिक रूप से जुड़ी वस्तुओं की लंबी श्रृंखला उत्पन्न करती है। हालाँकि, तीनों मामलों में, हम कह सकते हैं कि दो मुख्य समूह बाहर खड़े हैं।

चार्ट 6

आइए इस तथ्य पर भी ध्यान दें कि तीनों मामलों में ऑब्जेक्ट नंबर 44 एक मोनोक्लस्टर के रूप में जुड़ता है, हालांकि क्लस्टरिंग प्रक्रिया के विभिन्न चरणों में। ऐसे मोनोक्लस्टर का चयन विषम प्रेक्षणों का पता लगाने का एक अच्छा साधन है, जिन्हें आउटलेयर कहा जाता है। आइए इस "संदिग्ध" ऑब्जेक्ट नंबर 44 को हटा दें और फिर से क्लस्टरिंग करें। हमें निम्नलिखित डेंड्रोग्राम मिलता है:

चार्ट 7

यह देखा जा सकता है कि "श्रृंखला" प्रभाव संरक्षित है, जैसा कि अवलोकन के दो स्थानीय समूहों में विभाजन है।

3. पुनरावृत्त क्लस्टरिंग विधियों की 2 विशेषताएं

पुनरावृत्त विधियों में, सबसे लोकप्रिय विधि मैककेन की k- साधन विधि है। पदानुक्रमित विधियों के विपरीत, इस पद्धति के अधिकांश कार्यान्वयन में, उपयोगकर्ता को स्वयं अंतिम समूहों की वांछित संख्या निर्दिष्ट करनी होगी, जिसे आमतौर पर "k" के रूप में दर्शाया जाता है। पदानुक्रमित क्लस्टरिंग विधियों की तरह, उपयोगकर्ता एक या दूसरे प्रकार के मीट्रिक का चयन कर सकता है। k- साधन विधि के विभिन्न एल्गोरिदम भी दिए गए समूहों के प्रारंभिक केंद्रों को चुनने के तरीके में भिन्न होते हैं। विधि के कुछ रूपों में, उपयोगकर्ता स्वयं ऐसे प्रारंभिक बिंदुओं को निर्दिष्ट (या अवश्य) कर सकता है, या तो उन्हें वास्तविक अवलोकनों से चुनकर, या प्रत्येक चर के लिए इन बिंदुओं के निर्देशांक निर्दिष्ट करके। इस पद्धति के अन्य कार्यान्वयन में, प्रारंभिक बिंदुओं के दिए गए संख्या k का चुनाव बेतरतीब ढंग से किया जाता है, और इन प्रारंभिक बिंदुओं (क्लस्टर अनाज) को बाद में कई चरणों में परिष्कृत किया जा सकता है। ऐसी विधियों के 4 मुख्य चरण हैं:

· k प्रेक्षणों को चुनें या असाइन करें जो क्लस्टर के प्राथमिक केंद्र होंगे;

· यदि आवश्यक हो, तो प्रत्येक अवलोकन को निकटतम निर्दिष्ट क्लस्टर केंद्रों को सौंपकर मध्यवर्ती समूहों का गठन किया जाता है;

· सभी अवलोकनों को अलग-अलग समूहों को सौंपने के बाद, प्राथमिक क्लस्टर केंद्रों को क्लस्टर औसत से बदल दिया जाता है;

· पिछली पुनरावृत्ति तब तक दोहराई जाती है जब तक कि क्लस्टर केंद्रों के निर्देशांक में परिवर्तन न्यूनतम नहीं हो जाते।

इस पद्धति के कुछ संस्करणों में, उपयोगकर्ता मानदंड का एक संख्यात्मक मान निर्धारित कर सकता है, जिसे नए क्लस्टर केंद्रों के चयन के लिए न्यूनतम दूरी के रूप में व्याख्या किया जाता है। अवलोकन को उम्मीदवार के रूप में नहीं माना जाएगा नया केंद्रक्लस्टर, यदि क्लस्टर के प्रतिस्थापित केंद्र से इसकी दूरी निर्दिष्ट संख्या से अधिक है। कुछ प्रोग्रामों में इस पैरामीटर को "त्रिज्या" कहा जाता है। इस पैरामीटर के अलावा, अधिकतम संख्या में पुनरावृत्तियों को सेट करना या एक निश्चित, आमतौर पर काफी छोटी संख्या तक पहुंचना संभव है, जिसके साथ सभी क्लस्टर केंद्रों के लिए दूरी में परिवर्तन की तुलना की जाती है। इस सेटिंग को आमतौर पर "अभिसरण" के रूप में जाना जाता है क्योंकि पुनरावृत्ति क्लस्टरिंग प्रक्रिया के अभिसरण को दर्शाता है। नीचे हम कुछ ऐसे परिणाम प्रस्तुत करते हैं जो पिछले डेटा के लिए McKean k-means पद्धति का उपयोग करके प्राप्त किए गए थे। वांछित समूहों की संख्या शुरू में 3 और फिर 2 पर सेट की गई थी। उनके पहले भाग में एक-कारक के परिणाम होते हैं भिन्नता का विश्लेषण, जिसमें क्लस्टर संख्या समूहीकरण कारक के रूप में कार्य करती है। पहला कॉलम 12 चरों की एक सूची है, उसके बाद वर्गों का योग (एसएस) और स्वतंत्रता की डिग्री (डीएफ), फिर फिशर का एफ-टेस्ट, और अंतिम कॉलम में महत्व स्तर "पी" हासिल किया गया है।

तालिका 2 McKean k-मतलब 70 परीक्षण नमूनों पर लागू डेटा।

चर

जैसा कि इस तालिका से देखा जा सकता है, तीन समूहों में साधनों की समानता के बारे में शून्य परिकल्पना को खारिज कर दिया जाता है। नीचे अलग-अलग समूहों के लिए सभी चर के साधनों का एक ग्राफ है। चरों के समान क्लस्टर माध्य नीचे तालिका के रूप में प्रस्तुत किए गए हैं।

तालिका 3. तीन समूहों के उदाहरण पर डेटा की विस्तृत समीक्षा।

चर

क्लस्टर #1

क्लस्टर #2

क्लस्टर #3

चार्ट 8

प्रत्येक क्लस्टर के लिए चर के औसत मूल्यों का विश्लेषण हमें यह निष्कर्ष निकालने की अनुमति देता है कि, X1 सुविधा के अनुसार, क्लस्टर 1 और 3 में निकट मान हैं, जबकि क्लस्टर 2 का औसत मूल्य अन्य दो समूहों की तुलना में बहुत कम है। इसके विपरीत, X2 फीचर के अनुसार, पहले क्लस्टर का मान सबसे कम होता है, जबकि दूसरे और तीसरे क्लस्टर में उच्च और करीबी औसत मान होते हैं। गुण X3-X12 के लिए, क्लस्टर 1 में औसत मान क्लस्टर 2 और 3 की तुलना में काफी अधिक हैं। दो समूहों में क्लस्टरिंग के परिणामों के एनोवा विश्लेषण की निम्न तालिका भी समानता के बारे में शून्य परिकल्पना को अस्वीकार करने की आवश्यकता को दर्शाती है। चर X4 के अपवाद के साथ, लगभग सभी 12 विशेषताओं के लिए समूह का मतलब है, जिसके लिए प्राप्त महत्व स्तर 5% से अधिक निकला।

तालिका 4. दो समूहों में क्लस्टरिंग के परिणामों के फैलाव विश्लेषण की तालिका।

चर

दो समूहों में क्लस्टरिंग के मामले में नीचे एक ग्राफ और समूह का मतलब है।

तालिका 5. दो समूहों में क्लस्टरिंग के मामले के लिए तालिका।

चर

क्लस्टर #1

क्लस्टर #2

चार्ट 9.

मामले में जब शोधकर्ता पहले से क्लस्टर की सबसे संभावित संख्या निर्धारित करने में सक्षम नहीं होता है, तो उसे ऊपर किए गए कार्यों के समान एक अलग संख्या निर्धारित करते हुए, गणनाओं को दोहराने के लिए मजबूर किया जाता है। और फिर, एक दूसरे के साथ प्राप्त परिणामों की तुलना करते हुए, सबसे स्वीकार्य क्लस्टरिंग विकल्पों में से एक पर रुकें।

4 . सुविधाओं का क्लस्टरिंग

व्यक्तिगत अवलोकनों को क्लस्टर करने के अलावा, फीचर क्लस्टरिंग एल्गोरिदम भी हैं। इस तरह की पहली विधियों में से एक है सहसंबंध की विधि टेरेंटिएव पी.वी. इस तरह के प्लीएड्स की आदिम छवियां अक्सर बायोमेडिकल प्रकाशनों में एक सर्कल के रूप में पाई जा सकती हैं, जो तीरों को जोड़ने वाले संकेतों के साथ बिंदीदार होती हैं, जिसके लिए लेखकों ने एक सहसंबंध पाया। वस्तुओं और सुविधाओं को क्लस्टर करने के लिए कई कार्यक्रमों में अलग-अलग प्रक्रियाएं होती हैं। उदाहरण के लिए, फीचर क्लस्टरिंग के लिए SAS पैकेज में, VARCLUS प्रक्रिया (VARiable - वेरिएबल और CLUSter - क्लस्टर से) का उपयोग किया जाता है, जबकि अवलोकनों का क्लस्टर विश्लेषण अन्य प्रक्रियाओं - FASTCLUS और CLUSTER द्वारा किया जाता है। दोनों मामलों में डेंड्रोग्राम का निर्माण TREE (पेड़) प्रक्रिया का उपयोग करके किया जाता है।

अन्य सांख्यिकीय पैकेजों में, क्लस्टरिंग के लिए तत्वों का चयन - वस्तुओं या सुविधाओं - एक ही मॉड्यूल में किया जाता है। फीचर क्लस्टरिंग के लिए एक मीट्रिक के रूप में, अभिव्यक्तियों का अक्सर उपयोग किया जाता है जिसमें कुछ गुणांक के मूल्य शामिल होते हैं जो सुविधाओं की एक जोड़ी के लिए रिश्ते की ताकत को दर्शाते हैं। इस मामले में, एक (कार्यात्मक निर्भरता) के बराबर कनेक्शन शक्ति वाले संकेतों के लिए शून्य के बराबर संकेतों के बीच की दूरी लेना बहुत सुविधाजनक है। दरअसल, एक कार्यात्मक कनेक्शन के साथ, एक विशेषता का मूल्य किसी अन्य विशेषता के मूल्य की सटीक गणना कर सकता है। राशियों के बीच संबंधों की मजबूती के कम होने के साथ-साथ दूरी भी बढ़ती जाती है। नीचे एक ग्राफ़ है जो 70 विश्लेषणात्मक नमूनों को क्लस्टर करते समय ऊपर उपयोग किए गए 12 विशेषताओं के संयोजन का एक डेंड्रोग्राम दिखा रहा है।

ग्राफ 10. डेंड्रोग्रामक्लस्टरिंग 12 विशेषताएं।

जैसा कि इस डेंड्रोग्राम से देखा जा सकता है, हम सुविधाओं के दो स्थानीय समूहों के साथ काम कर रहे हैं: X1-X10 और X11-X12। सुविधाओं के समूह X1-X10 को इंटरक्लस्टर दूरी के काफी छोटे मूल्य की विशेषता है, जो लगभग 100 इकाइयों से अधिक नहीं है। यहां हम कुछ आंतरिक युग्मित उपसमूह भी देखते हैं: X1 और X2, X3 और X4, X6 और X7। इन जोड़ियों की विशेषताओं के बीच की दूरी, जो शून्य के बहुत करीब है, उनके मजबूत जोड़ी संबंध को इंगित करती है। जबकि X11 और X12 जोड़ी के लिए इंटरक्लस्टर दूरी का मान बहुत बड़ा है और लगभग 300 यूनिट है। अंत में, बाएं (X1-X10) और दाएं (X11-X12) समूहों के बीच एक बहुत बड़ी दूरी, लगभग 1150 इकाइयों के बराबर, इंगित करता है कि सुविधाओं के इन दो समूहों के बीच संबंध काफी कम है।

5. क्लस्टरिंग की स्थिरता और गुणवत्ता

जाहिर है, यह सवाल उठाना बेतुका होगा कि क्लस्टर विश्लेषण विधियों की मदद से प्राप्त यह या वह वर्गीकरण कितना पूर्ण है। जब क्लस्टरिंग पद्धति को बदल दिया जाता है, तो स्थिरता इस तथ्य में प्रकट होती है कि डेंड्रोग्राम पर दो क्लस्टर काफी स्पष्ट रूप से दिखाई देते हैं।

क्लस्टर विश्लेषण परिणामों की स्थिरता की जांच करने के संभावित तरीकों में से एक के रूप में, विभिन्न क्लस्टरिंग एल्गोरिदम के लिए प्राप्त परिणामों की तुलना करने की विधि का उपयोग किया जा सकता है। 1977 में बी. एफ्रॉन द्वारा प्रस्तावित तथाकथित बूटस्ट्रैप विधि, "जैकनाइफ़" और "स्लाइडिंग कंट्रोल" विधियाँ अन्य तरीके हैं। क्लस्टर समाधान की स्थिरता की जाँच करने का सबसे सरल साधन प्रारंभिक नमूने को लगभग दो बराबर भागों में बेतरतीब ढंग से विभाजित करना, दोनों भागों को क्लस्टर करना और फिर परिणामों की तुलना करना हो सकता है। अधिक समय लेने वाले तरीके में शुरुआत में पहली वस्तु का क्रमिक बहिष्करण और शेष (एन -1) वस्तुओं का क्लस्टरिंग शामिल है। इसके अलावा, क्रमिक रूप से इस प्रक्रिया को दूसरे, तीसरे, आदि के अपवाद के साथ करना। वस्तुओं, सभी एन प्राप्त समूहों की संरचना का विश्लेषण किया जाता है। स्थिरता की जाँच के लिए एक अन्य एल्गोरिथ्म में कई पुनरुत्पादन, एन ऑब्जेक्ट्स के मूल नमूने का दोहराव, फिर सभी डुप्लिकेट किए गए नमूनों को एक बड़े नमूने (छद्म-सामान्य आबादी) में जोड़ना और यादृच्छिक रूप से एन ऑब्जेक्ट्स का एक नया नमूना निकालना शामिल है। उसके बाद, इस नमूने को क्लस्टर किया जाता है, फिर एक नया यादृच्छिक नमूना लिया जाता है, और फिर से क्लस्टरिंग की जाती है, आदि। यह काफी श्रमसाध्य भी है।

क्लस्टरिंग की गुणवत्ता का आकलन करते समय कोई कम समस्या नहीं है। क्लस्टर समाधानों के अनुकूलन के लिए काफी कुछ एल्गोरिदम ज्ञात हैं। पहला काम जिसमें इंट्राक्लस्टर विचरण को कम करने के लिए मानदंड के सूत्र शामिल थे और इष्टतम समाधान खोजने के लिए एक एल्गोरिथ्म (के-साधन प्रकार का) 50 के दशक में दिखाई दिया। 1963 में जे वार्ड के लेख ने एक समान अनुकूलन पदानुक्रमित एल्गोरिथ्म भी प्रस्तुत किया। क्लस्टर समाधान के अनुकूलन के लिए कोई सार्वभौमिक मानदंड नहीं है। यह सब शोधकर्ता के लिए इष्टतम समाधान चुनना मुश्किल बनाता है। ऐसी स्थिति में सर्वोत्तम संभव तरीके सेयह दावा करने के लिए कि अध्ययन के इस चरण में पाया गया क्लस्टर समाधान इष्टतम है, बहुभिन्नरूपी आँकड़ों के अन्य तरीकों का उपयोग करके प्राप्त निष्कर्षों के साथ इस समाधान की संगति है।

क्लस्टरिंग की इष्टतमता के बारे में निष्कर्ष के पक्ष में, अध्ययन की अन्य वस्तुओं पर पहले से ही प्राप्त समाधान के भविष्य कहनेवाला क्षणों की जाँच के सकारात्मक परिणाम भी हैं। क्लस्टर विश्लेषण के पदानुक्रमित तरीकों का उपयोग करते समय, हम कई ग्राफ़ की एक दूसरे के साथ तुलना करने की अनुशंसा कर सकते हैं वृद्धिशील परिवर्तनइंटरक्लस्टर दूरी। इस मामले में, उस विकल्प को वरीयता दी जानी चाहिए जिसके लिए इस तरह की वृद्धि की एक सपाट रेखा पहले चरण से कई अंतिम चरणों तक देखी जाती है, जिसमें इस ग्राफ में अंतिम 1-2 चरणों में एक तेज ऊर्ध्वाधर वृद्धि होती है।

निष्कर्ष

अपने काम में, मैंने न केवल इस प्रकार के विश्लेषण की जटिलता को दिखाने की कोशिश की, बल्कि इष्टतम डेटा प्रोसेसिंग क्षमताओं को भी दिखाया, क्योंकि अक्सर परिणामों की सटीकता के लिए आपको दसियों से सैकड़ों नमूनों का उपयोग करना पड़ता है। इस प्रकारविश्लेषण परिणामों को वर्गीकृत और संसाधित करने में मदद करता है। मैं इस विश्लेषण में कंप्यूटर प्रौद्योगिकियों की स्वीकार्यता को महत्वहीन नहीं मानता, जिससे प्रसंस्करण की प्रक्रिया को कम समय लेने वाली प्रक्रिया बनाना संभव हो जाता है और इस प्रकार विश्लेषण के लिए नमूने की शुद्धता पर अधिक ध्यान देने की अनुमति मिलती है।

क्लस्टर विश्लेषण के उपयोग में, ऐसी सूक्ष्मताएं और विवरण होते हैं जो व्यक्तिगत विशिष्ट मामलों में प्रकट होते हैं और तुरंत दिखाई नहीं देते हैं। उदाहरण के लिए, सुविधाओं के पैमाने की भूमिका न्यूनतम हो सकती है, और कुछ मामलों में प्रमुख हो सकती है। ऐसे मामलों में परिवर्तनीय परिवर्तनों का उपयोग करना आवश्यक है। यह उन तरीकों का उपयोग करते समय विशेष रूप से प्रभावी होता है जो गैर-रैखिक सुविधा परिवर्तन उत्पन्न करते हैं जो आम तौर पर सुविधाओं के बीच सहसंबंध के समग्र स्तर को बढ़ाते हैं।

केवल गुणात्मक विशेषताओं द्वारा वर्णित वस्तुओं के संबंध में क्लस्टर विश्लेषण के उपयोग में और भी अधिक विशिष्टता है। इस मामले में, गुणात्मक विशेषताओं के प्रारंभिक डिजिटलीकरण और नई सुविधाओं के साथ क्लस्टर विश्लेषण के तरीके काफी सफल हैं। अपने काम में, मैंने दिखाया कि क्लस्टर विश्लेषण पर्याप्त रूप से अध्ययन किए गए सिस्टम में इसके आवेदन के मामले में और अज्ञात संरचना वाले सिस्टम के अध्ययन में बहुत सारी नई और मूल जानकारी प्रदान करता है।

यह भी ध्यान दिया जाना चाहिए कि विकासवादी अनुसंधान में क्लस्टर विश्लेषण अपरिहार्य हो गया है, जिससे विकासवादी पथ दिखाने वाले फ़ाइलोजेनेटिक पेड़ों के निर्माण की अनुमति मिलती है। कार्यक्रमों में इन विधियों का व्यापक रूप से उपयोग किया जाता है वैज्ञानिक अनुसंधानभौतिक और विश्लेषणात्मक रसायन विज्ञान में।

ग्रंथ सूची

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. लागू सांख्यिकीय विश्लेषण के लिए सॉफ़्टवेयर पैकेज की संरचना और सामग्री पर // एल्गोरिथम और सॉफ़्टवेयरलागू सांख्यिकीय विश्लेषण।--एम।, 1980।

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. बहुआयामी अवलोकनों का वर्गीकरण।--M.: सांख्यिकी, 1974।

3) बेकर वी.ए., लुकत्सकाया एम.एल. युग्मन गुणांक के मैट्रिक्स की संरचना के विश्लेषण पर // आर्थिक और सांख्यिकीय मॉडलिंग के मुद्दे और उद्योग में पूर्वानुमान।-- नोवोसिबिर्स्क, 1970।

4) ब्रेवरमैन ई.एम., मुचनिक आई.बी. संरचनात्मक तरीकेडाटा प्रोसेसिंग - एम .: नौका, 1983।

5) वोरोनिन यू। ए। वर्गीकरण सिद्धांत और इसके अनुप्रयोग।--नोवोसिबिर्स्क: नौका, 1987।

6) गुड आई जे बॉट्रीलॉजी ऑफ बॉट्रीलॉजी // क्लासिफिकेशन एंड क्लस्टर।--एम .: मीर, 1980।

7) डबरोव्स्की एस। ए। एप्लाइड मल्टीवेरिएट सांख्यिकीय विश्लेषण।--एम .: वित्त और सांख्यिकी, 1982।

8) डुरान एन।, ओडेल पी। क्लस्टर विश्लेषण।--एम .: सांख्यिकी, 1977।

9) एलिसेवा आई.आई., रुकविश्निकोव वी.एस. ग्रुपिंग, सहसंबंध, पैटर्न मान्यता .--एम .: सांख्यिकी, 1977।

10) ज़ागोरुइको एन.जी. मान्यता के तरीके और उनके अनुप्रयोग।--एम।: सोवियत रेडियो, 1972।

11) जेड एल ए फजी सेट और पैटर्न पहचान और क्लस्टर विश्लेषण में उनके आवेदन // वर्गीकरण और क्लस्टर।--एम .: मीर, 1980।

12) किल्डीशेव जी.एस., अबोलेंटसेव यू.आई. बहुआयामी समूह।--एम .: सांख्यिकी, 1978।

13) रायस्काया II, गोस्टिलिन एनआई, फ्रेनकेल एए क्लस्टर विश्लेषण में विभाजन की वैधता की जांच करने का एक तरीका है। // अर्थशास्त्र और उत्पाद गुणवत्ता मूल्यांकन में बहुभिन्नरूपी सांख्यिकीय विश्लेषण का अनुप्रयोग।--च। पी. टार्टू, 1977.

14) Shurygin A. M. डिस्ट्रीब्यूशन ऑफ इंटरपॉइंट डिस्टेंस एंड डिफरेंसेज // सॉफ्टवेयर एंड एल्गोरिथम सपोर्ट फॉर एप्लाइड मल्टीडायमेंशनल स्टैटिस्टिकल एनालिसिस।--एम।, 1983।

15) ईरेमा आर। उनके संख्यात्मक प्रतिनिधित्व खोजने के लिए क्लस्टर सिस्टम और एल्गोरिदम डिजाइन करने का सामान्य सिद्धांत: टीएसयू के कंप्यूटिंग सेंटर की कार्यवाही।--टार्टू, 1978।

16) Yastremsky बी.एस. चयनित कार्य।--एम .: सांख्यिकी, 1964।

इसी तरह के दस्तावेज़

    में बाजार विभाजन के लक्ष्य विपणन गतिविधियां. क्लस्टर विश्लेषण का सार, इसके कार्यान्वयन के मुख्य चरण। दूरी या समानता मापने का तरीका चुनें. पदानुक्रमित, गैर-श्रेणीबद्ध क्लस्टरिंग विधियाँ। विश्वसनीयता और विश्वसनीयता का आकलन।

    रिपोर्ट, 02.11.2009 को जोड़ा गया

    मुख्य विशेषताएं आर्थिक स्थितिउद्यम। उद्यम पर संकट, इसके कारण, प्रकार और परिणाम। आधुनिक तरीकेऔर क्लस्टर विश्लेषण उपकरण, उद्यम के वित्तीय और आर्थिक मूल्यांकन के लिए उनके उपयोग की विशेषताएं।

    थीसिस, जोड़ा 10/09/2013

    Statgraphics Plus का उपयोग करके उद्यमों का क्लस्टर विश्लेषण करना। एक रैखिक प्रतिगमन समीकरण का निर्माण। प्रतिगमन मॉडल द्वारा लोच के गुणांक की गणना। समीकरण के सांख्यिकीय महत्व और निर्धारण के गुणांक का आकलन।

    कार्य, जोड़ा गया 03/16/2014

    प्रेक्षणों के अलग-अलग समूहों के लिए टाइपोलॉजिकल रिग्रेशन का निर्माण। स्थानिक डेटा और अस्थायी जानकारी। क्लस्टर विश्लेषण के आवेदन का दायरा। वस्तुओं की एकरूपता की अवधारणा, दूरी मैट्रिक्स के गुण। टाइपोलॉजिकल रिग्रेशन का संचालन।

    प्रस्तुति, जोड़ा 10/26/2013

    संयुक्त मॉडल और विधियों का निर्माण: आधुनिक तरीकापूर्वानुमान क्लस्टरिंग समस्याओं को हल करने में स्थिर और गैर-स्थिर समय श्रृंखला का वर्णन करने के लिए एक एआरआईएमए-आधारित मॉडल। ऑटोरेग्रेसिव एआर मॉडल और कोरेलोग्राम का अनुप्रयोग।

    प्रस्तुति, जोड़ा गया 05/01/2015

    विभिन्न प्रकार के मेट्रिक्स के लक्षण। निकटतम पड़ोसी विधि और इसके सामान्यीकरण। निकटतम पड़ोसी एल्गोरिथ्म। Parzen विंडो विधि। सामान्यीकृत मीट्रिक क्लासिफायरियर। एक मीट्रिक चुनने की समस्या। मैनहट्टन और यूक्लिडियन दूरी। कोसाइन माप।

    टर्म पेपर, जोड़ा गया 03/08/2015

    क्रास्नोडार क्षेत्र के निर्माण उद्योग की विशेषताएं। आवास निर्माण के विकास का पूर्वानुमान। क्लस्टर विश्लेषण के आधुनिक तरीके और उपकरण। एक उद्यम की आर्थिक स्थिति के निदान के लिए बहुआयामी सांख्यिकीय तरीके।

    थीसिस, जोड़ा गया 07/20/2015

    ब्रांस्क क्षेत्र के उदाहरण पर बंधक ऋण देने की विशेषताएं। गणितीय निर्णय लेने के तरीकों की समीक्षा: विशेषज्ञ मूल्यांकन, अनुक्रमिक और जोड़ीदार तुलना, पदानुक्रम विश्लेषण। इष्टतम बंधक ऋण के लिए एक खोज कार्यक्रम का विकास।

    टर्म पेपर, जोड़ा गया 11/29/2012

    सिस्टम विश्लेषण के अनुप्रयोग के क्षेत्र, इसका स्थान, भूमिका, लक्ष्य और कार्य आधुनिक विज्ञान. सिस्टम विश्लेषण के तरीकों की अवधारणा और सामग्री, इसके अनौपचारिक तरीके। अनुमानी और विशेषज्ञ अनुसंधान विधियों की विशेषताएं और उनके आवेदन की विशेषताएं।

    टर्म पेपर, जोड़ा गया 05/20/2013

    आर्थिक डेटा की बारीकियों को ध्यान में रखते हुए और जरूरतों के अनुसार अर्थमितीय विधियों का विकास और अनुसंधान अर्थशास्त्रऔर अभ्यास। आर्थिक आंकड़ों के सांख्यिकीय विश्लेषण के लिए अर्थमितीय विधियों और मॉडलों का अनुप्रयोग।

विश्वविद्यालय: वीजेडएफईआई

वर्ष और शहर: मास्को 2008


1 परिचय। क्लस्टर विश्लेषण पद्धति की अवधारणा।

2. क्लस्टर विश्लेषण को लागू करने की पद्धति का विवरण। समस्या समाधान का नियंत्रण उदाहरण।

4. प्रयुक्त साहित्य की सूची

  1. परिचय। क्लस्टर विश्लेषण पद्धति की अवधारणा।

क्लस्टर विश्लेषण विधियों का एक सेट है जो बहुआयामी अवलोकनों को वर्गीकृत करने की अनुमति देता है, जिनमें से प्रत्येक को विशेषताओं (पैरामीटर) X1, X2, ..., Xk द्वारा वर्णित किया गया है।

क्लस्टर विश्लेषण का उद्देश्य एक दूसरे के समान वस्तुओं के समूहों का निर्माण है, जिन्हें आमतौर पर क्लस्टर (वर्ग, टैक्सोन, एकाग्रता) कहा जाता है।

क्लस्टर विश्लेषण सांख्यिकीय अनुसंधान के क्षेत्रों में से एक है। यह विज्ञान की उन शाखाओं में विशेष रूप से महत्वपूर्ण स्थान रखता है जो सामूहिक घटनाओं और प्रक्रियाओं के अध्ययन से जुड़ी हैं। क्लस्टर विश्लेषण विधियों और उनके उपयोग को विकसित करने की आवश्यकता इस तथ्य से तय होती है कि वे वैज्ञानिक रूप से आधारित वर्गीकरण बनाने में मदद करते हैं, पहचान करते हैं आंतरिक संचारदेखी गई जनसंख्या की इकाइयों के बीच। इसके अलावा, क्लस्टर विश्लेषण विधियों का उपयोग सूचना को संपीड़ित करने के लिए किया जा सकता है, जो सांख्यिकीय डेटा प्रवाह की निरंतर वृद्धि और जटिलता के सामने एक महत्वपूर्ण कारक है।

क्लस्टर विश्लेषण विधियाँ निम्नलिखित समस्याओं को हल करने की अनुमति देती हैं:

वस्तुओं का वर्गीकरण करना, उन विशेषताओं को ध्यान में रखते हुए जो वस्तुओं के सार, प्रकृति को दर्शाती हैं। ऐसी समस्या का समाधान, एक नियम के रूप में, वर्गीकृत की जा रही वस्तुओं की समग्रता के बारे में ज्ञान को गहरा करता है;

वस्तुओं के अध्ययन किए गए सेट में कुछ संरचना की उपस्थिति के बारे में की गई धारणाओं की जाँच करना, अर्थात। एक मौजूदा संरचना की खोज करें;

खराब अध्ययन की गई घटनाओं के लिए नए वर्गीकरण का निर्माण, जब आबादी के भीतर कनेक्शन की उपस्थिति स्थापित करना आवश्यक हो और इसमें संरचना को पेश करने का प्रयास किया जाए (1। पीपी। 85-86)।

2. क्लस्टर विश्लेषण को लागू करने की पद्धति का विवरण। समस्या समाधान का नियंत्रण उदाहरण।

क्लस्टर विश्लेषण आपको k विशेषताओं द्वारा विशेषता n वस्तुओं से सजातीय समूहों (क्लस्टर) में एक ब्रेकडाउन बनाने की अनुमति देता है। वस्तुओं की एकरूपता दूरी p(xi xj) द्वारा निर्धारित की जाती है, जहां xi = (xi1,…., xik) और xj= (xj1,…,xjk) i के k विशेषताओं के मानों से बने सदिश हैं। -वें और जे-वें ऑब्जेक्ट, क्रमशः।

संख्यात्मक विशेषताओं की विशेषता वाली वस्तुओं के लिए, दूरी निम्न सूत्र द्वारा निर्धारित की जाती है:

p(xi , xj) = (x1m-xjm) 2 (1)*

वस्तुओं को सजातीय माना जाता है यदि p(xi xj)< p предельного.

एक क्लस्टर यूनियन ट्री - एक डेंड्रोग्राम का उपयोग करके संघ का एक ग्राफिक प्रतिनिधित्व प्राप्त किया जा सकता है। (2. अध्याय 39)।

टेस्ट केस (उदाहरण 92)।

बिक्री की मात्रा

आइए हम इन वस्तुओं को "निकट पड़ोसी" सिद्धांत का उपयोग करके वर्गीकृत करें। आइए सूत्र (1)* का उपयोग करके वस्तुओं के बीच की दूरी ज्ञात करें। आइए तालिका भरें।

आइए बताते हैं कि टेबल कैसे भरी जाती है।

पंक्ति i और स्तंभ j के प्रतिच्छेदन पर, दूरी p(xi xj) इंगित की जाती है (परिणाम दो दशमलव स्थानों तक गोल होता है)।

उदाहरण के लिए, पंक्ति 1 और स्तंभ 3 के चौराहे पर, दूरी p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10 इंगित की जाती है, और पंक्ति 3 और स्तंभ के चौराहे पर 5, दूरी p(x3, x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08। चूँकि p(xi, xj) = p(xj,xi), तालिका के निचले भाग को भरने की आवश्यकता नहीं है।

आइए "निकट पड़ोसी" सिद्धांत को लागू करें। हम तालिका में सबसे छोटी दूरियां पाते हैं (यदि उनमें से कई हैं, तो हम उनमें से किसी एक को चुनते हैं)। यह पी 1.2 पी 4.5 \u003d 2.24 है। मान लीजिए पी मिनट = पी 4.5 = 2.24। फिर हम वस्तुओं 4 और 5 को एक समूह में जोड़ सकते हैं, अर्थात, संयुक्त कॉलम 4 और 5 में मूल दूरी तालिका के कॉलम 4 और 5 की संबंधित संख्याओं में से सबसे छोटी संख्या होगी। हम पंक्तियों 4 और 5 के साथ भी ऐसा ही करते हैं। हमें एक नई तालिका मिलती है।

हम परिणामी तालिका में सबसे छोटी दूरी पाते हैं (यदि उनमें से कई हैं, तो हम उनमें से किसी को चुनेंगे): р मिनट = р 1.2 = 2.24। फिर हम वस्तुओं को 1,2,3 को एक समूह में जोड़ सकते हैं, अर्थात, संयुक्त कॉलम 1,2,3 में पिछली दूरी तालिका के कॉलम 1 और 2 और 3 की संबंधित संख्याओं में से सबसे छोटी संख्या होगी। हम पंक्तियों 1 और 2 और 3 के साथ भी ऐसा ही करते हैं। हमें एक नई तालिका मिलती है।

हमें दो क्लस्टर मिले: (1,2,3) और (4,5)।

3. नियंत्रण कार्य के लिए समस्याओं का समाधान।

समस्या 85.

शर्तें:पांच उत्पादन सुविधाओं को दो विशेषताओं की विशेषता है: बिक्री की मात्रा और अचल संपत्तियों की औसत वार्षिक लागत।

बिक्री की मात्रा

औसत वार्षिक लागतअचल उत्पादन संपत्ति

समाधान:आइए सूत्र (1)* का उपयोग करके वस्तुओं के बीच की दूरी ज्ञात करें (हम दो दशमलव स्थानों तक गोल करेंगे):

पी 1,1 \u003d (2-2) 2 + (2-2) 2 \u003d 0

पी 1.2 \u003d (2-5) 2 + (7-9) 2 3.61

पी 1.3 \u003d (2-7) 2 + (7-10) 2 ≈ 5.83

पी 2.2 \u003d (5-5) 2 + (9-9) 2 \u003d 0

पी 2.3 \u003d (5-7) 2 + (9-10) 2 ≈ 2.24

पी 3.4 \u003d (7-12) 2 + (10-8) 2 ≈5.39

पी 3.5 \u003d (7-13) 2 + (10-5) 2 7.81

पी 4.5 \u003d (12-13) 2 + (8-5) 2 3.16

गणना के परिणामों के आधार पर, हम तालिका भरते हैं:

आइए निकटतम पड़ोसी सिद्धांत को लागू करें। ऐसा करने के लिए, तालिका में हम सबसे छोटी दूरी पाते हैं (यदि उनमें से कई हैं, तो उनमें से किसी का चयन करें)। यह पी 2.3=2.24 है। चलो पी मिनट = पी 2.3 = 2.24, फिर हम कॉलम "2" और "3" की वस्तुओं को जोड़ सकते हैं, और ऑब्जेक्ट्स "2" और "3" की पंक्तियों को भी जोड़ सकते हैं। नई तालिका में, हम मूल तालिका से संयुक्त समूहों में सबसे छोटे मान दर्ज करते हैं।

नई तालिका में हम सबसे छोटी दूरियाँ पाते हैं (यदि उनमें से कई हैं, तो हम उनमें से किसी का चयन करते हैं)। यह पी 4.5=3.16 है। चलो पी मिनट = पी 4.5 = 3.16, फिर हम कॉलम "4" और "5" की वस्तुओं को जोड़ सकते हैं, और ऑब्जेक्ट्स "4" और "5" की पंक्तियों को भी जोड़ सकते हैं। नई तालिका में, हम मूल तालिका से संयुक्त समूहों में सबसे छोटे मान दर्ज करते हैं।

नई तालिका में हम सबसे छोटी दूरियाँ पाते हैं (यदि उनमें से कई हैं, तो हम उनमें से किसी का चयन करते हैं)। ये पी 1, 2 और 3=3.61 हैं। मान लीजिए p min = p 1, 2 और 3 = 3.61, फिर हम कॉलम ऑब्जेक्ट "1" और "2 और 3" को मर्ज कर सकते हैं और पंक्तियों को भी मर्ज कर सकते हैं। नई तालिका में, हम मूल तालिका से संयुक्त समूहों में सबसे छोटे मान दर्ज करते हैं।

हमें दो क्लस्टर मिलते हैं: (1,2,3) और (4,5)।

डेंड्रोग्राम तत्वों के चयन का क्रम और संबंधित न्यूनतम दूरी pmin को दर्शाता है।

उत्तर:"निकटतम पड़ोसी" के सिद्धांत के अनुसार क्लस्टर विश्लेषण के परिणामस्वरूप, एक दूसरे के समान वस्तुओं के 2 समूह बनते हैं: (1,2,3) और (4,5)।

समस्या 211.

शर्तें:पांच उत्पादन सुविधाओं को दो विशेषताओं की विशेषता है: बिक्री की मात्रा और अचल संपत्तियों का औसत वार्षिक मूल्य।

बिक्री की मात्रा

अचल उत्पादन परिसंपत्तियों की औसत वार्षिक लागत

निकटतम पड़ोसी सिद्धांत का उपयोग करके इन वस्तुओं को वर्गीकृत करें।

समाधान:समस्या को हल करने के लिए, हम डेटा को मूल तालिका में प्रस्तुत करते हैं। आइए वस्तुओं के बीच की दूरी निर्धारित करें। हम वस्तुओं को "निकटतम पड़ोसी" सिद्धांत के अनुसार वर्गीकृत करेंगे। परिणाम डेंड्रोग्राम के रूप में प्रस्तुत किए जाते हैं।

बिक्री की मात्रा

अचल उत्पादन परिसंपत्तियों की औसत वार्षिक लागत

सूत्र (1)* का उपयोग करके, हम वस्तुओं के बीच की दूरी ज्ञात करते हैं:

पी 1.1 = 0, पी 1.2 = 6, पी 1.3 = 8.60, पी 1.4 = 6.32, पी 1.5 = 6.71, पी 2.2 = 0, पी 2 ,3 = 7.07, पी 2.4 = 2, पी 2.5 = 3.32, पी 3.3 = 0, p 3.4 = 5.10, p 3.5 = 4.12, p 4 ,4=0, p4.5=1, p5.5=0.

परिणाम तालिका में प्रस्तुत किए गए हैं:

तालिका में दूरियों का सबसे छोटा मान p 4.5=1 है। मान लीजिए p min = p 4.5 = 1, फिर हम कॉलम "4" और "5" की वस्तुओं को जोड़ सकते हैं, और ऑब्जेक्ट्स "4" और "5" की पंक्तियों को भी जोड़ सकते हैं। नई तालिका में, हम मूल तालिका से संयुक्त समूहों में सबसे छोटे मान दर्ज करते हैं।

नई तालिका में दूरियों का सबसे छोटा मान p 2, 4 और 5=2 है। मान लीजिए p min = p 2, 4 और 5=2, फिर हम कॉलम "4 और 5" और "3" की वस्तुओं को जोड़ सकते हैं, और "4 और 5" और "3" ऑब्जेक्ट की पंक्तियों को भी जोड़ सकते हैं। नई तालिका में, हम तालिका से सबसे छोटे मानों को संयुक्त समूहों में दर्ज करते हैं।

नई तालिका में दूरियों का सबसे छोटा मान p 3,4,5=2 है। चलो p min = p 3,4,5=2, फिर हम कॉलम "3,4,5" और "2" की वस्तुओं को जोड़ सकते हैं, और वस्तुओं की पंक्तियों को भी जोड़ सकते हैं "3,4,5" और " 2"। नई तालिका में, हम तालिका से सबसे छोटे मानों को संयुक्त समूहों में दर्ज करते हैं।

या साइट पर लॉग इन करें।

महत्वपूर्ण! मुफ्त डाउनलोड के लिए प्रस्तुत किए गए सभी टेस्ट पेपर का उद्देश्य आपके अपने वैज्ञानिक कार्य के लिए एक योजना या आधार तैयार करना है।

मित्र! आपके पास अनूठा अवसरआप जैसे छात्रों की मदद करो! अगर हमारी साइट ने आपको खोजने में मदद की सही काम, तो आप निश्चित रूप से समझते हैं कि आपके द्वारा जोड़ा गया कार्य दूसरों के काम को कैसे आसान बना सकता है।

यदि आपकी राय में नियंत्रण कार्य करता है, खराब गुणवत्ता, या आप पहले ही इस काम से मिल चुके हैं, हमें इसके बारे में बताएं।

क्लस्टर विश्लेषण देखें। एंटीनाज़ी। समाजशास्त्र का विश्वकोश, 2009 ... समाजशास्त्र का विश्वकोश

क्लस्टर विश्लेषण- यह विधियों का एक सेट है जो आपको बहुआयामी अवलोकनों को वर्गीकृत करने की अनुमति देता है, जिनमें से प्रत्येक चर के एक निश्चित सेट द्वारा वर्णित है। क्लस्टर विश्लेषण का उद्देश्य एक दूसरे के समान वस्तुओं के समूहों का निर्माण करना है, जिन्हें आमतौर पर कहा जाता है ... समाजशास्त्रीय शब्दकोश

क्लस्टर विश्लेषण- बहुआयामी विश्लेषण के लिए एक गणितीय प्रक्रिया, जो कई वस्तुओं (उदाहरण के लिए, विषयों) को चिह्नित करने वाले संकेतकों के एक सेट के आधार पर, उन्हें कक्षाओं (समूहों) में समूहित करने की अनुमति देती है ताकि एक वर्ग में शामिल वस्तुएं अधिक हों । .. ... महान मनोवैज्ञानिक विश्वकोश

क्लस्टर विश्लेषण- एक गणितीय प्रक्रिया जो किसी भी सेट की प्रत्येक वस्तु (उदाहरण के लिए, विषय) की कई विशेषताओं के मात्रात्मक मूल्यों की समानता के आधार पर, इन वस्तुओं को कुछ वर्गों, या समूहों में समूहित करने की अनुमति देती है। ...। .. मनोवैज्ञानिक शब्दकोश

क्लस्टर विश्लेषण- - [एल.जी. सुमेंको। सूचना प्रौद्योगिकी के अंग्रेजी रूसी शब्दकोश। एम.: जीपी टीएसएनआईआईएस, 2003।] विषय: सूचान प्रौद्योगिकीसामान्य तौर पर EN क्लस्टर विश्लेषण… तकनीकी अनुवादक की हैंडबुक

क्लस्टर विश्लेषण- * क्लस्टर विश्लेषण * क्लस्टर विश्लेषण या डेटा क्लस्टरिंग एक बहुभिन्नरूपी सांख्यिकीय प्रक्रिया है जो वस्तुओं के चयन के बारे में जानकारी युक्त डेटा एकत्र करती है, और फिर वस्तुओं को समूहों के अपेक्षाकृत सजातीय समूहों में व्यवस्थित करती है (क्यू… ... आनुवंशिकी। विश्वकोश शब्दकोश

क्लस्टर विश्लेषण- क्या इस लेख को गणित में सुधारना वांछनीय है?: फुटनोट लगाकर, स्रोतों के अधिक सटीक संकेत दें। विकिपीडिया के शैलीगत नियमों के अनुसार लेख को ठीक करें। का पुनर्चक्रण ... विकिपीडिया

क्लस्टर विश्लेषण- - बहुआयामी विश्लेषण के लिए एक गणितीय प्रक्रिया, जो कई वस्तुओं (उदाहरण के लिए, विषयों) को चिह्नित करने वाले संकेतकों के एक सेट के आधार पर, उन्हें कक्षाओं (समूहों) में समूहित करने की अनुमति देती है, ताकि एक वर्ग में शामिल वस्तुएं हैं अधिक ... ... मनोविज्ञान और शिक्षाशास्त्र का विश्वकोश शब्दकोश

क्लस्टर विश्लेषण - साधारण नामजटिल डेटा में गहरी संरचना का निर्धारण करने के लिए विभिन्न गणितीय विधियों के लिए। क्लस्टर विश्लेषण कई मायनों में कारक विश्लेषण के समान है। दोनों में एकात्मक तत्वों (कारकों या समूहों) की खोज शामिल है जो ... ... मनोविज्ञान का व्याख्यात्मक शब्दकोश

क्लस्टर विश्लेषण- (क्लस्टर विश्लेषण) वस्तुओं या लोगों के समूहों की पहचान करने के लिए इस्तेमाल की जाने वाली तकनीक जो डेटा के एक सेट में सापेक्ष अंतर दिखा सकती है। फिर प्रत्येक समूह के भीतर ऐसे लोगों की विशेषताओं का अध्ययन किया जाता है। बाजार अनुसंधान में, ... ... बड़ा व्याख्यात्मक समाजशास्त्रीय शब्दकोश

क्लस्टर विश्लेषण- (क्लस्टर विश्लेषण) सांख्यिकीय तकनीकों का एक समूह जिसका उपयोग कई चरों से संबंधित अनुसंधान जानकारी के विश्लेषण में डेटा की आंतरिक संरचना को निर्धारित करने के लिए किया जाता है। क्लस्टर विश्लेषण का उद्देश्य वस्तुओं के समूहों की पहचान करना है ... ... समाजशास्त्रीय शब्दकोश

यह पुस्तक इस अर्थ में बहुआयामी प्रक्रियाओं और घटनाओं के विश्लेषण के लिए सबसे आशाजनक दृष्टिकोणों में से एक के लिए समर्पित है - क्लस्टर विश्लेषण।

क्लस्टर विश्लेषण एक उपयुक्त ज्यामितीय स्थान के बिंदुओं द्वारा व्यक्तिगत टिप्पणियों के परिणामों की प्रस्तुति के आधार पर बहुआयामी वस्तुओं को समूहीकृत करने का एक तरीका है, इसके बाद इन बिंदुओं के "क्लंप" के रूप में समूहों का चयन किया जाता है। दरअसल, "क्लस्टर" (क्लस्टर) में अंग्रेजी भाषाऔर इसका अर्थ है "थक्का", "गुच्छा (अंगूर का)", "क्लस्टर (सितारों का)", आदि। यह शब्द वैज्ञानिक शब्दावली में असामान्य रूप से अच्छी तरह से फिट बैठता है, क्योंकि इसका पहला शब्दांश पारंपरिक शब्द "वर्ग" से मेल खाता है, और दूसरा, जैसा कि यह था, इसकी कृत्रिम उत्पत्ति को इंगित करता है। हमें इसमें कोई संदेह नहीं है कि क्लस्टर विश्लेषण की शब्दावली इस उद्देश्य के लिए पहले इस्तेमाल किए गए सभी निर्माणों को बदल देगी (अनपर्यवेक्षित पैटर्न मान्यता, स्तरीकरण, वर्गीकरण, स्वचालित वर्गीकरण, आदि)। क्लस्टर विश्लेषण की संभावित संभावनाएं समान परिस्थितियों में या समान परिणामों के साथ काम करने वाले उद्यमों के समूहों की पहचान करने की समस्याओं को हल करने के लिए स्पष्ट हैं, सामान्य रूप से जीवन या जीवन शैली के विभिन्न पहलुओं में आबादी के सजातीय समूह आदि।

एक वैज्ञानिक दिशा के रूप में, क्लस्टर विश्लेषण ने खुद को 60 के दशक के मध्य में घोषित किया और तब से तेजी से विकसित हो रहा है, जो सांख्यिकीय विज्ञान के सबसे गहन विकास की शाखाओं में से एक है। यह कहने के लिए पर्याप्त है कि विभिन्न देशों में आज तक प्रकाशित क्लस्टर विश्लेषण पर मोनोग्राफ की संख्या सैकड़ों में मापी जाती है (जबकि, कहते हैं, बहुभिन्नरूपी सांख्यिकीय विश्लेषण की ऐसी "योग्य" पद्धति के अनुसार कारक विश्लेषण, कई दर्जन पुस्तकों को गिनना शायद ही संभव हो)। और यह काफी समझ में आता है। आखिरकार, हम वास्तव में ग्रुपिंग ऑपरेशन के मॉडलिंग के बारे में बात कर रहे हैं, जो न केवल आंकड़ों में सबसे महत्वपूर्ण है, बल्कि सामान्य तौर पर - अनुभूति और निर्णय लेने में दोनों में।

हमारे देश में क्लस्टर विश्लेषण (1), सामाजिक-आर्थिक अनुसंधान में क्लस्टर विश्लेषण का उपयोग करने की पद्धति (2), क्लस्टर विश्लेषण की कार्यप्रणाली का उपयोग करके विशिष्ट सामाजिक-आर्थिक समस्याओं के अध्ययन के लिए समर्पित कई मोनोग्राफ प्रकाशित किए गए हैं। 3) (सांख्यिकीय विश्लेषण के मूल तत्व)

आई डी मंडेल द्वारा प्रस्तावित पुस्तक, जैसा कि यह थी, इस वर्गीकरण के लंबवत है: इसकी सामग्री इन तीन क्षेत्रों में से प्रत्येक के साथ जुड़ी हुई है।

पुस्तक का उद्देश्य संक्षेप करना है अत्याधुनिकक्लस्टर विश्लेषण, इसके उपयोग की संभावनाओं और आगे के विकास के कार्यों का विश्लेषण। यह विचार अपने आप में सम्मान पैदा नहीं कर सकता है: एक निष्पक्ष विश्लेषण और सामान्यीकरण के लिए बहुत काम, ज्ञान, साहस की आवश्यकता होती है, और वैज्ञानिक समुदाय द्वारा अपने स्वयं के डिजाइनों के प्रचार और विकास की तुलना में बहुत कम मूल्यांकन किया जाता है। (हालांकि, पुस्तक में "इंटेंशनल" विश्लेषण और वर्गीकरण के द्वंद्व से संबंधित लेखक के मूल विकास भी शामिल हैं।)

पुस्तक के लाभ और उसकी कमियाँ दोनों ही इस लक्ष्य की प्राप्ति से जुड़े हैं। फायदे में शामिल होना चाहिए:

· घटनाओं और प्रक्रियाओं की बहुआयामीता को ध्यान में रखते हुए समरूपता, समूहीकरण और वर्गीकरण की अवधारणाओं का पद्धतिगत अध्ययन;

· क्लस्टर विश्लेषण के दृष्टिकोण और विधियों की एक व्यवस्थित समीक्षा (150 विशिष्ट एल्गोरिदम सहित);

· प्रौद्योगिकी की प्रस्तुति और क्लस्टर विश्लेषण प्रक्रियाओं की प्रयोगात्मक तुलना के परिणाम; यह पुस्तक इस अर्थ में बहुआयामी प्रक्रियाओं और घटनाओं के विश्लेषण के लिए सबसे आशाजनक दृष्टिकोणों में से एक के लिए समर्पित है - क्लस्टर विश्लेषण।

क्लस्टर विश्लेषण एक उपयुक्त ज्यामितीय स्थान के बिंदुओं द्वारा व्यक्तिगत टिप्पणियों के परिणामों की प्रस्तुति के आधार पर बहुआयामी वस्तुओं को समूहीकृत करने का एक तरीका है, इसके बाद इन बिंदुओं के "क्लंप" के रूप में समूहों का चयन किया जाता है। दरअसल, अंग्रेजी में "क्लस्टर" (क्लस्टर) का अर्थ है "थक्का", "गुच्छा (अंगूर का)", "क्लस्टर (सितारों का)", आदि। यह शब्द वैज्ञानिक शब्दावली में असामान्य रूप से अच्छी तरह से फिट बैठता है, क्योंकि इसका पहला शब्दांश पारंपरिक से मेल खाता है शब्द "वर्ग", और दूसरा, जैसा कि यह था, इसकी कृत्रिम उत्पत्ति को इंगित करता है। हमें इसमें कोई संदेह नहीं है कि क्लस्टर विश्लेषण की शब्दावली इस उद्देश्य के लिए पहले इस्तेमाल किए गए सभी निर्माणों को बदल देगी (अनपर्यवेक्षित पैटर्न मान्यता, स्तरीकरण, वर्गीकरण, स्वचालित वर्गीकरण, आदि)। क्लस्टर विश्लेषण की संभावित संभावनाएं समान परिस्थितियों में या समान परिणामों के साथ काम करने वाले उद्यमों के समूहों की पहचान करने की समस्याओं को हल करने के लिए स्पष्ट हैं, सामान्य रूप से जीवन या जीवन शैली के विभिन्न पहलुओं में आबादी के सजातीय समूह आदि।

एक वैज्ञानिक दिशा के रूप में, क्लस्टर विश्लेषण ने खुद को 60 के दशक के मध्य में घोषित किया और तब से तेजी से विकसित हो रहा है, जो सांख्यिकीय विज्ञान के सबसे गहन विकास की शाखाओं में से एक है। यह कहने के लिए पर्याप्त है कि क्लस्टर विश्लेषण पर केवल कई मोनोग्राफ, विकास सामान्य योजनाएंकाफी उदाहरणात्मक तालिकाओं में कार्यान्वित क्लस्टर विश्लेषण विधियों का उपयोग; प्रस्तुति की सिफारिशी प्रकृति।

ये लाभ अन्य प्रकाशनों के बीच आई डी मंडेल की पुस्तक का स्वतंत्र स्थान निर्धारित करते हैं।

पुस्तक की कमियां कुछ सिफारिशों की अस्पष्टता और विषय सामाजिक-आर्थिक अनुप्रयोगों में क्लस्टर विश्लेषण विधियों का उपयोग करने के मुद्दों के व्यवस्थित विश्लेषण की कमी हैं। सच है, उत्तरार्द्ध इस क्षेत्र में क्लस्टर विश्लेषण के अपर्याप्त उपयोग के कारण है।

पुस्तक एक स्प्रिंगबोर्ड प्रदान करती है, जिसके उपयोग से किसी भी सिद्धांत के सबसे कठिन मुद्दे में प्रगति की सुविधा मिलती है - इसके द्वारा प्रदान किए जाने वाले उपकरणों का व्यावहारिक उपयोग।

बी जी मिर्किन

अनुसंधान विषय न्यू गिनी में ममीफाइड कृन्तकों के आकारिकी के विश्लेषण से लेकर अमेरिकी सीनेटरों के वोट के परिणामों के अध्ययन तक, जमे हुए तिलचट्टे के व्यवहार संबंधी कार्यों के विश्लेषण से लेकर, जब वे पिघले हुए होते हैं, से लेकर भौगोलिक वितरण के अध्ययन तक होते हैं। सस्केचेवान में कुछ प्रकार के लाइकेन के।

प्रकाशनों के इस विस्फोट का क्लस्टर विश्लेषण के विकास और अनुप्रयोग पर व्यापक प्रभाव पड़ा है। लेकिन, दुर्भाग्य से, नकारात्मक पक्ष भी हैं। क्लस्टर विश्लेषण पर प्रकाशनों के तेजी से विकास ने उपयोगकर्ताओं के समूहों का निर्माण किया है और, परिणामस्वरूप, केवल उन समूहों द्वारा उपयोग किए जाने वाले शब्दजाल का निर्माण जिसने इसे बनाया है (ब्लेशफील्ड और एल्डेंडरफर, 1978; ब्लैशफील्ड, 1980)।

क्षेत्र में विशेषज्ञों द्वारा शब्दजाल के गठन पर सामाजिक विज्ञानउदाहरण के लिए, वार्ड की पद्धति से संबंधित विभिन्न शब्दावली से प्रमाणित है। "वार्ड विधि" को साहित्य में अलग तरह से कहा जाता है। इसके कम से कम चार और नाम ज्ञात हैं: "न्यूनतम विचरण विधि", "वर्ग त्रुटि विधि का योग", "पदानुक्रमित समूहन न्यूनतम करना" और "HGROUP"। पहले दो नाम केवल उस मानदंड को संदर्भित करते हैं जिसका इष्टतम वार्ड की विधि द्वारा निर्धारित किया जाता है, जबकि तीसरा वर्ग त्रुटियों के योग से संबंधित है, जो मैट्रिक्स डब्ल्यू, इंट्राग्रुप कॉन्वर्सिस मैट्रिक्स का एक मोनोटोनिक ट्रेस ट्रांसफॉर्मेशन है। अंत में, व्यापक रूप से इस्तेमाल किया जाने वाला नाम "HGROUP" एक लोकप्रिय का नाम है कंप्यूटर प्रोग्राम, जो वार्ड पद्धति को लागू करता है (वेल्डमैन, 1967)।

शब्दजाल का निर्माण अंतःविषय संबंधों के विकास में बाधा डालता है, बाधित करता है प्रभावी तुलनाविज्ञान के विभिन्न क्षेत्रों में क्लस्टर विश्लेषण को लागू करने की पद्धति और परिणाम, अनावश्यक प्रयास (उसी एल्गोरिदम का पुन: आविष्कार) की ओर ले जाते हैं और अंत में, नए उपयोगकर्ताओं को उनके द्वारा चुनी गई विधियों की गहरी समझ नहीं देते हैं (ब्लेशफील्ड और एल्डेंडरफर, 1978 ) उदाहरण के लिए, एक सामाजिक विज्ञान अध्ययन (रोजर्स एंड लिंडेन, 1973) ने एक ही डेटा का उपयोग करके तीन अलग-अलग क्लस्टरिंग विधियों की तुलना की। उन्होंने इन विधियों को इस प्रकार कहा: "पदानुक्रमित समूहीकरण", "पदानुक्रमित क्लस्टरिंग या एचसीजी" और "क्लस्टर विश्लेषण"। और इनमें से कोई भी नाम क्लस्टरिंग विधियों से परिचित नहीं था। क्लस्टर विश्लेषण कार्यक्रमों का एक नौसिखिया उपयोगकर्ता सभी मौजूदा नामों से भ्रमित होगा और उन्हें क्लस्टरिंग विधियों के अन्य विवरणों के साथ जोड़ने में सक्षम नहीं होगा। इसी तरह के काम के साथ अपने शोध की तुलना करने पर अनुभवी उपयोगकर्ता खुद को एक कठिन स्थिति में पाएंगे। हम चरम पर जा सकते हैं, लेकिन शब्दजाल एक गंभीर समस्या है।

हाल के वर्षों में, क्लस्टर विश्लेषण का विकास कुछ हद तक धीमा हो गया है, प्रकाशनों की संख्या और इस पद्धति को लागू करने वाले विषयों की संख्या को देखते हुए। हम कह सकते हैं कि वर्तमान में मनोविज्ञान, समाजशास्त्र, जीव विज्ञान, सांख्यिकी और कुछ तकनीकी विषयक्लस्टर विश्लेषण के संबंध में समेकन चरण में प्रवेश करें।

क्लस्टर विश्लेषण के गुणों की प्रशंसा करने वाले लेखों की संख्या धीरे-धीरे कम हो रही है। इसी समय, अधिक से अधिक कार्य हैं जिनमें नियंत्रण डेटा पर विभिन्न क्लस्टरिंग विधियों की प्रयोज्यता की तुलना की जाती है। साहित्य में अनुप्रयोगों पर अधिक ध्यान दिया गया है। कई अध्ययनों का उद्देश्य क्लस्टर विश्लेषण का उपयोग करके प्राप्त परिणामों की वैधता का परीक्षण करने के लिए व्यावहारिक उपाय विकसित करना है। यह सब क्लस्टरिंग विधियों का एक उचित सांख्यिकीय सिद्धांत बनाने के गंभीर प्रयासों की गवाही देता है।


घंटी

आपके सामने इस खबर को पढ़ने वाले लोग भी हैं।
नवीनतम लेख प्राप्त करने के लिए सदस्यता लें।
ईमेल
नाम
उपनाम
आप द बेल को कैसे पढ़ना चाहेंगे
कोई स्पैम नहीं