الجرس

هناك من قرأ هذا الخبر قبلك.
اشترك للحصول على أحدث المقالات.
البريد الإلكتروني
اسم
اسم العائلة
كيف تحب أن تقرأ الجرس
لا بريد مزعج

إرسال عملك الجيد في قاعدة المعرفة أمر بسيط. استخدم النموذج أدناه

سيكون الطلاب وطلاب الدراسات العليا والعلماء الشباب الذين يستخدمون قاعدة المعرفة في دراساتهم وعملهم ممتنين جدًا لك.

مقدمة

1- تاريخ "التحليل العنقودي"

2. المصطلحات

2.1 الكائن والميزة

2.2 المسافة بين الأشياء (متري)

2.3 كثافة وموقع التجمعات

2.4 المسافة بين العناقيد

3. طرق التجميع

3.1 ميزات الطرق التجميعية الهرمية

3.2 ميزات طرق التجميع التكراري

4. ميزة التجميع

5. استقرار وجودة التكتل

فهرس

المقدمة

"التحليل العنقودي عبارة عن مجموعة من الأساليب الرياضية المصممة لتشكيل مجموعات" بعيدة "نسبيًا عن بعضها البعض من الكائنات" القريبة "وفقًا لمعلومات حول المسافات أو الوصلات (مقاييس القرب) بينهما. وهو مشابه في المعنى للمصطلحات: تلقائي التصنيف والتصنيف والتعرف على الأنماط بدون معلم ". تم تقديم هذا التعريف لتحليل الكتلة في الإصدار الأخير من القاموس الإحصائي. في الواقع ، "التحليل العنقودي" هو اسم معمم لمجموعة كبيرة من الخوارزميات المستخدمة لإنشاء تصنيف. يستخدم عدد من المنشورات أيضًا مثل هذه المرادفات للتحليل العنقودي مثل التصنيف والتقسيم. يستخدم التحليل العنقودي على نطاق واسع في العلوم كوسيلة للتحليل النوعي. التصنيف في أي نشاط علمي هو أحد المكونات الأساسية التي بدونها يستحيل بناء واختبار الفرضيات والنظريات العلمية. وبالتالي ، في عملي ، أعتبر أنه من الضروري النظر في قضايا التحليل العنقودي (أساس التحليل العنقودي) ، وكذلك النظر في المصطلحات الخاصة به وإعطاء بعض الأمثلة على استخدام هذه الطريقة مع معالجة البيانات كهدف رئيسي.

1. تاريخ "التحليل العنقودي"

يُظهر تحليل المنشورات المحلية والأجنبية أن التحليل العنقودي يستخدم في مجموعة متنوعة من المجالات العلمية: الكيمياء ، علم الأحياء ، الطب ، علم الآثار ، التاريخ ، الجغرافيا ، الاقتصاد ، فقه اللغة ، إلخ. يصف كتاب VV Nalimov "النموذج الاحتمالي للغة" استخدام التحليل العنقودي في دراسة 70 عينة تحليلية. ظهرت معظم المؤلفات حول التحليل العنقودي خلال العقود الثلاثة الماضية ، على الرغم من أن الأعمال الأولى التي ذكرت طرق المجموعات ظهرت منذ وقت طويل جدًا. طرح عالم الأنثروبولوجيا البولندي K. Chekanowski فكرة "التصنيف الهيكلي" ، التي تضمنت الفكرة الرئيسية لتحليل الكتلة - تخصيص مجموعات مدمجة من الكائنات.

في عام 1925 ، قام عالم الهيدرولوجيا السوفيتي ب. طور Terentyev ما يسمى بـ "طريقة الارتباط الثريا" ، والمقصود منها تجميع السمات المترابطة. أعطت هذه الطريقة دفعة لتطوير طرق التجميع باستخدام الرسوم البيانية. تم اقتراح مصطلح "التحليل العنقودي" لأول مرة بواسطة تريون. تتم ترجمة كلمة "الكتلة" من اللغة الإنجليزية على أنها "مجموعة ، فرشاة ، مجموعة". لهذا السبب ، كان هذا النوع من التحليل يسمى في الأصل "التحليل العنقودي". في أوائل الخمسينيات من القرن الماضي ، ظهرت منشورات R. Lewis و E. Fix و J. Hodges في خوارزميات التحليل العنقودي الهرمي. وقد أعطى عمل R. Rosenblatt على جهاز التعرف (Perceptron) ، الذي وضع الأساس لتطوير نظرية "التعرف على الأنماط بدون معلم" ، دافعًا ملحوظًا لتطوير العمل على تحليل الكتلة.

كان الدافع وراء تطوير أساليب التجميع هو كتاب "مبادئ التصنيف العددي" ، الذي نُشر عام 1963. عالمان بيولوجيان - روبرت سوكال وبيتر سنث. انطلق مؤلفو هذا الكتاب من حقيقة أنه من أجل إنشاء تصنيفات بيولوجية فعالة ، يجب أن يضمن إجراء التجميع استخدام المؤشرات المختلفة التي تميز الكائنات قيد الدراسة ، وتقييم درجة التشابه بين هذه الكائنات ، وضمان وضع الكائنات الحية المماثلة في نفس المجموعة. في هذه الحالة ، يجب أن تكون المجموعات المشكلة "محلية" بدرجة كافية ، أي يجب أن يتجاوز تشابه الكائنات (الكائنات الحية) داخل المجموعات تشابه المجموعات فيما بينها. يمكن للتحليل اللاحق للمجموعات المحددة ، في رأي المؤلفين ، توضيح ما إذا كانت هذه المجموعات تتوافق مع أنواع بيولوجية مختلفة. وهكذا ، افترض سوكال وسنيث أن الكشف عن بنية توزيع الأشياء في مجموعات يساعد على تأسيس عملية تكوين هذه الهياكل. ويمكن أن يكون الاختلاف والتشابه بين الكائنات الحية من مجموعات (مجموعات) مختلفة بمثابة أساس لفهم العملية التطورية المستمرة وتوضيح آليتها.

في نفس السنوات ، تم اقتراح العديد من الخوارزميات من قبل مؤلفين مثل J. McKean و G. Ball و D. Hall باستخدام طرق k-mean؛ لانس و دبليو ويليامز ، ن. جاردين وآخرون - حول طرق التسلسل الهرمي. تم تقديم مساهمة كبيرة في تطوير طرق التحليل العنقودي من قبل العلماء المحليين - E.M. Braverman ، AA Dorofeyuk ، I.B. Muchnik ، LA Rastrigin ، Yu.I. على وجه الخصوص ، في 60-70s. تمتعت العديد من الخوارزميات التي طورها علماء الرياضيات في نوفوسيبيرسك NG Zagoruiko و V.N. Elkina و G.S. Lbov بشعبية كبيرة. هذه خوارزميات معروفة مثل FOREL و BIGFOR و KRAB و NTTP و DRET و TRF وما إلى ذلك. وبناءً على هذه الحزم ، تم إنشاء حزمة برامج OTEX متخصصة. لا تقل إثارة للاهتمام منتجات البرمجياتتم إنشاء PPSA و Klass-Master بواسطة علماء الرياضيات في موسكو S.A. Aivazyan و I.S. Enyukov و B.G. Mirkin.

إلى حد ما ، تتوفر طرق التحليل العنقودي في معظم الحزم الإحصائية المحلية والأجنبية الأكثر شهرة: SIGAMD و DataScope و STADIA و SOMI و PNP-BIM و COPRA-2 و SITO و SAS و SPSS و STATISTICA و BMDP و STATGRAPHICS ، GENSTAT ، S -PLUS ، إلخ. بالطبع ، بعد 10 سنوات من إصدار هذه المراجعة ، تغير الكثير ، وظهرت إصدارات جديدة من العديد من البرامج الإحصائية ، وظهرت برامج جديدة تمامًا تستخدم خوارزميات جديدة وتزيد من الطاقة بشكل كبير. علوم الكمبيوتر. ومع ذلك ، فإن معظم الحزم الإحصائية تستخدم الخوارزميات المقترحة والمطورة في الستينيات والسبعينيات من القرن الماضي.

وفقًا لتقديرات تقريبية للخبراء ، يتضاعف عدد المنشورات حول التحليل العنقودي وتطبيقاته في مختلف مجالات المعرفة كل ثلاث سنوات. ما أسباب هذا الاهتمام العاصف بهذا النوع من التحليل؟ موضوعيا ، هناك ثلاثة أسباب رئيسية لهذه الظاهرة. هذا هو ظهور تكنولوجيا الحوسبة القوية ، والتي بدونها يكون التحليل العنقودي للبيانات الحقيقية غير ممكن عمليًا. السبب الثاني هو أن العلم الحديث يعتمد بشكل متزايد على التصنيف في بنائه. علاوة على ذلك ، تتعمق هذه العملية بشكل متزايد ، لأنه بالتوازي مع ذلك هناك تخصص متزايد في المعرفة ، وهو أمر مستحيل بدون تصنيف موضوعي بدرجة كافية.

السبب الثالث - يؤدي تعميق المعرفة الخاصة حتما إلى زيادة عدد المتغيرات التي تؤخذ في الاعتبار في تحليل بعض الأشياء والظواهر. ونتيجة لذلك ، فإن التصنيف الذاتي ، الذي كان يعتمد في السابق على عدد صغير نسبيًا من الميزات التي تم أخذها في الاعتبار ، غالبًا ما يتبين أنه غير موثوق به. والتصنيف الموضوعي ، مع مجموعة متزايدة باستمرار من خصائص الكائن ، يتطلب استخدام خوارزميات تجميع معقدة لا يمكن تنفيذها إلا على أساس أجهزة الكمبيوتر الحديثة. كانت هذه الأسباب هي التي أدت إلى ظهور "الطفرة العنقودية". ومع ذلك ، بين الأطباء وعلماء الأحياء ، لم يصبح التحليل العنقودي طريقة بحث شائعة وشائعة إلى حد ما.

2 المصطلحات

2. 1 الهدف والتوقيع

دعونا أولاً نقدم مفاهيم مثل الكائن والسمة. الكائن - من اللاتينية objectum - الموضوع. فيما يتعلق بالكيمياء والبيولوجيا ، سنعني بالأشياء موضوعات بحث محددة تمت دراستها باستخدام الطرق الفيزيائية والكيميائية وغيرها. يمكن أن تكون هذه الأشياء ، على سبيل المثال ، عينات ، نباتات ، حيوانات ، إلخ. تسمى مجموعة معينة من الكائنات المتاحة للباحث للدراسة عينة ، أو مجموعة عينة. عادة ما يسمى عدد الكائنات في مثل هذا المجتمع بحجم العينة. عادةً ما يُرمز إلى حجم العينة بالحرف اللاتيني "n" أو "N".

الإشارة (المرادفات - الخاصية ، المتغير ، الصفات المميزة ؛ اللغة الإنجليزية - المتغير - المتغير) - هي خاصية محددة للكائن. يمكن التعبير عن هذه الخصائص كقيم رقمية أو غير رقمية. على سبيل المثال ، يتم قياس ضغط الدم (الانقباضي أو الانبساطي) بالمليمترات من الزئبق والوزن بالكيلوجرام والطول بالسنتيمتر ، إلخ. هذه العلامات كمية. على عكس هذه الخصائص العددية المستمرة (المقاييس) ، يمكن أن يكون لعدد من الميزات قيم منفصلة وغير متصلة. في المقابل ، عادة ما يتم تقسيم هذه الميزات المنفصلة إلى مجموعتين.

1) المجموعة الأولى هي متغيرات الترتيب ، أو كما يطلق عليها أيضًا المتغيرات الترتيبية (المقاييس). تتميز هذه العلامات بخاصية ترتيب هذه القيم. وتشمل هذه مراحل مرض معين ، والفئات العمرية ، ودرجات معرفة الطلاب ، ومقياس قوة زلزال 12 نقطة ريختر ، وما إلى ذلك.

2) المجموعة الثانية من الميزات المنفصلة ليس لها مثل هذا الترتيب وتسمى الاسمية (من كلمة "اسمية" - عينة) أو ميزات التصنيف. مثال على هذه العلامات قد يكون حالة المريض - "صحي" أو "مريض" ، جنس المريض ، فترة الملاحظة - "قبل العلاج" و "بعد العلاج" ، إلخ. في هذه الحالات ، من المعتاد القول إن هذه الميزات تنتمي إلى مقياس الأسماء.

عادة ما تسمى مفاهيم الكائن والميزة بمصفوفة "خاصية الكائن" أو "ميزة الكائن". ستكون المصفوفة عبارة عن جدول مستطيل يتكون من قيم الميزات التي تصف خصائص عينة الملاحظات قيد الدراسة. في هذا السياق ، سيتم تسجيل ملاحظة واحدة كخط منفصل يتكون من قيم الميزات المستخدمة. سيتم تمثيل سمة منفصلة في مصفوفة البيانات هذه بعمود يتكون من قيم هذه السمة لجميع الكائنات في العينة.

2. 2 المسافة بين الكائنات (متري)

دعنا نقدم مفهوم "المسافة بين الأشياء". هذا المفهوم هو مقياس متكامل لتشابه الأشياء مع بعضها البعض. المسافة بين الكائنات في مساحة الميزة هي قيمة d ij التي تفي بالبديهيات التالية:

1. d ij> 0 (عدم سلبية المسافة)

2. d ij = d ji (تناظر)

3. d ij + d jk> d ik (عدم مساواة المثلث)

4. إذا كانت d ij لا تساوي 0 ، فعندئذٍ i لا تساوي j (قابلية تمييز الكائنات غير المتطابقة)

5. إذا كانت d ij = 0 ، فعندئذٍ i = j (عدم قابلية تمييز الكائنات المتطابقة)

من الملائم تمثيل مقياس القرب (التشابه) بين الأشياء متبادلعلى المسافة بين الأشياء. تصف المنشورات العديدة المخصصة لتحليل الكتلة أكثر من 50 طريقة مختلفة لحساب المسافة بين الكائنات. بالإضافة إلى مصطلح "مسافة" ، يوجد مصطلح آخر غالبًا في الأدبيات - "متري" ، والذي يشير إلى طريقة لحساب مسافة معينة. أكثر ما يمكن الوصول إليه للإدراك والفهم في حالة السمات الكمية هو ما يسمى بـ "المسافة الإقليدية" أو "المقياس الإقليدي". صيغة حساب هذه المسافة هي:

تستخدم هذه الصيغة الترميز التالي:

· d ij - المسافة بين العناصر i و j ؛

· x ik - القيمة العددية للمتغير k-th للكائن من الدرجة الأولى ؛

· x jk - القيمة العددية للمتغير k-th للكائن j-th؛

· v - عدد المتغيرات التي تصف الأشياء.

وهكذا ، بالنسبة للحالة v = 2 ، عندما يكون لدينا علامتان كميتان فقط ، فإن المسافة d ij ستكون مساوية لطول وتر المثلث القائم ، الذي يربط نقطتين في نظام إحداثيات مستطيل. سوف تتوافق هاتان النقطتان مع الملاحظات i و j للعينة. في كثير من الأحيان ، بدلاً من المسافة الإقليدية المعتادة ، يتم استخدام مربعها d 2 ij. بالإضافة إلى ذلك ، في بعض الحالات ، يتم استخدام مسافة إقليدية "مرجحة" ، في حساب معاملات الوزن المستخدمة للمصطلحات الفردية. لتوضيح مفهوم المقياس الإقليدي ، نستخدم مثال تدريب بسيط. تتكون مصفوفة البيانات الموضحة في الجدول أدناه من 5 ملاحظات ومتغيرين.

الجدول 1

مصفوفة بيانات من خمس عينات ملحوظة ومتغيرين.

باستخدام المقياس الإقليدي ، نحسب مصفوفة المسافات بين الكائنات ، والتي تتكون من القيم d ij - المسافة بين الكائنين i و j. في حالتنا ، i و j هما رقم الجسم ، الملاحظة. نظرًا لأن حجم العينة هو 5 ، يمكن أن يأخذ i و j على التوالي قيمًا من 1 إلى 5. ومن الواضح أيضًا أن عدد جميع المسافات الزوجية الممكنة سيكون 5 * 5 = 25. في الواقع ، بالنسبة للكائن الأول ، ستكون هذه المسافات التالية: 1-1 ؛ 1-2 ؛ 1-3 ؛ 1-4 ؛ 1-5. بالنسبة للكائن 2 ، سيكون هناك أيضًا 5 مسافات ممكنة: 2-1 ؛ 2-2 ؛ 2-3 ؛ 2-4 ؛ 2-5 إلخ. ومع ذلك ، فإن العدد مسافات مختلفةسيكون أقل من 25 ، لأنه من الضروري مراعاة خاصية عدم قابلية تمييز الكائنات المتطابقة - d ij = 0 for i = j. هذا يعني أن المسافة بين الكائن رقم 1 ونفس الكائن رقم 1 ستكون صفرًا. ستكون مسافات الصفر نفسها لجميع الحالات الأخرى i = j. بالإضافة إلى ذلك ، يستنتج من خاصية التناظر أن d ij = d ji لأي i و j. أولئك. المسافة بين الكائنين # 1 و # 2 تساوي المسافة بين الكائنين # 2 و # 1.

إن التعبير عن المسافة الإقليدية مشابه جدًا لما يسمى مسافة قدرة Minkowski المعممة ، حيث يتم استخدام قيمة أخرى بدلاً من اثنين في القوى. في الحالة العامة ، يتم الإشارة إلى هذه القيمة بالرمز "p".

بالنسبة لـ p = 2 نحصل على المسافة الإقليدية المعتادة. لذا فإن التعبير عن مقياس مينكوفسكي المعمم له الشكل:

يتم اختيار قيمة محددة للأس "p" من قبل الباحث نفسه.

حالة خاصة لمسافة مينكوفسكي هي ما يسمى بمسافة مانهاتن ، أو "مسافة كتلة المدينة" ، المقابلة لـ p = 1:

وبالتالي ، فإن مسافة مانهاتن هي مجموع وحدات الاختلافات في السمات المقابلة للأشياء. إذا تركنا p يميل إلى اللانهاية ، نحصل على مقياس "الهيمنة" أو مقياس Sup:

والتي يمكن تمثيلها أيضًا كـ d ij = max | x ik - x jk |.

مقياس Minkowski هو في الواقع مجموعة كبيرة من المقاييس ، بما في ذلك المقاييس الأكثر شيوعًا. ومع ذلك ، هناك طرق لحساب المسافة بين الكائنات تختلف اختلافًا جوهريًا عن مقاييس Minkowski. والأهم من ذلك هو ما يسمى بمسافة ماهالانوبيس ، والتي لها خصائص محددة إلى حد ما. التعبير عن هذا المقياس:

من خلال هنا X أناو X ييشار إلى متجهات العمود ذات القيم المتغيرة للكائنات i و j. رمز تي في التعبير (X أنا - X ي ) تي يدل على ما يسمى بعملية تبديل ناقلات. رمز س يشار إلى مصفوفة التباين المشترك المشتركة داخل المجموعة. رمز -1 في الاعلى س يعني أنك بحاجة إلى قلب المصفوفة س . على عكس مقياس Minkowski والمقياس الإقليدي ، فإن مسافة Mahalanobis من خلال مصفوفة التباين والتغاير س المرتبطة بارتباطات المتغيرات. عندما تكون الارتباطات بين المتغيرات صفراً ، فإن مسافة Mahalanobis تعادل مربع المسافة الإقليدية.

في حالة استخدام السمات النوعية ثنائية التفرع (لها قيمتان فقط) ، يتم استخدام مسافة هامنج على نطاق واسع

يساوي عدد حالات عدم التطابق في قيم الميزات المقابلة للكائنات i-th و j-th المدروسة.

2. 3 كثافة وموقع التجمعات

الهدف الرئيسي من تحليل الكتلة هو العثور على مجموعات من الكائنات متشابهة مع بعضها البعض في العينة. لنفترض أنه من خلال بعض الطرق الممكنة حصلنا على مثل هذه المجموعات - المجموعات. يجب ملاحظة الخصائص الهامة للعناقيد. إحدى هذه الخصائص هي كثافة توزيع النقاط ، الملاحظات داخل الكتلة. تسمح لنا هذه الخاصية بتعريف الكتلة على أنها مجموعة من النقاط في مساحة متعددة الأبعاد كثيفة نسبيًا مقارنة بالمناطق الأخرى في هذه المساحة التي إما لا تحتوي على نقاط على الإطلاق أو تحتوي على عدد صغير من الملاحظات. بعبارة أخرى ، ما مدى تماسك هذه المجموعة ، أو العكس ، مدى تناثرها. على الرغم من الأدلة الكافية على هذه الخاصية ، لا توجد طريقة لا لبس فيها لحساب مثل هذا المؤشر (الكثافة). أنجح مؤشر يميز الانضغاط ، كثافة "تجميع" الملاحظات متعددة الأبعاد في مجموعة معينة ، هو تشتت المسافة من مركز الكتلة إلى النقاط الفردية للمجموعة. كلما قل تشتت هذه المسافة ، كلما اقتربت الملاحظات من مركز الكتلة ، زادت كثافة الكتلة. والعكس بالعكس ، كلما زاد تشتت المسافة ، كلما كانت هذه المجموعة متفرقة ، وبالتالي ، توجد نقاط تقع بالقرب من مركز الكتلة وبعيدة تمامًا عن مركز الكتلة.

الخاصية التالية للعناقيد هي حجمها. المؤشر الرئيسي لحجم الكتلة هو "نصف قطرها". تعكس هذه الخاصية بشكل كامل الحجم الفعلي للكتلة إذا كانت الكتلة المدروسة مستديرة وفائقة الكرة في مساحة متعددة الأبعاد. ومع ذلك ، إذا كانت المجموعات لها أشكال مستطيلة ، فإن مفهوم نصف القطر أو القطر لم يعد يعكس الحجم الحقيقي للمجموعة.

خاصية أخرى مهمة للكتلة هي موقعها ، وقابليتها للفصل. يميز درجة التداخل والبعد المتبادل للمجموعات عن بعضها البعض في فضاء متعدد الأبعاد. على سبيل المثال ، ضع في اعتبارك توزيع ثلاث مجموعات في مساحة الميزات الجديدة والمتكاملة في الشكل أدناه. تم الحصول على المحورين 1 و 2 بطريقة خاصة من 12 سمة للخصائص الانعكاسية لأشكال مختلفة من كريات الدم الحمراء ، تمت دراستها باستخدام المجهر الإلكتروني.

الصورة 1

نرى أن الكتلة 1 لها الحجم الأدنى ، في حين أن المجموعتين 2 و 3 لها أحجام متساوية تقريبًا. في الوقت نفسه ، يمكننا القول أن الحد الأدنى للكثافة ، وبالتالي الحد الأقصى لتشتت المسافة ، هو سمة من سمات المجموعة 3. بالإضافة إلى ذلك ، يتم فصل المجموعة 1 بأقسام كبيرة بما فيه الكفاية من المساحة الفارغة من كل من المجموعة 2 والمجموعة 3. بينما المجموعات 2 و 3 يتداخلان جزئيًا مع بعضهما البعض. من المثير للاهتمام حقيقة أن المجموعة 1 لها فرق أكبر بكثير من المجموعتين الثانية والثالثة على طول المحور 1 مقارنة بالمحور 2. على العكس من ذلك ، تختلف المجموعتان 2 و 3 بشكل متساوٍ تقريبًا عن بعضها البعض على طول المحور 1 وعلى طول المحورين 2. من الواضح ، لمثل هذا التحليل المرئي ، أنه من الضروري أن يتم عرض جميع ملاحظات العينة على محاور خاصة ، حيث ستكون إسقاطات عناصر الكتلة مرئية كمجموعات منفصلة.

2. 4 المسافة بين العناقيد

بمعنى أوسع ، يمكن فهم الأشياء ليس فقط على أنها الموضوعات الأصلية للبحث ، معروضة في مصفوفة "خاصية الكائن" كسطر منفصل ، أو كنقاط فردية في مساحة ميزة متعددة الأبعاد ، ولكن أيضًا كمجموعات منفصلة من هذه النقاط ، متحدًا بواسطة خوارزمية أو أخرى في مجموعة. في هذه الحالة ، يطرح السؤال حول كيفية فهم المسافة بين تراكمات النقاط هذه (المجموعات) وكيفية حسابها. في هذه الحالة ، يكون تنوع الاحتمالات أكبر مما هو عليه في حالة حساب المسافة بين ملاحظتين في فضاء متعدد الأبعاد. هذا الإجراء معقد بسبب حقيقة أن المجموعات ، على عكس النقاط ، تشغل قدرًا معينًا من الفضاء متعدد الأبعاد وتتكون من العديد من النقاط. في تحليل الكتلة ، يتم استخدام المسافات بين المجموعات على نطاق واسع ، محسوبة على أساس مبدأ أقرب الجار (الجار الأقرب) ، مركز الثقل ، الجار الأبعد ، المتوسطات. يتم استخدام أربع طرق على نطاق واسع: رابط واحد ، رابط كامل ، رابط متوسط ​​، وطريقة وارد. في طريقة الارتباط الفردي ، سيتم إرفاق كائن بمجموعة موجودة بالفعل إذا كان أحد عناصر الكتلة على الأقل له نفس مستوى التشابه مع الكائن الذي يتم ضمه. بالنسبة لطريقة الروابط الكاملة ، يتم إرفاق كائن بالعنقود فقط إذا كان التشابه بين المرشح للإدراج وأي عنصر من عناصر الكتلة لا يقل عن عتبة معينة. بالنسبة لطريقة الاتصال المتوسطة ، هناك العديد من التعديلات ، والتي تعد بمثابة حل وسط بين الاتصال الفردي والاتصال الكامل. يحسبون متوسط ​​قيمة تشابه المرشح لتضمينه مع جميع كائنات الكتلة الموجودة. يتم تنفيذ المرفق عندما يصل متوسط ​​قيمة التشابه التي تم العثور عليها إلى حد معين أو يتجاوزه. الأكثر شيوعًا هو متوسط ​​التشابه الحسابي بين كائنات الكتلة والمرشح لإدراجها في الكتلة.

تختلف العديد من طرق التجميع عن بعضها البعض في أن الخوارزميات الخاصة بهم في كل خطوة تحسب وظائف جودة التقسيم المختلفة. تم تصميم طريقة Ward الشائعة بطريقة تؤدي إلى تحسين الحد الأدنى من التباين في المسافات داخل العنقود. في الخطوة الأولى ، تتكون كل مجموعة من كائن واحد ، بسبب تشتت المسافات داخل العنقود يساوي 0. بهذه الطريقة ، يتم دمج تلك الكائنات التي تعطي الحد الأدنى من زيادة التشتت ، ونتيجة لذلك تميل هذه الطريقة إلى إنشاء مجموعات فائقة الكروية.

تؤدي المحاولات المتعددة لتصنيف طرق التحليل العنقودي إلى عشرات أو حتى مئات الفئات المختلفة. يتم إنشاء مثل هذا التنوع من خلال عدد كبير من الطرق الممكنة لحساب المسافة بين الملاحظات الفردية ، وعدد لا يقل عن طرق حساب المسافة بين المجموعات الفردية في عملية التجميع ، والتقديرات المختلفة للأمثلية لهيكل المجموعة النهائي.

الأكثر استخدامًا في الحزم الإحصائية الشائعة مجموعتان من خوارزميات التحليل العنقودي: طرق التجميع الهرمي وطرق التجميع التكراري.

3. طرق التجميع

3. 1 ميزات الطرق الهرمية التجميعية

في الخوارزميات الهرمية التكتلية ، والتي تُستخدم غالبًا في الأبحاث الطبية الحيوية الحقيقية ، تُعتبر جميع الكائنات (الملاحظات) في البداية مجموعات منفصلة ومستقلة تتكون من عنصر واحد فقط. بدون استخدام تكنولوجيا الكمبيوتر القوية ، فإن تنفيذ تحليل البيانات العنقودية يمثل مشكلة كبيرة.

يتم اختيار المقياس من قبل الباحث. بعد حساب مصفوفة المسافة ، تبدأ العملية التكتلات (من اللاتينية agglomero - أرفق ، أتراكم) ، ويمر بالتتابع خطوة بخطوة. في الخطوة الأولى من هذه العملية ، يتم دمج ملاحظتين أوليتين (monoclusters) مع أصغر مسافة بينهما في مجموعة واحدة ، والتي تتكون بالفعل من كائنين (ملاحظات). وبالتالي ، بدلاً من N monoclusters السابقة (مجموعات تتكون من كائن واحد) ، بعد الخطوة الأولى ، ستكون هناك مجموعات N-1 ، والتي تحتوي مجموعة واحدة منها على كائنين (ملاحظات) ، وستظل مجموعات N-2 تتكون من كائن واحد فقط. في الخطوة الثانية ، من الممكن استخدام طرق مختلفة للجمع بين مجموعات N-2. هذا لأن إحدى هذه المجموعات تحتوي بالفعل على كائنين. لهذا السبب ، يبرز سؤالان رئيسيان:

· كيفية حساب إحداثيات مثل هذه المجموعة المكونة من عنصرين (وأكثر من اثنين) ؛

كيفية حساب المسافة لمثل هذه المجموعات "بولي وجوه" من "monoclusters" وبين مجموعات "بولي وجوه".

في النهاية ، تحدد هذه الأسئلة الهيكل النهائي للمجموعات النهائية (بنية المجموعات تعني تكوين المجموعات الفردية وموقعها النسبي في مساحة متعددة الأبعاد). مجموعات مختلفة من المقاييس وطرق حساب الإحداثيات والمسافات المتبادلة للعناقيد تؤدي إلى تنوع طرق تحليل الكتلة. في الخطوة الثانية ، اعتمادًا على الطرق المختارة لحساب إحداثيات مجموعة تتكون من عدة كائنات وطريقة حساب المسافات بين المجموعات ، من الممكن إما إعادة دمج ملاحظتين منفصلتين في مجموعة جديدة ، أو الانضمام إلى واحدة جديدة المراقبة إلى كتلة تتكون من شيئين. للراحة ، يمكن أن توفر معظم برامج الأساليب الهرمية التراكمية في نهاية العمل رسمين بيانيين رئيسيين للعرض. يُطلق على الرسم البياني الأول اسم dendrogram (من الشجرة اليونانية dendron) ، مما يعكس عملية التكتل ، ودمج الملاحظات الفردية في مجموعة نهائية واحدة. دعنا نعطي مثالاً على مخطط شجر من 5 ملاحظات في متغيرين.

برنامج1

المحور الرأسي لمثل هذا الرسم البياني هو محور المسافة البينية ، ويتم تمييز عدد الكائنات - الحالات المستخدمة في التحليل - على طول المحور الأفقي. يمكن أن نرى من مخطط شجر الأسنان هذا أن الكائنين رقم 1 ورقم 2 قد تم دمجهما أولاً في مجموعة واحدة ، نظرًا لأن المسافة بينهما هي الأصغر وتساوي 1. يتم عرض هذا الدمج على الرسم البياني بواسطة خط أفقي يربط بين المقاطع الرأسية الخروج من النقاط المميزة بـ C_1 و C_2. دعنا ننتبه إلى حقيقة أن الخط الأفقي نفسه يمر بالضبط عند مستوى المسافة البينية التي تساوي 1. علاوة على ذلك ، في الخطوة الثانية ، ينضم الكائن رقم 3 ، المعين C_3 ، إلى هذه المجموعة ، التي تتضمن بالفعل كائنين. الخطوة التالية هي دمج العناصر رقم 4 ورقم 5 ، والمسافة بينهما تساوي 1.41. وفي الخطوة الأخيرة ، يتم دمج مجموعة الكائنات 1 و 2 و 3 مع مجموعة الكائنات 4 و 5. يوضح الرسم البياني أن المسافة بين هاتين المجموعتين قبل الأخيرة (تتضمن المجموعة الأخيرة جميع الكائنات الخمسة) أكبر من 5 ، ولكن أقل من 6 ، نظرًا لأن الخط الأفقي العلوي الذي يربط بين المجموعتين قبل الأخير يمر عند مستوى يساوي تقريبًا 7 ، ومستوى اتصال الكائنين 4 و 5 هو 1.41.

تم الحصول على مخطط dendrogram أدناه من خلال تحليل مجموعة بيانات حقيقية تتكون من 70 معالجة عينات كيميائيةتتميز كل منها بـ 12 ميزة.

الرسم البياني 2

يمكن أن نرى من الرسم البياني أنه في الخطوة الأخيرة ، عندما تندمج المجموعتان الأخيرتان ، تكون المسافة بينهما حوالي 200 وحدة. يمكن ملاحظة أن المجموعة الأولى تتضمن كائنات أقل بكثير من المجموعة الثانية. يوجد أدناه قسم موسع من مخطط الأسنان تظهر عليه أرقام الملاحظة بوضوح ، ويُشار إليها بالرمز C_65 ، C_58 ، إلخ. (من اليسار إلى اليمين): 65 ، 58 ، 59 ، 64 ، 63 ، 57 ، 60 ، 62 ، 56 ، 44 ، 94 ، إلخ.

الرسم البياني 3 الجزء الموسع من المخطط رقم 2 أعلاه

يمكن ملاحظة أن الكائن 44 عبارة عن كتلة أحادية تتحد مع الكتلة الصحيحة في الخطوة قبل الأخيرة ، وبعد ذلك ، في الخطوة الأخيرة ، يتم دمج جميع الملاحظات في مجموعة واحدة.

رسم بياني آخر مبني في مثل هذه الإجراءات هو رسم بياني للمسافات بين المجموعات في كل خطوة من خطوات الاتحاد. يوجد أدناه مخطط مماثل لمخطط dendrogram أعلاه.

الرسم البياني 4

في عدد من البرامج ، من الممكن عرض نتائج تجميع الكائنات في كل خطوة من خطوات التجميع في شكل جدول. في معظم هذه الجداول ، من أجل تجنب الالتباس ، تُستخدم مصطلحات مختلفة لتعيين الملاحظات الأولية - المجموعات الأحادية ، والمجموعات الفعلية التي تتكون من ملاحظتين أو أكثر. في الحزم الإحصائية باللغة الإنجليزية ، يتم تعيين الملاحظات الأولية (صفوف مصفوفة البيانات) على أنها "حالة" - حالة. من أجل توضيح اعتماد بنية الكتلة على اختيار المقياس واختيار خوارزمية اتحاد الكتلة ، نقدم أدناه مخطط شجر يتوافق مع خوارزمية الاتصال الكاملة. وهنا نرى أن الكائن رقم 44 مدمج مع بقية التحديد في الخطوة الأخيرة.

الرسم البياني 5

الآن دعنا نقارنها بمخطط آخر تم الحصول عليه باستخدام طريقة الارتباط الفردي على نفس البيانات. على عكس طريقة الاتصال الكاملة ، يمكن ملاحظة أن هذه الطريقة تولد سلاسل طويلة من الكائنات المرتبطة بالتسلسل مع بعضها البعض. ومع ذلك ، في جميع الحالات الثلاث ، يمكننا القول إن مجموعتين رئيسيتين تبرزان.

الرسم البياني 6

دعونا أيضًا ننتبه إلى حقيقة أنه في جميع الحالات الثلاث ، ينضم الكائن رقم 44 إلى مجموعة أحادية الكتلة ، على الرغم من اختلاف خطوات عملية التجميع. يعد اختيار مثل هذه الكتلة الأحادية وسيلة جيدة لاكتشاف الملاحظات الشاذة ، والتي تسمى القيم المتطرفة. دعونا نحذف هذا الكائن "المشبوه" رقم 44 وننفذ التجميع مرة أخرى. نحصل على dendrogram التالي:

الرسم البياني 7

يمكن ملاحظة أن تأثير "السلسلة" محفوظ ، وكذلك التقسيم إلى مجموعتين محليتين من الملاحظات.

3. 2 ميزات طرق التجميع التكراري

من بين الطرق التكرارية ، الطريقة الأكثر شيوعًا هي طريقة McKean's k-mean. على عكس الطرق الهرمية ، في معظم تطبيقات هذه الطريقة ، يجب على المستخدم نفسه تحديد العدد المطلوب من المجموعات النهائية ، والذي يُشار إليه عادةً بـ "k". كما هو الحال في طرق التجميع الهرمي ، يمكن للمستخدم اختيار نوع أو نوع آخر من المقاييس. تختلف الخوارزميات المختلفة لطريقة k-mean أيضًا في طريقة اختيار المراكز الأولية للمجموعات المحددة. في بعض إصدارات الطريقة ، يمكن للمستخدم نفسه (أو يجب عليه) تحديد هذه النقاط الأولية ، إما عن طريق اختيارها من الملاحظات الحقيقية ، أو عن طريق تحديد إحداثيات هذه النقاط لكل من المتغيرات. في تطبيقات أخرى لهذه الطريقة ، يتم اختيار عدد معين من النقاط الأولية بشكل عشوائي ، ويمكن لاحقًا تحسين هذه النقاط الأولية (الحبوب العنقودية) على عدة مراحل. هناك 4 مراحل رئيسية لهذه الأساليب:

· اختيار أو تعيين k الملاحظات التي ستكون المراكز الأولية للعناقيد؛

· إذا لزم الأمر ، يتم تشكيل عناقيد وسيطة من خلال تخصيص كل ملاحظة لأقرب مراكز عنقودية محددة ؛

· بعد تخصيص جميع الملاحظات لمجموعات فردية ، يتم استبدال مراكز المجموعات الأولية بمتوسطات الكتلة.

· يتكرر التكرار السابق حتى تصبح التغييرات في إحداثيات مراكز الكتلة ضئيلة.

في بعض إصدارات هذه الطريقة ، يمكن للمستخدم تعيين قيمة عددية للمعيار ، والتي يتم تفسيرها على أنها الحد الأدنى للمسافة لاختيار مراكز الكتلة الجديدة. لن يتم اعتبار الملاحظة كمرشح لـ مركز جديدالكتلة ، إذا كانت المسافة إلى مركز الكتلة المستبدلة تتجاوز الرقم المحدد. تسمى هذه المعلمة "نصف القطر" في بعض البرامج. بالإضافة إلى هذه المعلمة ، من الممكن أيضًا تعيين الحد الأقصى لعدد التكرارات أو الوصول إلى رقم معين ، وعادة ما يكون صغيرًا جدًا ، يتم مقارنة التغيير في المسافة لجميع مراكز الكتلة. يُشار إلى هذا الإعداد عمومًا باسم "التقارب" لأن يعكس تقارب عملية التجميع التكراري. نقدم أدناه بعض النتائج التي تم الحصول عليها باستخدام طريقة McKean k-mean للبيانات السابقة. تم ضبط عدد المجموعات المرغوبة في البداية على 3 ثم على 2. يحتوي الجزء الأول منها على نتائج عامل واحد تحليل التباين، حيث يعمل رقم الكتلة كعامل تجميع. العمود الأول عبارة عن قائمة من 12 متغيرًا ، متبوعة بمجموع المربعات (SS) ودرجات الحرية (df) ، ثم اختبار فيشر F ، وفي العمود الأخير تم تحقيق مستوى الأهمية "p".

الجدول 2 تعني بيانات McKean k المطبقة على 70 عينة اختبار.

المتغيرات

كما يتضح من هذا الجدول ، تم رفض الفرضية الصفرية حول مساواة الوسائل في المجموعات الثلاث. يوجد أدناه رسم بياني لوسائل جميع المتغيرات للمجموعات الفردية. يتم عرض نفس الوسائل العنقودية للمتغيرات أدناه في شكل جدول.

الجدول 3. مراجعة تفصيلية للبيانات المتعلقة بمثال ثلاث مجموعات.

عامل

المجموعة رقم 1

المجموعة رقم 2

المجموعة رقم 3

الرسم البياني 8

يتيح لنا تحليل متوسط ​​قيم المتغيرات لكل مجموعة أن نستنتج أنه وفقًا لميزة X1 ، فإن المجموعات 1 و 3 لها قيم قريبة ، في حين أن الكتلة 2 لها متوسط ​​قيمة أقل بكثير من المجموعتين الأخريين. على العكس من ذلك ، وفقًا لميزة X2 ، تحتوي المجموعة الأولى على أقل قيمة ، بينما تحتوي المجموعتان الثانية والثالثة على قيم متوسط ​​أعلى وأقرب. بالنسبة للسمات X3-X12 ، تكون القيم المتوسطة في المجموعة 1 أعلى بكثير مما كانت عليه في المجموعتين 2 و 3. يوضح الجدول التالي لتحليل ANOVA لنتائج التجميع في مجموعتين أيضًا الحاجة إلى رفض فرضية العدم حول المساواة تعني المجموعة لجميع الميزات الـ 12 تقريبًا ، باستثناء المتغير X4 ، والذي تبين أن مستوى الأهمية المحقق له يزيد عن 5٪.

الجدول 4. جدول تحليل التشتت لنتائج التجميع في مجموعتين.

المتغيرات

يوجد أدناه رسم بياني وجدول وسائل المجموعة لحالة التجميع في مجموعتين.

الجدول 5. جدول لحالة التجميع في مجموعتين.

المتغيرات

المجموعة رقم 1

المجموعة رقم 2

الرسم البياني 9.

في حالة عدم تمكن الباحث من تحديد العدد الأكثر احتمالية من المجموعات مسبقًا ، فإنه يضطر إلى تكرار العمليات الحسابية ، وتحديد رقم مختلف ، على غرار ما تم القيام به أعلاه. وبعد ذلك ، بمقارنة النتائج التي تم الحصول عليها مع بعضها البعض ، توقف عند أحد خيارات التجميع الأكثر قبولًا.

4 . تجميع الميزات

بالإضافة إلى تجميع الملاحظات الفردية ، هناك أيضًا خوارزميات تجميع الميزات. واحدة من أولى هذه الطرق هي طريقة الارتباط الثريا Terentiev P.V. غالبًا ما يمكن العثور على صور بدائية لمثل هذه الثريا في المنشورات الطبية الحيوية على شكل دائرة منقطة بأسهم تربط الإشارات التي وجد المؤلفون ارتباطًا بها. يحتوي عدد من البرامج الخاصة بتجميع العناصر والميزات على إجراءات منفصلة. على سبيل المثال ، في حزمة SAS لتجميع الميزات ، يتم استخدام إجراء VARCLUS (من متغير - متغير و CLUSter - عنقود) ، بينما يتم تنفيذ التحليل العنقودي للملاحظات بواسطة إجراءات أخرى - FASTCLUS و CLUSTER. يتم تنفيذ بناء dendrogram في كلتا الحالتين باستخدام إجراء شجرة (شجرة).

في الحزم الإحصائية الأخرى ، يتم اختيار عناصر التجميع - كائنات أو ميزات - في نفس الوحدة. كمقياس لتجميع الميزات ، غالبًا ما يتم استخدام التعبيرات التي تتضمن قيمة معاملات معينة تعكس قوة العلاقة لزوج من الميزات. في هذه الحالة ، من الملائم جدًا للعلامات التي لها قوة اتصال تساوي واحدًا (اعتماد وظيفي) أن تأخذ المسافة بين العلامات تساوي الصفر. في الواقع ، مع اتصال وظيفي ، يمكن لقيمة ميزة ما أن تحسب بدقة قيمة ميزة أخرى. مع انخفاض قوة العلاقة بين العلامات ، تزداد المسافة وفقًا لذلك. يوجد أدناه رسم بياني يوضح مخطط شجر الأسنان لمجموعة من 12 ميزة تم استخدامها أعلاه عند تجميع 70 عينة تحليلية.

الرسم البياني 10. Dendrogramالتجميع 12 ميزات.

كما يتضح من مخطط الأسنان هذا ، فإننا نتعامل مع مجموعتين محليتين من الميزات: X1-X10 و X11-X12. تتميز مجموعة الميزات X1-X10 بقيمة صغيرة نسبيًا للمسافات بين العناقيد ، لا تتجاوز 100 وحدة تقريبًا. هنا نرى أيضًا بعض المجموعات الفرعية المزدوجة الداخلية: X1 و X2 و X3 و X4 و X6 و X7. تشير المسافة بين ميزات هذه الأزواج ، والتي تكون قريبة جدًا من الصفر ، إلى علاقة الزوج القوية. بينما بالنسبة للزوج X11 و X12 ، تكون قيمة المسافة البينية أكبر بكثير وتبلغ حوالي 300 وحدة. أخيرًا ، تشير المسافة الكبيرة جدًا بين المجموعتين اليسرى (X1-X10) واليمنى (X11-X12) ، والتي تساوي حوالي 1150 وحدة ، إلى أن العلاقة بين هاتين المجموعتين من الميزات ضئيلة للغاية.

5. استقرار ونوعية التكتل

من الواضح أنه سيكون من العبث إثارة السؤال حول مدى مطلقة هذا التصنيف أو ذاك الذي تم الحصول عليه بمساعدة طرق التحليل العنقودي. عندما يتم تغيير طريقة التجميع ، يتجلى الاستقرار في حقيقة أن مجموعتين ظاهرتين تمامًا على مخطط الأسنان.

كإحدى الطرق الممكنة للتحقق من استقرار نتائج تحليل الكتلة ، يمكن استخدام طريقة مقارنة النتائج التي تم الحصول عليها لمختلف خوارزميات التجميع. ومن الطرق الأخرى ما يسمى بطريقة التمهيد التي اقترحها ب. إيفرون في عام 1977 ، وطريقتا "سكين الرافعة" و "التحكم في الانزلاق". يمكن أن تكون أبسط وسيلة للتحقق من استقرار المحلول العنقودي هي تقسيم العينة الأولية بشكل عشوائي إلى جزأين متساويين تقريبًا ، وتجميع كلا الجزأين ، ثم مقارنة النتائج. تتضمن الطريقة الأكثر استهلاكا للوقت الاستبعاد المتسلسل للكائن الأول في البداية وتجميع الكائنات المتبقية (N - 1). علاوة على ذلك ، قم بتنفيذ هذا الإجراء بالتتابع باستثناء الإجراء الثاني والثالث وما إلى ذلك. كائنات ، يتم تحليل بنية جميع مجموعات N التي تم الحصول عليها. تتضمن خوارزمية أخرى للتحقق من الاستقرار استنساخًا متعددًا ، وتكرارًا للعينة الأصلية لكائنات N ، ثم دمج جميع العينات المكررة في عينة واحدة كبيرة (مجتمع عام زائف) واستخراج عينة جديدة من الكائنات N بشكل عشوائي. بعد ذلك ، يتم تجميع هذه العينة ، ثم يتم أخذ عينة عشوائية جديدة ، ويتم إجراء التجميع مرة أخرى ، إلخ. كما أنها تتطلب عمالة كثيفة.

لا توجد مشاكل أقل عند تقييم جودة التجميع. يُعرف عدد غير قليل من الخوارزميات لتحسين الحلول العنقودية. الأعمال الأولى التي احتوت على صيغ معيار لتقليل التباين داخل العنقود وخوارزمية (من النوع k-mean) لإيجاد الحل الأمثل ظهرت في الخمسينيات. في عام 1963 قدمت مقالة جيه وارد أيضًا خوارزمية هرمية تحسين مماثلة. لا يوجد معيار عالمي لتحسين الحل العنقودي. كل هذا يجعل من الصعب على الباحث اختيار الحل الأمثل. في مثل هذه الحالة في أفضل طريقة ممكنةللتأكيد على أن الحل العنقودي الموجود هو الأمثل في هذه المرحلة من الدراسة ، هو فقط اتساق هذا الحل مع الاستنتاجات التي تم الحصول عليها باستخدام طرق أخرى للإحصاء متعدد المتغيرات.

لصالح الاستنتاج حول أمثلية التجميع ، هناك أيضًا نتائج إيجابية للتحقق من اللحظات التنبؤية للحل الذي تم الحصول عليه بالفعل على كائنات أخرى للدراسة. عند استخدام الأساليب الهرمية لتحليل الكتلة ، يمكننا أن نوصي بمقارنة عدة رسوم بيانية مع بعضها البعض تغيير تدريجيالمسافة بين العناقيد. في هذه الحالة ، يجب إعطاء الأفضلية للخيار الذي من أجله يتم ملاحظة خط مسطح من هذه الزيادة من الخطوة الأولى إلى عدة خطوات قبل الأخيرة مع ارتفاع رأسي حاد في هذا الرسم البياني في الخطوتين 1-2 الأخيرتين من التجميع.

الاستنتاجات

في عملي ، حاولت إظهار ليس فقط تعقيد هذا النوع من التحليل ، ولكن أيضًا إمكانات معالجة البيانات المثلى ، لأنه غالبًا من أجل دقة النتائج ، يتعين عليك استخدام من عشرات إلى مئات العينات. هذا النوعيساعد التحليل في تصنيف النتائج ومعالجتها. كما أنني أعتبر مقبولية تقنيات الكمبيوتر في هذا التحليل غير مهم ، مما يجعل من الممكن جعل عملية معالجة النتائج أقل استهلاكا للوقت ، وبالتالي يسمح بإيلاء مزيد من الاهتمام لصحة أخذ العينات للتحليل.

في استخدام التحليل العنقودي ، هناك مثل هذه التفاصيل الدقيقة التي تظهر في حالات فردية محددة ولا يمكن رؤيتها على الفور. على سبيل المثال ، قد يكون دور مقياس الميزات ضئيلًا ، وقد يكون هو المسيطر في بعض الحالات. في مثل هذه الحالات ، من الضروري استخدام التحويلات المتغيرة. يكون هذا فعالًا بشكل خاص عند استخدام الطرق التي تنتج تحويلات غير خطية للميزات التي تزيد عمومًا المستوى العام للارتباطات بين الميزات.

هناك خصوصية أكبر في استخدام التحليل العنقودي فيما يتعلق بالكائنات الموصوفة فقط من خلال السمات النوعية. في هذه الحالة ، تكون طرق الرقمنة الأولية للسمات النوعية وتحليل المجموعات بميزات جديدة ناجحة تمامًا. في عملي ، أوضحت أن التحليل العنقودي يوفر الكثير من المعلومات الجديدة والأصلية في حالة تطبيقه في أنظمة مدروسة بشكل كاف ، وفي دراسة الأنظمة ذات البنية غير المعروفة.

وتجدر الإشارة أيضًا إلى أن التحليل العنقودي أصبح لا غنى عنه في البحث التطوري ، مما يسمح ببناء أشجار النشوء والتطور تظهر المسارات التطورية. تستخدم هذه الأساليب على نطاق واسع في البرامج بحث علميفي الكيمياء الفيزيائية والتحليلية.

فهرس

1) Aivazyan S. A. ، Enyukov I. S. ، Meshalkin L.D حول بنية ومحتوى حزمة البرامج للتحليل الإحصائي التطبيقي // Algorithmic and البرمجياتالتحليل الإحصائي التطبيقي. - م ، 1980.

2) Ayvazyan S. A. ، Bezhaeva Z. I. ، Staroverov O.V. تصنيف الملاحظات متعددة الأبعاد. - م: الإحصاء ، 1974.

3) Becker V.A ، Lukatskaya M. L. حول تحليل بنية مصفوفة معاملات الاقتران // قضايا النمذجة الاقتصادية والإحصائية والتنبؤ في الصناعة. - نوفوسيبيرسك ، 1970.

4) برافرمان إي م ، موشنيك آي ب. الطرق الهيكليةمعالجة البيانات. - م: نوكا ، 1983.

5) فورونين يو أ.نظرية التصنيف وتطبيقاتها - نوفوسيبيرسك: ناوكا ، 1987.

6) جيد I. J. علم النبات من علم النبات // التصنيف والكتلة. - م: مير ، 1980.

7) دوبروفسكي س أ.التحليل الإحصائي متعدد المتغيرات التطبيقي. - م: المالية والإحصاء ، 1982.

8) Duran N.، Odell P. Cluster analysis. - M: Statistics، 1977.

9) Eliseeva I.I. ، Rukavishnikov VS Grouping ، والترابط ، والتعرف على الأنماط. - M: Statistics ، 1977.

10) Zagoruiko N.G أساليب التعرف وتطبيقاتها. - م: الراديو السوفيتي ، 1972.

11) مجموعات Zade L.A Fuzzy وتطبيقها في التعرف على الأنماط وتحليل الكتلة // التصنيف والكتلة. - M: Mir ، 1980.

12) Kildishev GS ، Abolentsev Yu.I. التجمعات متعددة الأبعاد. - م: الإحصاء ، 1978.

13) Raiskaya II، Gostilin NI، Frenkel AA حول طريقة واحدة للتحقق من صحة التقسيم في التحليل العنقودي. // تطبيق التحليل الإحصائي متعدد المتغيرات في الاقتصاد وتقييم جودة المنتج. - الفصل. بي تارتو ، 1977.

14) Shurygin A.M. توزيع المسافات والاختلافات بين النقاط // دعم البرامج والخوارزميات للتحليل الإحصائي متعدد الأبعاد التطبيقي. - M. ، 1983.

15) نظرية إيريما ر.

16) أعمال مختارة Yastremsky BS. - M: Statistics، 1964.

وثائق مماثلة

    أهداف تجزئة السوق في نشاطات تسويقية. جوهر التحليل العنقودي ، المراحل الرئيسية لتنفيذه. حدد كيفية قياس المسافة أو قياس التشابه. طرق التجميع الهرمي وغير الهرمي. تقييم الموثوقية والموثوقية.

    التقرير ، تمت إضافة 02.11.2009

    الخصائص الرئيسية الوضع الماليالشركات. أزمة المنشأة وأسبابها وأنواعها ونتائجها. الأساليب الحديثةوأدوات التحليل العنقودي ، وخصائص استخدامها في التقييم المالي والاقتصادي للمؤسسة.

    أطروحة تمت إضافة 10/09/2013

    إجراء تحليل عنقودي للمؤسسات باستخدام Statgraphics Plus. بناء معادلة الانحدار الخطي. حساب معاملات المرونة بنماذج الانحدار. تقييم الدلالة الإحصائية للمعادلة ومعامل التحديد.

    المهمة ، تمت إضافة 2014/03/16

    بناء الانحدارات النمطية لمجموعات فردية من الملاحظات. البيانات المكانية والمعلومات الزمنية. نطاق تطبيق التحليل العنقودي. مفهوم تجانس الأشياء ، خصائص مصفوفة المسافة. إجراء الانحدار النمطي.

    عرض تقديمي ، تمت إضافة 10/26/2013

    إنشاء نماذج وأساليب مجمعة مثل بطريقة حديثةالتوقع. نموذج قائم على ARIMA لوصف السلاسل الزمنية الثابتة وغير الثابتة في حل مشاكل التجميع. نماذج الانحدار الذاتي AR وتطبيق مخططات الارتباط.

    عرض تقديمي ، تمت الإضافة في 05/01/2015

    خصائص أنواع المقاييس المختلفة. طريقة الجار الأقرب وتعميماته. أقرب خوارزمية الجوار. طريقة نافذة بارزين. المصنف المتري المعمم. مشكلة اختيار المقياس. المسافة بين مانهاتن والإقليدية. قياس جيب التمام.

    ورقة مصطلح ، تمت إضافتها في 03/08/2015

    خصائص صناعة البناء في إقليم كراسنودار. تنبؤات تطور بناء المساكن. الأساليب والأدوات الحديثة في التحليل العنقودي. طرق إحصائية متعددة الأبعاد لتشخيص الحالة الاقتصادية للمشروع.

    أطروحة ، أضيفت في 07/20/2015

    خصائص الإقراض العقاري على غرار منطقة بريانسك. مراجعة طرق صنع القرار الرياضي: تقييمات الخبراء ، المقارنات المتسلسلة والأزواج ، تحليل التسلسل الهرمي. تطوير برنامج بحث عن أفضل قرض عقاري.

    ورقة مصطلح ، تمت إضافة 11/29/2012

    مجالات تطبيق تحليل النظام ومكانه ودوره وأهدافه ووظائفه العلم الحديث. مفهوم ومحتوى طرق تحليل النظام وطرقه غير الرسمية. ميزات طرق البحث الإرشادية والخبيرة وميزات تطبيقها.

    ورقة مصطلح ، تمت الإضافة 05/20/2013

    تطوير وبحث طرق الاقتصاد القياسي مع مراعاة خصوصيات البيانات الاقتصادية وبما يتوافق مع الاحتياجات اقتصادياتوالممارسات. تطبيق أساليب ونماذج الاقتصاد القياسي للتحليل الإحصائي للبيانات الاقتصادية.

الجامعة: VZFEI

السنة والمدينة: موسكو 2008


1 المقدمة. مفهوم طريقة التحليل العنقودي.

2. وصف منهجية تطبيق التحليل العنقودي. مثال التحكم في حل المشكلات.

4. قائمة الأدب المستخدم

  1. مقدمة. مفهوم طريقة التحليل العنقودي.

التحليل العنقودي عبارة عن مجموعة من الأساليب التي تسمح بتصنيف الملاحظات متعددة الأبعاد ، كل منها موصوف بمجموعة من الميزات (المعلمات) X1 ، X2 ، ... ، Xk.

الغرض من التحليل العنقودي هو تكوين مجموعات من الأشياء المتشابهة مع بعضها البعض ، والتي تسمى عادةً المجموعات (الفئة ، التصنيف ، التركيز).

تحليل الكتلة هو أحد مجالات البحث الإحصائي. تحتل مكانًا مهمًا بشكل خاص في تلك الفروع العلمية المرتبطة بدراسة الظواهر والعمليات الجماعية. تملي الحاجة إلى تطوير أساليب التحليل العنقودي واستخدامها من خلال حقيقة أنها تساعد في بناء تصنيفات قائمة على أساس علمي ، وتحديد الاتصالات الداخليةبين وحدات السكان المرصودة. بالإضافة إلى ذلك ، يمكن استخدام طرق التحليل العنقودي لضغط المعلومات ، وهو عامل مهم في مواجهة الزيادة المستمرة والتعقيد في تدفقات البيانات الإحصائية.

تسمح طرق تحليل الكتلة بحل المشكلات التالية:

إجراء تصنيف الكائنات ، مع مراعاة السمات التي تعكس جوهر وطبيعة الأشياء. يؤدي حل مثل هذه المشكلة ، كقاعدة عامة ، إلى تعميق المعرفة حول مجموع الأشياء التي يتم تصنيفها ؛

التحقق من الافتراضات التي تم إجراؤها حول وجود بعض الهياكل في مجموعة الكائنات المدروسة ، أي البحث عن هيكل موجود ؛

بناء تصنيفات جديدة للظواهر المدروسة بشكل سيئ ، عندما يكون من الضروري إثبات وجود روابط داخل السكان ومحاولة إدخال بنية فيها (1. ص. 85-86).

2. وصف منهجية تطبيق التحليل العنقودي. مثال التحكم في حل المشكلات.

يسمح لك تحليل الكتلة بتشكيل تقسيم إلى مجموعات متجانسة (مجموعات) من كائنات n تتميز بميزات k. يتم تحديد تجانس الكائنات من خلال المسافة p (xi xj) ، حيث xi = (xi1، ... كائنات من -th و j-th على التوالي.

بالنسبة للكائنات التي تتميز بسمات عددية ، يتم تحديد المسافة بالصيغة التالية:

p (xi، xj) = √ ∑ (x1m-xjm) 2 (1) *

تعتبر الكائنات متجانسة إذا كانت p (xi xj)< p предельного.

يمكن الحصول على تمثيل رسومي للاتحاد باستخدام شجرة اتحاد عنقودية - مخطط شجر. (2. الفصل 39).

حالة الاختبار (مثال 92).

حجم المبيعات

دعونا نصنف هذه الأشياء باستخدام مبدأ "الجار القريب". لنجد المسافات بين الكائنات باستخدام الصيغة (1) *. دعونا نملأ الجدول.

لنوضح كيف يتم ملء الجدول.

عند تقاطع الصف i والعمود j ، يشار إلى المسافة p (xi xj) (يتم تقريب النتيجة إلى منزلتين عشريتين).

على سبيل المثال ، عند تقاطع الصف 1 والعمود 3 ، يشار إلى المسافة p (x1 ، x3) = √ (1-6) 2 + (9-8) 2 ≈ 5.10 ، وعند تقاطع الصف 3 والعمود 5 ، المسافة ص (x3 ، x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. بما أن p (xi، xj) = p (x، xi) ، لا يلزم ملء الجزء السفلي من الجدول.

دعونا نطبق مبدأ "الجار القريب". نجد في الجدول أصغر المسافات (إذا كان هناك العديد منها ، فنحن نختار أيًا منها). هذا هو ص 1.2 ≈ ص 4.5 \ u003d 2.24. دع p min = p 4.5 = 2.24. ثم يمكننا دمج الكائنين 4 و 5 في مجموعة واحدة ، أي أن العمود المدمج 4 و 5 سيحتوي على أصغر عدد من الأعداد المقابلة للأعمدة 4 و 5 من جدول المسافة الأصلي. نفعل الشيء نفسه مع السطرين 4 و 5. نحصل على جدول جديد.

نجد في الجدول الناتج أصغر المسافات (إذا كان هناك العديد منها ، فسنختار أيًا منها): р min = р 1.2 = 2.24. ثم يمكننا دمج العناصر 1،2،3 في مجموعة واحدة ، أي أن العمود المدمج 1،2،3 سيحتوي على أصغر الأرقام المقابلة للأعمدة 1 و 2 و 3 من جدول المسافة السابق. نفعل الشيء نفسه مع الصفين 1 و 2 و 3. نحصل على جدول جديد.

حصلنا على مجموعتين: (1،2،3) و (4،5).

3. حل مشاكل العمل الرقابي.

المشكلة 85.

شروط:تتميز خمسة مرافق إنتاج بميزتين: حجم المبيعات ومتوسط ​​التكلفة السنوية للأصول الثابتة.

حجم المبيعات

متوسط ​​التكلفة السنويةأصول الإنتاج الثابتة

المحلول:لنجد المسافات بين الكائنات باستخدام الصيغة (1) * (سنقوم بالتقريب إلى منزلتين عشريتين):

ص 1،1 \ u003d √ (2-2) 2 + (2-2) 2 \ u003d 0

ص 1.2 \ u003d √ (2-5) 2 + (7-9) 2 ≈ 3.61

ص 1.3 \ u003d √ (2-7) 2 + (7-10) 2 ≈ 5.83

ص 2.2 \ u003d √ (5-5) 2 + (9-9) 2 \ u003d 0

ص 2.3 \ u003d √ (5-7) 2 + (9-10) 2 ≈ 2.24

ص 3.4 \ u003d √ (7-12) 2 + (10-8) 2 ≈5.39

ص 3.5 \ u003d √ (7-13) 2 + (10-5) 2 ≈ 7.81

ص 4.5 \ u003d √ (12-13) 2 + (8-5) 2 ≈ 3.16

بناءً على نتائج الحسابات ، نملأ الجدول:

لنطبق مبدأ أقرب الجار. للقيام بذلك ، نجد في الجدول أصغر المسافات (إذا كان هناك العديد منها ، فحدد أيًا منها). هذا هو p 2.3 = 2.24. لنفترض أن p min = p 2.3 = 2.24 ، ثم يمكننا دمج كائنات العمودين "2" و "3" ، وكذلك دمج صفوف العناصر "2" و "3". في الجدول الجديد ، نقوم بإدخال أصغر القيم من الجدول الأصلي في المجموعات المدمجة.

في الجدول الجديد نجد أصغر المسافات (إذا كان هناك العديد منها ، فنحن نختار أيًا منها). هذا ص 4.5 = 3.16. دع p min = p 4.5 = 3.16 ، ثم يمكننا دمج كائنات العمودين "4" و "5" ، وكذلك دمج صفوف العناصر "4" و "5". في الجدول الجديد ، نقوم بإدخال أصغر القيم من الجدول الأصلي في المجموعات المدمجة.

في الجدول الجديد نجد أصغر المسافات (إذا كان هناك العديد منها ، فنحن نختار أيًا منها). هذه هي p 1 و 2 و 3 = 3.61. دع p min = p 1 و 2 و 3 = 3.61 ، ثم يمكننا دمج كائنات العمود "1" و "2 و 3" وكذلك دمج الصفوف. في الجدول الجديد ، نقوم بإدخال أصغر القيم من الجدول الأصلي في المجموعات المدمجة.

نحصل على مجموعتين: (1،2،3) و (4،5).

يُظهر مخطط الأسنان ترتيب اختيار العناصر والحد الأدنى للمسافات المقابلة pmin.

إجابه:نتيجة لتحليل الكتلة وفقًا لمبدأ "الجار الأقرب" ، يتم تكوين مجموعتين من العناصر المتشابهة مع بعضها البعض: (1،2،3) و (4،5).

المشكلة 211.

شروط:تتميز خمس منشآت إنتاجية بميزتين: حجم المبيعات ومتوسط ​​القيمة السنوية للأصول الثابتة.

حجم المبيعات

متوسط ​​التكلفة السنوية لأصول الإنتاج الثابتة

صنف هذه الكائنات باستخدام مبدأ الجار الأقرب.

المحلول:لحل المشكلة نقدم البيانات في الجدول الأصلي. دعنا نحدد المسافات بين الأشياء. سنصنف الكائنات وفقًا لمبدأ "الجار الأقرب". يتم عرض النتائج في شكل مخطط شجري.

حجم المبيعات

متوسط ​​التكلفة السنوية لأصول الإنتاج الثابتة

باستخدام الصيغة (1) * ، نجد المسافات بين الكائنات:

ص 1.1 = 0 ، ف 1.2 = 6 ، ف 1.3 = 8.60 ، ف 1.4 = 6.32 ، ف 1.5 = 6.71 ، ف 2.2 = 0 ، ف 2 ، 3 = 7.07 ، ص 2.4 = 2 ، ص 2.5 = 3.32 ، ص 3.3 = 0 ، ص 3.4 = 5.10 ، ص 3.5 = 4.12 ، ص 4 ، 4 = 0 ، ص 4.5 = 1 ، ص 5.5 = 0.

النتائج معروضة في الجدول:

أصغر قيمة للمسافات في الجدول هي p 4.5 = 1. دع p min = p 4.5 = 1 ، ثم يمكننا دمج كائنات العمودين "4" و "5" ، وكذلك دمج صفوف العناصر "4" و "5". في الجدول الجديد ، نقوم بإدخال أصغر القيم من الجدول الأصلي في المجموعات المدمجة.

أصغر قيمة للمسافات في الجدول الجديد هي p 2 و 4 و 5 = 2. دع p min = p 2 و 4 و 5 = 2 ، ثم يمكننا دمج كائنات العمودين "4 و 5" و "3" ، وكذلك دمج صفوف الكائنات "4 و 5" و "3". في الجدول الجديد ، نقوم بإدخال أصغر القيم من الجدول إلى المجموعات المدمجة.

أصغر قيمة للمسافات في الجدول الجديد هي p 3،4،5 = 2. لنفترض أن p min = p 3،4،5 = 2 ، ثم يمكننا دمج كائنات الأعمدة "3،4،5" و "2" ، وكذلك دمج صفوف العناصر "3،4،5" و " 2 ". في الجدول الجديد ، نقوم بإدخال أصغر القيم من الجدول إلى المجموعات المدمجة.

أو تسجيل الدخول إلى الموقع.

مهم! تهدف جميع أوراق الاختبار المقدمة للتنزيل المجاني إلى وضع خطة أو أساس لعملك العلمي.

أصدقاء! عندك فرصة فريدةساعد الطلاب مثلك! إذا ساعدك موقعنا في العثور عليه الوظيفة المناسبة، فأنت بالتأكيد تفهم كيف يمكن للعمل الذي أضفته أن يجعل عمل الآخرين أسهل.

إذا عمل التحكم برأيك ، جودة سيئة، أو كنت قد قابلت هذا العمل بالفعل ، أخبرنا به.

انظر تحليل الكتلة. أنتينازي. موسوعة علم الاجتماع 2009 ... موسوعة علم الاجتماع

التحليل العنقودي- هذه مجموعة من الطرق التي تسمح لك بتصنيف الملاحظات متعددة الأبعاد ، كل منها موصوف بمجموعة معينة من المتغيرات. الغرض من التحليل العنقودي هو تكوين مجموعات من الأشياء المتشابهة مع بعضها البعض ، والتي يطلق عليها عادة ... ... قاموس علم الاجتماع Socium

التحليل العنقودي- إجراء رياضي للتحليل متعدد الأبعاد ، والذي يسمح ، على أساس مجموعة من المؤشرات التي تميز عددًا من الكائنات (على سبيل المثال ، الموضوعات) ، بتجميعها في فئات (مجموعات) بحيث تكون الكائنات المدرجة في فئة واحدة أكثر. .. ... موسوعة نفسية عظيمة

التحليل العنقودي- إجراء رياضي يسمح ، بناءً على تشابه القيم الكمية للعديد من السمات المميزة لكل كائن (على سبيل المثال ، الموضوع) لأي مجموعة ، بتجميع هذه الكائنات في فئات أو مجموعات معينة. .... .. القاموس النفسي

التحليل العنقودي- - [L.G. Sumenko. القاموس الإنجليزي الروسي لتكنولوجيا المعلومات. م: GP TsNIIS، 2003.] المواضيع تكنولوجيا المعلوماتبشكل عام تحليل الكتلة EN ... دليل المترجم الفني

التحليل العنقودي- * تحليل الكتلة * تحليل الكتلة أو تجميع البيانات هو إجراء إحصائي متعدد الأبعاد يجمع البيانات التي تحتوي على معلومات حول مجموعة مختارة من الكائنات ، ثم يرتب الكائنات في مجموعات متجانسة نسبيًا من المجموعات (س ... ... علم الوراثة. قاموس موسوعي

التحليل العنقودي- هل من المستحسن تحسين هذه المقالة في الرياضيات ؟: وضع الهوامش ، وتقديم إشارات أكثر دقة للمصادر. قم بتصحيح المقال وفقًا لقواعد الأسلوب في ويكيبيديا. إعادة تدوير ... ويكيبيديا

التحليل العنقودي- - إجراء رياضي للتحليل متعدد الأبعاد ، والذي يسمح ، على أساس مجموعة من المؤشرات التي تميز عددًا من الكائنات (على سبيل المثال ، الموضوعات) ، بتجميعها في فئات (مجموعات) ، بحيث تكون الكائنات المدرجة في فئة واحدة أكثر ... ... القاموس الموسوعي لعلم النفس والتربية

التحليل العنقودي - اسم شائعلطرق رياضية مختلفة لتحديد البنية العميقة في البيانات المعقدة. تحليل الكتلة مماثل في كثير من النواحي لتحليل العوامل. كلاهما يتضمن البحث عن عناصر وحدوية (عوامل أو مجموعات) التي ... القاموس التوضيحي لعلم النفس

التحليل العنقودي- (التحليل العنقودي) تقنية تستخدم لتحديد مجموعات الكائنات أو الأشخاص الذين قد يظهرون اختلافًا نسبيًا في مجموعة من البيانات. ثم يتم دراسة خصائص هؤلاء الأشخاص داخل كل مجموعة. في أبحاث السوق ، ... قاموس اجتماعي توضيحي كبير

التحليل العنقودي- (CLUSTER ANALYSIS) مجموعة من الأساليب الإحصائية المستخدمة لتحديد البنية الداخلية للبيانات في تحليل معلومات البحث المتعلقة بمتغيرات متعددة. الغرض من التحليل العنقودي هو تحديد مجموعات الكائنات ... ... القاموس الاجتماعي

هذا الكتاب مخصص لواحد فقط من أكثر المناهج الواعدة لتحليل العمليات والظواهر متعددة الأبعاد بهذا المعنى - تحليل الكتلة.

تحليل الكتلة هو طريقة لتجميع الكائنات متعددة الأبعاد ، بناءً على عرض نتائج الملاحظات الفردية بنقاط من مساحة هندسية مناسبة ، متبوعًا باختيار المجموعات كـ "مجموعات" من هذه النقاط. في الواقع ، فإن "الكتلة" (الكتلة) في اللغة الإنجليزيةوتعني "جلطة" ، "عناقيد (من العنب)" ، "كتلة (من النجوم)" ، إلخ. هذا المصطلح يتناسب بشكل غير عادي مع المصطلحات العلمية ، نظرًا لأن مقطعه الأول يتوافق مع المصطلح التقليدي "فئة" ، والثاني ، كما كان ، يشير إلى أصله الاصطناعي. ليس لدينا شك في أن مصطلحات التحليل العنقودي ستحل محل جميع التركيبات المستخدمة سابقًا لهذا الغرض (التعرف على الأنماط غير الخاضعة للرقابة ، والتقسيم الطبقي ، والتصنيف ، والتصنيف التلقائي ، وما إلى ذلك). الاحتمالات المحتملة لتحليل المجموعات واضحة لحل ، على سبيل المثال ، مشاكل تحديد مجموعات الشركات العاملة في ظروف مماثلة أو ذات نتائج مماثلة ، ومجموعات متجانسة من السكان في مختلف جوانب الحياة أو نمط الحياة بشكل عام ، إلخ.

كتوجيه علمي ، أعلن التحليل العنقودي عن نفسه في منتصف الستينيات وتطور بسرعة منذ ذلك الحين ، لكونه أحد فروع النمو الأكثر كثافة في العلوم الإحصائية. يكفي أن نقول إن عدد الدراسات عن التحليل العنقودي المنشور حتى الآن في بلدان مختلفة فقط يُقاس بالمئات (بينما ، على سبيل المثال ، وفقًا لطريقة "مستحقة" للتحليل الإحصائي متعدد المتغيرات مثل تحليل العامل، فمن الصعب عد عشرات الكتب). وهذا أمر مفهوم تمامًا. بعد كل شيء ، نحن نتحدث بالفعل عن نمذجة عملية التجميع ، وهي واحدة من أهمها ليس فقط في الإحصاء ، ولكن بشكل عام - سواء في الإدراك أو في صنع القرار.

تم نشر عدد من الدراسات في بلدنا مخصصة لدراسة المشكلات الاجتماعية والاقتصادية المحددة باستخدام التحليل العنقودي (1) ، ومنهجية استخدام التحليل العنقودي في البحث الاجتماعي والاقتصادي (2) ، ومنهجية التحليل العنقودي على هذا النحو ( 3) (أساسيات التحليل الإحصائي)

الكتاب المقترح من قبل ID Mandel ، كما كان ، متعامد مع هذا التصنيف: محتواه مرتبط بكل مجال من هذه المجالات الثلاثة.

الغرض من الكتاب هو التلخيص مثال رائع من الفنتحليل الكتلة ، وتحليل إمكانيات استخدامها ومهام مزيد من التطوير. هذه الفكرة في حد ذاتها لا يمكن إلا أن تثير الاحترام: التحليل والتعميم غير المتحيزين يتطلبان الكثير من العمل ، وسعة الاطلاع ، والشجاعة ، ويصنفه المجتمع العلمي على أنه أقل بكثير من تعزيز وتطوير تصاميمهم الخاصة. (ومع ذلك ، يحتوي الكتاب أيضًا على التطورات الأصلية للمؤلف المتعلقة بالتحليل "المكثف" وازدواجية التصنيفات.)

ترتبط مزايا الكتاب وعيوبه بتحقيق هذا الهدف. يجب أن تشمل المزايا ما يلي:

· دراسة منهجية لمفاهيم التجانس والتجميع والتصنيف ، مع مراعاة تعدد أبعاد الظواهر والعمليات ؛

· مراجعة منهجية لنهج وطرق تحليل المجموعات (بما في ذلك ما يصل إلى 150 خوارزمية محددة) ؛

· عرض التكنولوجيا ونتائج المقارنة التجريبية لإجراءات التحليل العنقودي ؛ هذا الكتاب مخصص لواحد فقط من أكثر المناهج الواعدة لتحليل العمليات والظواهر متعددة الأبعاد بهذا المعنى - تحليل الكتلة.

تحليل الكتلة هو طريقة لتجميع الكائنات متعددة الأبعاد ، بناءً على عرض نتائج الملاحظات الفردية بنقاط من مساحة هندسية مناسبة ، متبوعًا باختيار المجموعات كـ "مجموعات" من هذه النقاط. في الواقع ، تعني كلمة "الكتلة" (الكتلة) باللغة الإنجليزية "الجلطة" ، و "عناقيد (من العنب)" ، و "الكتلة (من النجوم)" ، وما إلى ذلك. وهذا المصطلح يتناسب بشكل غير عادي مع المصطلحات العلمية ، نظرًا لأن مقطعه الأول يتوافق مع المقاطع التقليدية مصطلح "فئة" ، والثاني ، كما كان ، يشير إلى أصله الاصطناعي. ليس لدينا شك في أن مصطلحات التحليل العنقودي ستحل محل جميع التركيبات المستخدمة سابقًا لهذا الغرض (التعرف على الأنماط غير الخاضعة للرقابة ، والتقسيم الطبقي ، والتصنيف ، والتصنيف التلقائي ، وما إلى ذلك). الاحتمالات المحتملة لتحليل المجموعات واضحة لحل ، على سبيل المثال ، مشاكل تحديد مجموعات الشركات العاملة في ظروف مماثلة أو ذات نتائج مماثلة ، ومجموعات متجانسة من السكان في مختلف جوانب الحياة أو نمط الحياة بشكل عام ، إلخ.

كتوجيه علمي ، أعلن التحليل العنقودي عن نفسه في منتصف الستينيات وتطور بسرعة منذ ذلك الحين ، لكونه أحد فروع النمو الأكثر كثافة في العلوم الإحصائية. يكفي أن نقول أن عددًا فقط من الدراسات حول تحليل الكتلة ، والتنمية المخططات العامةاستخدام طرق التحليل العنقودي المطبقة في جداول توضيحية إلى حد ما ؛ الطبيعة الموصى بها للعرض التقديمي.

تحدد هذه المزايا المكانة المستقلة لكتاب آي دي ماندل من بين المنشورات الأخرى.

تتمثل أوجه القصور في الكتاب في غموض بعض التوصيات وعدم وجود تحليل منهجي لقضايا استخدام أساليب التحليل العنقودي في التطبيقات الاجتماعية والاقتصادية للموضوع. صحيح أن السبب الأخير يرجع إلى عدم كفاية استخدام التحليل العنقودي في هذا المجال.

يوفر الكتاب نقطة انطلاق ، يسهل استخدامها التقدم في أصعب قضية في أي نظرية - الاستخدام العملي للأدوات التي يوفرها.

بي جي ميركين

تتراوح موضوعات البحث من تحليل مورفولوجيا القوارض المحنطة في غينيا الجديدة إلى دراسة نتائج تصويت أعضاء مجلس الشيوخ الأمريكي ، من تحليل الوظائف السلوكية للصراصير المجمدة عند إذابتها ، إلى دراسة التوزيع الجغرافي. لأنواع معينة من الأشنة في ساسكاتشوان.

كان لهذا الانفجار في المنشورات تأثير كبير على تطوير وتطبيق التحليل العنقودي. لكن ، للأسف ، هناك جوانب سلبية أيضًا. أدى النمو السريع للمنشورات حول التحليل العنقودي إلى تكوين مجموعات من المستخدمين ، ونتيجة لذلك ، إنشاء المصطلحات المستخدمة فقط من قبل المجموعات التي أنشأتها (Blashfield and Aldenderfer ، 1978 ؛ Blashfield ، 1980).

على تشكيل المصطلحات من قبل المتخصصين في هذا المجال العلوم الاجتماعيةيتضح ، على سبيل المثال ، من خلال المصطلحات المتنوعة المتعلقة بطريقة وارد. تسمى "طريقة وارد" بشكل مختلف في الأدبيات. هناك أربعة أسمائ أخرى على الأقل معروفة: "أسلوب التباين الأدنى" ، "مجموع طريقة الخطأ التربيعي" ، "تصغير التجميع الهرمي" و "HGROUP". يشير الاسمان الأولان ببساطة إلى المعيار الذي يتم تحديد أفضله من خلال طريقة وارد ، بينما يتعلق الثالث بمجموع الأخطاء التربيعية ، وهو تحويل تتبع رتيب للمصفوفة W ، مصفوفة التغاير داخل المجموعة. أخيرًا ، الاسم المستخدم على نطاق واسع "HGROUP" هو اسم مشهور برنامج الحاسبالذي يطبق طريقة وارد (فيلدمان ، 1967).

تشكيل المصطلحات يعيق تطوير الاتصالات متعددة التخصصات ، يعيق مقارنة فعالةمنهجية ونتائج تطبيق التحليل العنقودي في مختلف مجالات العلوم ، يؤدي إلى جهد غير ضروري (إعادة اختراع نفس الخوارزميات) ، وأخيرًا ، لا يمنح المستخدمين الجدد فهمًا عميقًا للطرق التي اختاروها (Blashfield and Aldenderfer ، 1978 ). على سبيل المثال ، قارنت إحدى دراسات العلوم الاجتماعية (Rogers and Linden ، 1973) ثلاث طرق مختلفة للتجميع باستخدام نفس البيانات. وأطلقوا على هذه الأساليب اسم "التجميع الهرمي" ، "التجميع الهرمي أو قوات حرس السواحل الهايتية" و "التحليل العنقودي". ولم يكن أي من هذه الأسماء مألوفًا لطرق التجميع. سيتم الخلط بين المستخدم المبتدئ لبرامج التحليل العنقودي من قبل جميع الأسماء الموجودة ولن يكون قادرًا على ربطها بأوصاف أخرى لطرق التجميع. سيجد المستخدمون المتمرسون أنفسهم في موقف صعب عند مقارنة أبحاثهم بعمل مماثل. قد نذهب إلى أقصى الحدود ، لكن المصطلحات مشكلة خطيرة.

في السنوات الأخيرة ، تباطأ تطوير التحليل العنقودي إلى حد ما ، بناءً على عدد المنشورات وعدد التخصصات التي يتم فيها تطبيق هذه الطريقة. يمكننا أن نقول أنه في الوقت الحاضر علم النفس وعلم الاجتماع وعلم الأحياء والإحصاء وبعضها التخصصات التقنيةالدخول في مرحلة التوحيد فيما يتعلق بتحليل الكتلة.

عدد المقالات التي تمدح فضائل التحليل العنقودي يتناقص تدريجياً. في الوقت نفسه ، هناك المزيد والمزيد من الأعمال التي تتم فيها مقارنة قابلية تطبيق طرق التجميع المختلفة على بيانات التحكم. في الأدبيات ، تم إيلاء المزيد من الاهتمام للتطبيقات. تهدف العديد من الدراسات إلى تطوير تدابير عملية لاختبار صحة النتائج التي تم الحصول عليها باستخدام التحليل العنقودي. كل هذا يشهد على محاولات جادة لإنشاء نظرية إحصائية معقولة لطرق التجميع.


الجرس

هناك من قرأ هذا الخبر قبلك.
اشترك للحصول على أحدث المقالات.
البريد الإلكتروني
اسم
اسم العائلة
كيف تحب أن تقرأ الجرس
لا بريد مزعج