DIE KLINGEL

Es gibt diejenigen, die diese Nachricht vor Ihnen gelesen haben.
Abonnieren Sie, um die neuesten Artikel zu erhalten.
Email
Name
Familien-oder Nachname
Wie möchten Sie The Bell lesen?
Kein Spam

Senden Sie Ihre gute Arbeit in die Wissensdatenbank ist einfach. Verwenden Sie das untenstehende Formular

Studenten, Doktoranden, junge Wissenschaftler, die die Wissensbasis in ihrem Studium und ihrer Arbeit nutzen, werden Ihnen sehr dankbar sein.

Einführung

1.Geschichte der "Clusteranalyse"

2. Terminologie

2.1 Objekt und Zeichen

2.2 Abstand zwischen Objekten (metrisch)

2.3 Dichte und Lokalität von Clustern

2.4 Abstand zwischen Clustern

3. Gruppierungsmethoden

3.1 Merkmale hierarchischer Agglomerationsmethoden

3.2 Merkmale iterativer Clustering-Methoden

4. Feature-Clustering

5. Stabilität und Qualität der Clusterbildung

Literaturverzeichnis

EINLEITUNG

„Clusteranalyse ist eine Reihe mathematischer Methoden, die entwickelt wurden, um relativ „entfernte“ Gruppen von „nahen“ Objekten gemäß Informationen über Entfernungen oder Verbindungen (Näherungsmaße) zwischen ihnen zu bilden. Sie hat eine ähnliche Bedeutung wie die Begriffe: automatisch Klassifikation, Taxonomie, Mustererkennung ohne Lehrer." Diese Definition der Clusteranalyse ist in der neuesten Ausgabe des Statistical Dictionary enthalten. Tatsächlich ist "Cluster-Analyse" ein verallgemeinerter Name für eine ziemlich große Menge von Algorithmen, die zum Erstellen einer Klassifizierung verwendet werden. Eine Reihe von Veröffentlichungen verwenden auch solche Synonyme für die Clusteranalyse wie Klassifikation und Partitionierung. Die Clusteranalyse wird in der Wissenschaft häufig als Mittel zur typologischen Analyse verwendet. Bei jeder wissenschaftlichen Tätigkeit ist die Klassifikation eine der grundlegenden Komponenten, ohne die es unmöglich ist, wissenschaftliche Hypothesen und Theorien aufzubauen und zu testen. Daher halte ich es in meiner Arbeit für notwendig, die Probleme der Clusteranalyse (der Grundlage der Clusteranalyse) sowie ihre Terminologie zu berücksichtigen und einige Beispiele für die Verwendung dieser Methode mit Datenverarbeitung als Hauptziel zu geben.

1. GESCHICHTE DER "CLUSTERANALYSE"

Eine Analyse in- und ausländischer Publikationen zeigt, dass die Clusteranalyse in den unterschiedlichsten Wissenschaftsbereichen Anwendung findet: Chemie, Biologie, Medizin, Archäologie, Geschichte, Geographie, Wirtschaftswissenschaften, Philologie etc. Das Buch von VV Nalimov "Probabilistic Model of Language" beschreibt die Verwendung der Clusteranalyse bei der Untersuchung von 70 analytischen Proben. Der größte Teil der Literatur zur Clusteranalyse ist in den letzten drei Jahrzehnten erschienen, obwohl die ersten Arbeiten, in denen Clustermethoden erwähnt wurden, schon vor langer Zeit erschienen sind. Der polnische Anthropologe K. Chekanowski brachte die Idee der "strukturellen Klassifikation" vor, die die Hauptidee der Clusteranalyse enthielt - die Zuordnung kompakter Objektgruppen.

1925 entdeckte der sowjetische Hydrobiologe P.V. Terentyev entwickelte die sogenannte "Methode der Korrelationsplejaden", die zum Gruppieren korrelierter Merkmale bestimmt ist. Diese Methode gab Anstoß zur Entwicklung von Gruppierungsmethoden unter Verwendung von Graphen. Der Begriff "Clusteranalyse" wurde zuerst von Trion vorgeschlagen. Das Wort "Cluster" wird aus dem Englischen als "Bündel, Bürste, Bündel, Gruppe" übersetzt. Aus diesem Grund wurde diese Art der Analyse ursprünglich „Cluster-Analyse“ genannt. In den frühen 1950er Jahren erschienen Veröffentlichungen von R. Lewis, E. Fix und J. Hodges über hierarchische Clusteranalysealgorithmen. Einen spürbaren Impuls für die Entwicklung der Arbeiten zur Clusteranalyse gab die Arbeit von R. Rosenblatt zum Erkennungsgerät (Perzeptron), die den Grundstein für die Entwicklung der Theorie der "Mustererkennung ohne Lehrer" legte.

Den Anstoß zur Entwicklung von Clustering-Verfahren gab das 1963 erschienene Buch „Principles of Numerical Taxonomy“. zwei Biologen - Robert Sokal und Peter Sneath. Die Autoren dieses Buches gingen davon aus, dass das Clustering-Verfahren zur Erstellung effektiver biologischer Klassifikationen die Verwendung verschiedener Indikatoren sicherstellen sollte, die die untersuchten Organismen charakterisieren, den Grad der Ähnlichkeit zwischen diesen Organismen bewerten und die Platzierung ähnlicher Organismen sicherstellen sollte in derselben Gruppe. In diesem Fall sollten die gebildeten Gruppen ausreichend "lokal", d.h. die Ähnlichkeit von Objekten (Organismen) innerhalb von Gruppen sollte die Ähnlichkeit von Gruppen untereinander übersteigen. Die anschließende Analyse der identifizierten Gruppen kann nach Ansicht der Autoren klären, ob diese Gruppen unterschiedlichen biologischen Arten entsprechen. So gingen Sokal und Sneath davon aus, dass die Aufdeckung der Struktur der Verteilung von Objekten in Gruppen hilft, den Prozess der Bildung dieser Strukturen zu ermitteln. Und der Unterschied und die Ähnlichkeit von Organismen verschiedener Cluster (Gruppen) kann als Grundlage für das Verständnis des laufenden Evolutionsprozesses und die Aufklärung seines Mechanismus dienen.

In denselben Jahren wurden viele Algorithmen von Autoren wie J. McKean, G. Ball und D. Hall unter Verwendung von k-means-Methoden vorgeschlagen; G. Lance und W. Williams, N. Jardine und andere - über hierarchische Methoden. Einen wesentlichen Beitrag zur Entwicklung von Clusteranalysemethoden leisteten einheimische Wissenschaftler - E. M. Braverman, A. A. Dorofeyuk, I. B. Muchnik, L. A. Rastrigin, Yu. I. Insbesondere in den 60-70er Jahren. Zahlreiche Algorithmen, die von den Nowosibirsker Mathematikern N. G. Zagoruiko, V. N. Elkina und G. S. Lbov entwickelt wurden, erfreuten sich großer Beliebtheit. Dies sind so bekannte Algorithmen wie FOREL, BIGFOR, KRAB, NTTP, DRET, TRF usw. Basierend auf diesen Paketen wurde ein spezielles OTEX-Softwarepaket erstellt. Nicht weniger interessant Softwareprodukte PPSA und Klass-Master wurden von den Moskauer Mathematikern S. A. Aivazyan, I. S. Enyukov und B. G. Mirkin entwickelt.

Methoden der Clusteranalyse sind teilweise in den meisten der bekanntesten in- und ausländischen Statistikpakete vorhanden: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS , GENSTAT, S-PLUS usw. Natürlich hat sich 10 Jahre nach der Veröffentlichung dieser Rezension ziemlich viel geändert, es sind neue Versionen vieler Statistikprogramme erschienen, und es sind völlig neue Programme erschienen, die sowohl neue Algorithmen als auch eine stark erhöhte Leistung verwenden. Informatik. Die meisten Statistikpakete verwenden jedoch Algorithmen, die in den 60er bis 70er Jahren vorgeschlagen und entwickelt wurden.

Nach groben Schätzungen von Experten verdoppelt sich die Zahl der Veröffentlichungen zur Clusteranalyse und ihren Anwendungen in verschiedenen Wissensgebieten alle drei Jahre. Was sind die Gründe für ein so stürmisches Interesse an dieser Art von Analyse? Objektiv gesehen gibt es drei Hauptgründe für dieses Phänomen. Dies ist das Aufkommen einer leistungsfähigen Computertechnologie, ohne die eine Clusteranalyse realer Daten praktisch nicht durchführbar ist. Der zweite Grund ist, dass die moderne Wissenschaft in ihren Konstruktionen zunehmend auf Klassifikationen basiert. Zudem vertieft sich dieser Prozess zunehmend, da parallel dazu eine zunehmende Spezialisierung des Wissens stattfindet, die ohne eine hinreichend objektive Einordnung nicht möglich ist.

Der dritte Grund - die Vertiefung des Spezialwissens führt zwangsläufig zu einer Erhöhung der Anzahl der Variablen, die bei der Analyse bestimmter Objekte und Phänomene berücksichtigt werden. Dadurch erweist sich die subjektive Einstufung, die bisher auf einer relativ geringen Anzahl berücksichtigter Merkmale beruhte, oft als unzuverlässig. Und die objektive Klassifizierung mit immer mehr Objektmerkmalen erfordert den Einsatz komplexer Clustering-Algorithmen, die nur auf der Basis moderner Computer implementiert werden können. Aus diesen Gründen entstand der „Cluster-Boom“. Unter Medizinern und Biologen hat sich die Clusteranalyse jedoch noch nicht zu einer recht beliebten und verbreiteten Forschungsmethode entwickelt.

2 TERMINOLOGIE

2. 1 OBJEKT UND ZEICHNUNG

Lassen Sie uns zunächst Konzepte wie Objekt und Attribut einführen. Objekt – vom lateinischen objectum – Subjekt. In Bezug auf Chemie und Biologie verstehen wir unter Objekten bestimmte Forschungsgegenstände, die mit physikalischen, chemischen und anderen Methoden untersucht werden. Solche Gegenstände können beispielsweise Proben, Pflanzen, Tiere usw. sein. Eine bestimmte Menge von Objekten, die dem Forscher zum Studium zur Verfügung stehen, wird als Probe oder Probenmenge bezeichnet. Die Anzahl der Objekte in einer solchen Grundgesamtheit wird üblicherweise als Stichprobenumfang bezeichnet. Typischerweise wird der Stichprobenumfang mit dem lateinischen Buchstaben „n“ oder „N“ bezeichnet.

Zeichen (Synonyme - Eigenschaft, Variable, Merkmal; Englisch - Variable - Variable.) - ist eine spezifische Eigenschaft des Objekts. Diese Eigenschaften können als numerische oder nicht numerische Werte ausgedrückt werden. Beispielsweise wird der Blutdruck (systolisch oder diastolisch) in Millimeter Quecksilbersäule gemessen, das Gewicht in Kilogramm, die Größe in Zentimetern usw. Solche Zeichen sind quantitativ. Im Gegensatz zu diesen kontinuierlichen numerischen Merkmalen (Skalen) können einige Merkmale diskrete, diskontinuierliche Werte haben. Solche diskreten Merkmale wiederum werden üblicherweise in zwei Gruppen eingeteilt.

1) Die erste Gruppe sind Rangvariablen, oder wie sie auch ordinale Variablen (Skalen) genannt werden. Solche Zeichen zeichnen sich durch die Eigenschaft aus, diese Werte zu ordnen. Dazu gehören die Stadien einer bestimmten Krankheit, Altersgruppen, Schülerwissenswerte, die 12-Punkte-Richter-Erdbebenskala usw.

2) Die zweite Gruppe von diskreten Merkmalen hat keine solche Ordnung und wird Nominal- (vom Wort "nominal" - Stichprobe) oder Klassifizierungsmerkmale genannt. Ein Beispiel für solche Anzeichen kann der Zustand des Patienten sein - "gesund" oder "krank", das Geschlecht des Patienten, der Beobachtungszeitraum - "vor der Behandlung" und "nach der Behandlung" usw. In diesen Fällen ist es üblich zu sagen, dass solche Merkmale zur Namensskala gehören.

Die Konzepte eines Objekts und eines Merkmals werden üblicherweise als "Objekt-Eigenschaft"- oder "Objekt-Merkmal"-Matrix bezeichnet. Die Matrix ist eine rechteckige Tabelle, die aus den Werten von Merkmalen besteht, die die Eigenschaften der untersuchten Stichprobe von Beobachtungen beschreiben. In diesem Zusammenhang wird eine Beobachtung als separate Zeile aufgezeichnet, die aus den Werten der verwendeten Merkmale besteht. Ein separates Attribut in einer solchen Datenmatrix wird durch eine Spalte dargestellt, die aus den Werten dieses Attributs für alle Objekte in der Stichprobe besteht.

2. 2 ABSTAND ZWISCHEN OBJEKTEN (METRISCH)

Lassen Sie uns das Konzept des "Abstands zwischen Objekten" einführen. Dieses Konzept ist ein integrales Maß für die Ähnlichkeit von Objekten untereinander. Der Abstand zwischen Objekten im Merkmalsraum ist ein solcher Wert d ij , der die folgenden Axiome erfüllt:

1. d ij > 0 (Nicht-Negativität des Abstands)

2. d ij = d ji (Symmetrie)

3. d ij + d jk > d ik (Dreiecksungleichung)

4. Wenn d ij ungleich 0 ist, dann ist i ungleich j (Unterscheidbarkeit nicht identischer Objekte)

5. Wenn d ij = 0, dann i = j (Ununterscheidbarkeit identischer Objekte)

Es ist zweckmäßig, das Maß der Nähe (Ähnlichkeit) von Objekten als darzustellen wechselseitigüber den Abstand zwischen Objekten. Zahlreiche Veröffentlichungen zur Clusteranalyse beschreiben mehr als 50 verschiedene Methoden zur Berechnung der Entfernung zwischen Objekten. Neben dem Begriff „Entfernung“ findet sich in der Literatur häufig ein weiterer Begriff – „metrisch“, der eine Methode zur Berechnung einer bestimmten Entfernung impliziert. Am zugänglichsten für die Wahrnehmung und das Verständnis bei quantitativen Merkmalen ist die sogenannte „Euklidische Distanz“ oder „Euklidische Metrik“. Die Formel zur Berechnung dieser Entfernung lautet:

Diese Formel verwendet die folgende Notation:

· d ij – Abstand zwischen i-ten und j-ten Objekten;

· x ik - Numerischer Wert der k-ten Variablen für das i-te Objekt;

· x jk - Numerischer Wert der k-ten Variablen für das j-te Objekt;

· v – die Anzahl der Variablen, die Objekte beschreiben.

Somit ist für den Fall v = 2, wenn wir nur zwei quantitative Merkmale haben, der Abstand d ij gleich der Länge der Hypotenuse eines rechtwinkligen Dreiecks, das zwei Punkte in einem rechtwinkligen Koordinatensystem verbindet. Diese beiden Punkte entsprechen den i-ten und j-ten Beobachtungen der Probe. Oft wird statt der üblichen euklidischen Distanz ihr Quadrat d 2 ij verwendet. Zusätzlich wird teilweise eine „gewichtete“ euklidische Distanz verwendet, bei deren Berechnung Gewichtungskoeffizienten für einzelne Terme verwendet werden. Um das Konzept der euklidischen Metrik zu veranschaulichen, verwenden wir ein einfaches Trainingsbeispiel. Die in der folgenden Tabelle dargestellte Datenmatrix besteht aus 5 Beobachtungen und zwei Variablen.

Tabelle 1

Datenmatrix von fünf beobachteten Stichproben und zwei Variablen.

Unter Verwendung der euklidischen Metrik berechnen wir die Matrix der Interobjekt-Abstände, bestehend aus den Werten d ij - dem Abstand zwischen dem i-ten und dem j-ten Objekt. In unserem Fall sind i und j die Nummer des Objekts Beobachtung. Da die Stichprobengröße 5 ist, können i bzw. j Werte von 1 bis 5 annehmen. Es ist auch offensichtlich, dass die Anzahl aller möglichen paarweisen Abstände 5*5=25 sein wird. Tatsächlich sind dies für das erste Objekt die folgenden Entfernungen: 1-1; 1-2; 1-3; 1-4; 1-5. Für Objekt 2 gibt es ebenfalls 5 mögliche Entfernungen: 2-1; 2-2; 2-3; 2-4; 2-5 usw. Allerdings die Nummer unterschiedliche Distanzen kleiner als 25 sein, da die Eigenschaft der Ununterscheidbarkeit identischer Objekte berücksichtigt werden muss - d ij = 0 für i = j. Das bedeutet, dass der Abstand zwischen Objekt Nr. 1 und demselben Objekt Nr. 1 Null ist. Dieselben Nullabstände gelten für alle anderen Fälle i = j. Außerdem folgt aus der Symmetrieeigenschaft, dass d ij = d ji für beliebige i und j. Diese. der Abstand zwischen den Objekten Nr. 1 und Nr. 2 ist gleich dem Abstand zwischen den Objekten Nr. 2 und Nr. 1.

Der Ausdruck für den Euklidischen Abstand ist dem sogenannten verallgemeinerten Minkowski-Potenzabstand sehr ähnlich, bei dem statt zweier Potenzen ein anderer Wert verwendet wird. Im allgemeinen Fall wird dieser Wert mit dem Symbol "p" bezeichnet.

Für p = 2 erhalten wir die übliche euklidische Distanz. Der Ausdruck für die verallgemeinerte Minkowski-Metrik hat also die Form:

Die Wahl eines bestimmten Wertes des Exponenten "p" trifft der Forscher selbst.

Ein Spezialfall der Minkowski-Distanz ist die sogenannte Manhattan-Distanz oder "Stadtblock-Distanz", die p = 1 entspricht:

Somit ist die Manhattan-Distanz die Summe der Module der Differenzen der entsprechenden Merkmale der Objekte. Wenn p gegen unendlich tendiert, erhalten wir die „Dominanz“-Metrik oder Sup-Metrik:

was auch als d ij = max| dargestellt werden kann xik - xjk |.

Die Minkowski-Metrik ist eigentlich eine große Familie von Metriken, einschließlich der beliebtesten Metriken. Es gibt jedoch Methoden zur Berechnung der Entfernung zwischen Objekten, die sich grundlegend von den Minkowski-Metriken unterscheiden. Die wichtigste davon ist die sogenannte Mahalanobis-Distanz, die ziemlich spezifische Eigenschaften hat. Ausdruck für diese Metrik:

Hier durch X ich und X j Spaltenvektoren von Variablenwerten für die i-ten und j-ten Objekte sind angegeben. Symbol T im Ausdruck (X ich - X j ) T bezeichnet die sogenannte Vektortranspositionsoperation. Symbol S die gemeinsame gruppeninterne Varianz-Kovarianz-Matrix ist angegeben. Ein Symbol -1 Oben S bedeutet, dass Sie die Matrix invertieren müssen S . Im Gegensatz zur Minkowski-Metrik und der euklidischen Metrik ist die Mahalanobis-Distanz durch die Varianz-Kovarianz-Matrix S Korrelationen von Variablen zugeordnet. Wenn die Korrelationen zwischen Variablen null sind, entspricht die Mahalanobis-Distanz dem Quadrat der euklidischen Distanz.

Im Fall der Verwendung von dichotomen (nur zwei Werte aufweisenden) qualitativen Merkmalen wird die Hamming-Distanz weithin verwendet

gleich der Anzahl der Nichtübereinstimmungen in den Werten der entsprechenden Merkmale für die betrachteten i-ten und j-ten Objekte.

2. 3 DICHTE UND LOKALITÄT DER CLUSTER

Das Hauptziel der Clusteranalyse besteht darin, Gruppen ähnlicher Objekte in der Stichprobe zu finden. Nehmen wir an, dass wir durch einige der möglichen Methoden solche Gruppen erhalten haben - Cluster. Wichtige Eigenschaften von Clustern sollten beachtet werden. Eine dieser Eigenschaften ist die Verteilungsdichte von Punkten, Beobachtungen innerhalb eines Clusters. Diese Eigenschaft ermöglicht es uns, einen Cluster als einen Cluster von Punkten in einem mehrdimensionalen Raum zu definieren, der relativ dicht ist im Vergleich zu anderen Regionen dieses Raums, die entweder überhaupt keine Punkte oder nur eine kleine Anzahl von Beobachtungen enthalten. Mit anderen Worten, wie kompakt dieser Cluster ist oder umgekehrt, wie spärlich er ist. Trotz ausreichender Beweise für diese Eigenschaft gibt es keine eindeutige Methode zur Berechnung eines solchen Indikators (Dichte). Der erfolgreichste Indikator, der die Kompaktheit, die "Packungsdichte" mehrdimensionaler Beobachtungen in einem gegebenen Cluster charakterisiert, ist die Streuung der Entfernung vom Zentrum des Clusters zu einzelnen Punkten des Clusters. Je kleiner die Streuung dieser Entfernung ist, je näher die Beobachtungen am Zentrum des Clusters liegen, desto größer ist die Dichte des Clusters. Und umgekehrt, je größer die Entfernungsstreuung ist, desto spärlicher ist dieser Cluster, und folglich gibt es Punkte, die sich sowohl in der Nähe des Zentrums des Clusters als auch ziemlich weit entfernt vom Zentrum des Clusters befinden.

Die nächste Eigenschaft von Clustern ist ihre Größe. Der Hauptindikator für die Größe eines Clusters ist sein "Radius". Diese Eigenschaft gibt die tatsächliche Clustergröße am vollständigsten wieder, wenn der betrachtete Cluster rund und hyperkugelförmig im mehrdimensionalen Raum ist. Wenn die Cluster jedoch längliche Formen haben, spiegelt das Konzept von Radius oder Durchmesser nicht mehr die wahre Größe des Clusters wider.

Eine weitere wichtige Eigenschaft eines Clusters ist ihre Lokalität, Trennbarkeit. Es charakterisiert den Grad der Überlappung und gegenseitigen Entfernung von Clustern voneinander in einem mehrdimensionalen Raum. Betrachten Sie beispielsweise die Verteilung von drei Clustern im Bereich neuer, integrierter Funktionen in der folgenden Abbildung. Die Achsen 1 und 2 wurden durch ein spezielles Verfahren aus 12 Merkmalen der Reflexionseigenschaften verschiedener Formen von Erythrozyten erhalten, die unter Verwendung von Elektronenmikroskopie untersucht wurden.

Bild 1

Wir sehen, dass Cluster 1 die minimale Größe hat, während Cluster 2 und 3 ungefähr gleich groß sind. Gleichzeitig können wir sagen, dass die minimale Dichte und damit die maximale Entfernungsstreuung charakteristisch für Cluster 3 ist. Außerdem ist Cluster 1 durch ausreichend große Leerraumabschnitte sowohl von Cluster 2 als auch von Cluster 3 getrennt. Während Cluster 2 und 3 überlappen sich teilweise. Interessant ist auch, dass sich Cluster 1 von den Clustern 2 und 3 entlang der Achse 1 deutlich stärker unterscheidet als entlang der Achse 2. Im Gegensatz dazu unterscheiden sich die Cluster 2 und 3 sowohl entlang der Achse 1 als auch entlang der Achse 2 etwa gleich voneinander. Es ist offensichtlich, dass es für eine solche visuelle Analyse notwendig ist, alle Beobachtungen der Probe auf spezielle Achsen projiziert zu haben, in denen die Projektionen von Clusterelementen als separate Cluster sichtbar sind.

2. 4 ABSTAND ZWISCHEN CLUSTER

Im weiteren Sinne können Objekte nicht nur als ursprünglicher Forschungsgegenstand, dargestellt in der „Objekt-Eigenschaft“-Matrix als separate Linie oder als einzelne Punkte in einem mehrdimensionalen Merkmalsraum, sondern auch als separate Gruppen solcher Punkte verstanden werden , vereint durch den einen oder anderen Algorithmus zu einem Cluster. In diesem Fall stellt sich die Frage, wie man den Abstand zwischen solchen Ansammlungen von Punkten (Clustern) versteht und wie man ihn berechnet. Dabei ist die Vielfalt der Möglichkeiten noch größer als bei der Berechnung der Distanz zwischen zwei Beobachtungen in einem mehrdimensionalen Raum. Dieses Verfahren wird dadurch erschwert, dass Cluster im Gegensatz zu Punkten einen bestimmten mehrdimensionalen Raum einnehmen und aus vielen Punkten bestehen. In der Clusteranalyse werden häufig Abstände zwischen Clustern verwendet, die nach dem Prinzip des nächsten Nachbarn (nächster Nachbar), Schwerpunkt, entferntester Nachbar, Mediane berechnet werden. Am weitesten verbreitet sind vier Methoden: Single-Link, Full-Link, Average-Link und Ward-Methode. Bei der Single-Link-Methode wird ein Objekt an einen bereits bestehenden Cluster angehängt, wenn mindestens eines der Elemente des Clusters den gleichen Grad an Ähnlichkeit wie das zu verbindende Objekt aufweist. Bei der Methode der vollständigen Links wird ein Objekt nur dann an einen Cluster angehängt, wenn die Ähnlichkeit zwischen dem Kandidaten für die Aufnahme und einem der Elemente des Clusters nicht kleiner als ein bestimmter Schwellenwert ist. Für die durchschnittliche Verbindungsmethode gibt es mehrere Modifikationen, die einen Kompromiss zwischen Einzel- und Vollverbindung darstellen. Sie berechnen den Mittelwert der Ähnlichkeit des Aufnahmekandidaten mit allen Objekten des bestehenden Clusters. Das Anhängen wird durchgeführt, wenn der gefundene durchschnittliche Ähnlichkeitswert einen bestimmten Schwellenwert erreicht oder überschreitet. Am gebräuchlichsten ist das arithmetische Mittel der Ähnlichkeit zwischen den Objekten des Clusters und dem Kandidaten für die Aufnahme in den Cluster.

Viele der Clustering-Verfahren unterscheiden sich dadurch voneinander, dass ihre Algorithmen bei jedem Schritt verschiedene Partitionierungsqualitätsfunktionale berechnen. Die beliebte Ward-Methode ist so konstruiert, dass die minimale Varianz der Intracluster-Abstände optimiert wird. Im ersten Schritt besteht jeder Cluster aus einem Objekt, wodurch die Streuung der Entfernungen innerhalb des Clusters gleich 0 ist. Gemäß diesem Verfahren werden diejenigen Objekte kombiniert, die das minimale Streuungsinkrement ergeben, wodurch dieses Verfahren tendiert um hypersphärische Haufen zu erzeugen.

Mehrere Versuche, Methoden der Clusteranalyse zu klassifizieren, führen zu Dutzenden oder sogar Hunderten verschiedener Klassen. Eine solche Vielfalt wird durch eine Vielzahl von Möglichkeiten zur Berechnung des Abstands zwischen einzelnen Beobachtungen, nicht weniger Methoden zur Berechnung des Abstands zwischen einzelnen Clustern im Prozess der Clusterbildung und verschiedene Schätzungen der Optimalität der endgültigen Clusterstruktur erzeugt.

Zwei Gruppen von Clusteranalysealgorithmen werden am häufigsten in populären Statistikpaketen verwendet: hierarchische agglomerative Methoden und iterative Gruppierungsmethoden.

3. GRUPPIERUNGSMETHODEN

3. 1 MERKMALE HIERARCHISCHER AGGLOMERATIONSMETHODEN

In agglomerativen hierarchischen Algorithmen, die häufiger in der realen biomedizinischen Forschung verwendet werden, werden zunächst alle Objekte (Beobachtungen) als separate, unabhängige Cluster betrachtet, die nur aus einem Element bestehen. Ohne den Einsatz leistungsfähiger Computertechnik ist die Durchführung der Clusterdatenanalyse sehr problematisch.

Die Auswahl der Metrik erfolgt durch den Forscher. Nach der Berechnung der Abstandsmatrix beginnt der Prozess Agglomerationen (vom lateinischen agglomero - ich hänge an, häufe mich an) und gehe Schritt für Schritt nacheinander vor. Im ersten Schritt dieses Prozesses werden zwei anfängliche Beobachtungen (Monocluster) mit dem geringsten Abstand zueinander zu einem Cluster zusammengefasst, der bereits aus zwei Objekten (Beobachtungen) besteht. Anstelle der bisherigen N Monocluster (Cluster bestehend aus einem Objekt) gibt es also nach dem ersten Schritt N-1 Cluster, von denen ein Cluster zwei Objekte (Beobachtungen) enthält, und weiterhin N-2 Cluster nur ein Objekt. Im zweiten Schritt sind verschiedene Verfahren zum Kombinieren von N-2-Clustern möglich. Denn einer dieser Cluster enthält bereits zwei Objekte. Aus diesem Grund stellen sich zwei Hauptfragen:

· wie man die Koordinaten eines solchen Clusters aus zwei (und mehr als zwei) Objekten berechnet;

· wie man den Abstand zu solchen "Poly-Objekt"-Clustern von "Monoclustern" und zwischen "Poly-Objekt"-Clustern berechnet.

Diese Fragen bestimmen letztendlich die endgültige Struktur der endgültigen Cluster (die Struktur von Clustern bedeutet die Zusammensetzung einzelner Cluster und ihre relative Position in einem mehrdimensionalen Raum). Verschiedene Kombinationen von Metriken und Methoden zur Berechnung der Koordinaten und gegenseitigen Abstände von Clustern ergeben die Vielfalt der Methoden der Clusteranalyse. Im zweiten Schritt ist es je nach gewählter Methode zur Berechnung der Koordinaten eines aus mehreren Objekten bestehenden Clusters und der Methode zur Berechnung der Intercluster-Abstände möglich, entweder zwei getrennte Beobachtungen zu einem neuen Cluster wieder zusammenzufassen oder neu zu verbinden Beobachtung zu einem Cluster, der aus zwei Objekten besteht. Der Einfachheit halber können die meisten Programme agglomerativ-hierarchischer Methoden am Ende der Arbeit zwei Hauptdiagramme zur Anzeige bereitstellen. Das erste Diagramm wird als Dendrogramm bezeichnet (vom griechischen Dendron - Baum), das den Prozess der Agglomeration widerspiegelt, das Zusammenführen einzelner Beobachtungen zu einem einzigen endgültigen Cluster. Lassen Sie uns ein Beispiel für ein Dendrogramm von 5 Beobachtungen in zwei Variablen geben.

Zeitlicher Ablauf1

Die vertikale Achse eines solchen Diagramms ist die Achse des Intercluster-Abstands, und die Anzahl der Objekte – in der Analyse verwendete Fälle – sind entlang der horizontalen Achse markiert. Aus diesem Dendrogramm ist ersichtlich, dass die Objekte Nr. 1 und Nr. 2 zunächst zu einem Cluster zusammengefasst werden, da der Abstand zwischen ihnen am kleinsten ist und gleich 1 ist. Diese Verschmelzung wird im Diagramm durch eine horizontale Linie angezeigt, die kommende vertikale Segmente verbindet aus den als C_1 und C_2 markierten Punkten. Achten wir darauf, dass die horizontale Linie selbst genau auf der Höhe des Intercluster-Abstands von 1 verläuft. Außerdem tritt im zweiten Schritt Objekt Nr. 3, bezeichnet als C_3, diesem Cluster bei, der bereits zwei Objekte umfasst. Der nächste Schritt besteht darin, die Objekte Nr. 4 und Nr. 5 zusammenzuführen, deren Abstand 1,41 beträgt. Und im letzten Schritt wird der Cluster der Objekte 1, 2 und 3 mit dem Cluster der Objekte 4 und 5 kombiniert. Die Grafik zeigt, dass der Abstand zwischen diesen beiden vorletzten Clustern (der letzte Cluster umfasst alle 5 Objekte) größer als 5 ist , aber weniger als 6, da die obere horizontale Linie, die die beiden vorletzten Cluster verbindet, auf einem Niveau verläuft, das ungefähr gleich 7 ist, und das Verbindungsniveau der Objekte 4 und 5 1,41 beträgt.

Das folgende Dendrogramm wurde durch die Analyse eines echten Datensatzes erhalten, der aus 70 verarbeiteten Daten bestand chemische Proben, die jeweils durch 12 Merkmale gekennzeichnet waren.

Diagramm 2

Aus dem Diagramm ist ersichtlich, dass im letzten Schritt, wenn die letzten beiden Cluster zusammengeführt werden, der Abstand zwischen ihnen etwa 200 Einheiten beträgt. Es ist zu sehen, dass der erste Cluster viel weniger Objekte enthält als der zweite Cluster. Unten ist ein vergrößerter Ausschnitt des Dendrogramms, auf dem die Beobachtungsnummern deutlich sichtbar sind, bezeichnet als C_65, C_58 usw. (von links nach rechts): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 usw.

Diagramm 3 Vergrößerter Teil des Diagramms Nr. 2 oben

Es ist ersichtlich, dass das Objekt 44 ein Monocluster ist, der sich im vorletzten Schritt mit dem rechten Cluster verbindet, und dann im letzten Schritt alle Beobachtungen zu einem Cluster kombiniert werden.

Ein weiterer Graph, der in solche Prozeduren eingebaut wird, ist ein Graph der Intercluster-Abstände bei jedem Schritt der Vereinigung. Unten ist ein ähnliches Diagramm für das obige Dendrogramm.

Diagramm 4

In einer Reihe von Programmen ist es möglich, die Ergebnisse der Kombination von Objekten in jedem Clustering-Schritt in tabellarischer Form anzuzeigen. In den meisten dieser Tabellen wird zur Vermeidung von Verwirrung eine andere Terminologie verwendet, um die anfänglichen Beobachtungen zu bezeichnen - Monocluster und die tatsächlichen Cluster, die aus zwei oder mehr Beobachtungen bestehen. In englischsprachigen Statistikpaketen werden die Erstbeobachtungen (Zeilen der Datenmatrix) als „case“ – case bezeichnet. Um die Abhängigkeit der Clusterstruktur von der Wahl der Metrik und der Wahl des Cluster-Union-Algorithmus zu demonstrieren, präsentieren wir im Folgenden ein Dendrogramm, das dem Full-Connection-Algorithmus entspricht. Und hier sehen wir, dass Objekt Nr. 44 im allerletzten Schritt mit dem Rest der Auswahl zusammengeführt wird.

Diagramm 5

Vergleichen wir es nun mit einem anderen Diagramm, das mit der Single-Link-Methode für dieselben Daten erstellt wurde. Im Gegensatz zum vollständigen Verbindungsverfahren ist ersichtlich, dass dieses Verfahren lange Ketten von sequentiell aneinander angefügten Objekten erzeugt. In allen drei Fällen können wir jedoch sagen, dass zwei Hauptgruppen auffallen.

Diagramm 6

Achten wir auch darauf, dass Objekt Nr. 44 in allen drei Fällen als Monocluster beitritt, wenn auch in unterschiedlichen Schritten des Clustering-Prozesses. Die Auswahl solcher Monocluster ist ein gutes Mittel, um anomale Beobachtungen, sogenannte Ausreißer, zu erkennen. Lassen Sie uns dieses "verdächtige" Objekt Nr. 44 löschen und erneut Clustering durchführen. Wir erhalten das folgende Dendrogramm:

Diagramm 7

Es ist ersichtlich, dass der "Ketten"-Effekt erhalten bleibt, ebenso wie die Aufteilung in zwei lokale Gruppen von Beobachtungen.

3. 2 MERKMALE VON ITERATIVEN CLUSTERING-METHODEN

Unter den iterativen Methoden ist die k-Means-Methode von McKean die beliebteste Methode. Im Gegensatz zu hierarchischen Verfahren muss bei den meisten Implementierungen dieses Verfahrens der Benutzer selbst die gewünschte Anzahl von endgültigen Clustern angeben, die üblicherweise als "k" bezeichnet wird. Wie bei hierarchischen Clustering-Methoden kann der Benutzer den einen oder anderen Metriktyp auswählen. Verschiedene Algorithmen der k-Means-Methode unterscheiden sich auch in der Art und Weise, wie die Anfangszentren der gegebenen Cluster gewählt werden. In einigen Versionen des Verfahrens kann (oder muss) der Benutzer selbst solche Anfangspunkte angeben, indem er sie entweder aus realen Beobachtungen auswählt oder indem er die Koordinaten dieser Punkte für jede der Variablen angibt. Bei anderen Implementierungen dieses Verfahrens erfolgt die Auswahl einer gegebenen Anzahl k von Anfangspunkten zufällig, und diese Anfangspunkte (Cluster-Körner) können anschließend in mehreren Stufen verfeinert werden. Es gibt 4 Hauptphasen solcher Methoden:

· k Beobachtungen auswählen oder zuweisen, die die primären Zentren der Cluster sein werden;

· ggf. werden Zwischencluster gebildet, indem jede Beobachtung den nächstgelegenen spezifizierten Clusterzentren zugeordnet wird;

· nach Zuordnung aller Beobachtungen zu einzelnen Clustern werden die primären Clusterzentren durch Clustermittelwerte ersetzt;

· die vorherige Iteration wird wiederholt, bis die Änderungen in den Koordinaten der Clusterzentren minimal werden.

In einigen Versionen dieses Verfahrens kann der Benutzer einen numerischen Wert des Kriteriums festlegen, der als Mindestabstand für die Auswahl neuer Clusterzentren interpretiert wird. Beobachtung wird nicht als Kandidat für berücksichtigt neues Zentrum Cluster, wenn sein Abstand zum ersetzten Mittelpunkt des Clusters die angegebene Zahl überschreitet. Dieser Parameter wird in manchen Programmen "Radius" genannt. Neben diesem Parameter kann auch die maximale Anzahl der Iterationen eingestellt werden oder eine bestimmte, meist recht kleine Zahl erreicht werden, mit der die Abstandsänderung für alle Clusterzentren verglichen wird. Diese Einstellung wird allgemein als "Konvergenz" bezeichnet, weil spiegelt die Konvergenz des iterativen Clustering-Prozesses wider. Im Folgenden präsentieren wir einige der Ergebnisse, die unter Verwendung der McKean-k-Means-Methode zu den vorherigen Daten erhalten wurden. Die Anzahl der gewünschten Cluster wurde zunächst auf 3 und dann auf 2 festgelegt. Ihr erster Teil enthält die Ergebnisse eines Einfaktors Varianzanalyse, bei der die Clusternummer als Gruppierungsfaktor fungiert. Die erste Spalte ist eine Liste von 12 Variablen, gefolgt von Quadratsummen (SS) und Freiheitsgraden (df), dann Fishers F-Test und in der letzten Spalte das erreichte Signifikanzniveau „p“.

Tabelle 2 McKean-k-Means-Daten, anwendbar auf 70 Testproben.

Variablen

Wie aus dieser Tabelle ersichtlich ist, wird die Nullhypothese über die Gleichheit der Mittelwerte in den drei Gruppen verworfen. Unten ist ein Diagramm der Mittelwerte aller Variablen für einzelne Cluster. Die gleichen Cluster-Mittelwerte der Variablen werden unten in Form einer Tabelle dargestellt.

Tabelle 3. Detaillierte Überprüfung der Daten am Beispiel von drei Clustern.

Variable

Cluster Nr. 1

Cluster Nr. 2

Cluster Nr. 3

Diagramm 8

Die Analyse der Durchschnittswerte der Variablen für jeden Cluster lässt den Schluss zu, dass die Cluster 1 und 3 gemäß dem X1-Merkmal ähnliche Werte haben, während Cluster 2 einen viel niedrigeren Durchschnittswert als die beiden anderen Cluster hat. Im Gegenteil, gemäß dem X2-Feature hat der erste Cluster den niedrigsten Wert, während der 2. und 3. Cluster höhere und nahe Durchschnittswerte haben. Für die Merkmale X3-X12 sind die Mittelwerte in Cluster 1 signifikant höher als in Cluster 2 und 3. Die folgende Tabelle der ANOVA-Analyse der Ergebnisse der Clusterung in zwei Cluster zeigt auch die Notwendigkeit, die Nullhypothese über die Gleichheit abzulehnen der Gruppenmittelwerte für fast alle 12 Merkmale, mit Ausnahme der Variable X4, für die sich herausstellte, dass das erreichte Signifikanzniveau mehr als 5 % betrug.

Tabelle 4. Tabelle der Dispersionsanalyse der Ergebnisse der Clusterung in zwei Cluster.

Variablen

Unten ist ein Diagramm und eine Tabelle der Gruppenmittelwerte für den Fall der Clusterung in zwei Cluster.

Tabelle 5. Tabelle für den Fall der Clusterbildung in zwei Cluster.

Variablen

Cluster Nr. 1

Cluster Nr. 2

Diagramm 9.

Falls der Forscher nicht in der Lage ist, die wahrscheinlichste Anzahl von Clustern im Voraus zu bestimmen, ist er gezwungen, die Berechnungen zu wiederholen und eine andere Anzahl festzulegen, ähnlich wie oben getan wurde. Wenn Sie dann die erzielten Ergebnisse miteinander vergleichen, halten Sie bei einer der akzeptabelsten Clustering-Optionen an.

4 . CLUSTERUNG VON FUNKTIONEN

Neben dem Clustering einzelner Beobachtungen gibt es auch Feature-Clustering-Algorithmen. Eine der ersten dieser Methoden ist die Korrelationsmethode der Plejaden Terentiev P.V. Primitive Bilder solcher Plejaden finden sich oft in biomedizinischen Publikationen in Form eines Kreises, der mit Pfeilen gesprenkelt ist, die Zeichen verbinden, für die die Autoren eine Korrelation gefunden haben. Eine Reihe von Programmen zum Clustern von Objekten und Features haben separate Prozeduren. Beispielsweise wird im SAS-Paket für Feature-Clustering die VARCLUS-Prozedur (von VARiable - Variable und CLUSter - Cluster) verwendet, während die Clusteranalyse von Beobachtungen von anderen Prozeduren durchgeführt wird - FASTCLUS und CLUSTER. Die Konstruktion eines Dendrogramms erfolgt in beiden Fällen unter Verwendung des TREE (Baum)-Verfahrens.

In anderen Statistikpaketen erfolgt die Auswahl der Elemente für das Clustering – Objekte oder Merkmale – im selben Modul. Als Metrik für Merkmals-Clustering werden häufig Ausdrücke verwendet, die den Wert bestimmter Koeffizienten enthalten, die die Stärke der Beziehung für ein Merkmalspaar widerspiegeln. In diesem Fall ist es für Zeichen mit einer Verbindungsstärke gleich eins (funktionale Abhängigkeit) sehr praktisch, den Abstand zwischen den Zeichen gleich Null zu nehmen. In der Tat kann bei einer funktionalen Verbindung der Wert eines Merkmals den Wert eines anderen Merkmals genau berechnen. Mit abnehmender Stärke der Beziehung zwischen den Zeichen nimmt der Abstand entsprechend zu. Unten ist ein Diagramm, das ein Dendrogramm der Kombination von 12 Merkmalen zeigt, die oben beim Clustern von 70 analytischen Proben verwendet wurden.

Grafik 10. DendrogrammClustering von 12 Merkmalen.

Wie aus diesem Dendrogramm ersichtlich ist, haben wir es mit zwei lokalen Gruppierungen von Merkmalen zu tun: X1–X10 und X11–X12.Die Gruppe von Merkmalen X1–X10 ist durch einen ziemlich kleinen Wert vonIntercluster-Abständen gekennzeichnet, die etwa 100 Einheiten nicht überschreiten. Hier sehen wir auch einige interne gepaarte Untergruppen: X1 und X2, X3 und X4, X6 und X7. Der Abstand zwischen den Merkmalen dieser Paare, der sehr nahe bei Null liegt, weist auf ihre starke Paarbeziehung hin. Während für das Paar X11 und X12 der Wert des Intercluster-Abstands viel größer ist und etwa 300 Einheiten beträgt. Schließlich zeigt ein sehr großer Abstand zwischen den linken (X1-X10) und rechten (X11-X12) Clustern, der etwa 1150 Einheiten entspricht, an, dass die Beziehung zwischen diesen beiden Gruppen von Merkmalen ziemlich minimal ist.

5. STABILITÄT UND QUALITÄT DER CLUSTERUNG

Offensichtlich wäre es absurd, die Frage aufzuwerfen, wie absolut diese oder jene mit Hilfe von Methoden der Clusteranalyse gewonnene Klassifizierung ist. Bei einem Wechsel des Clustering-Verfahrens äußert sich die Stabilität darin, dass auf den Dendrogrammen zwei Cluster recht deutlich sichtbar sind.

Als eine der möglichen Arten, die Stabilität der Ergebnisse der Clusteranalyse zu überprüfen, kann das Verfahren zum Vergleichen der für verschiedene Clustering-Algorithmen erhaltenen Ergebnisse verwendet werden. Andere Wege sind das von B. Efron 1977 vorgeschlagene sogenannte Bootstrap-Verfahren, das "Jackknife"- und das "Sliding Control"-Verfahren. Die einfachste Möglichkeit, die Stabilität einer Clusterlösung zu überprüfen, besteht darin, die Ausgangsprobe zufällig in zwei ungefähr gleiche Teile zu teilen, beide Teile zu clustern und dann die Ergebnisse zu vergleichen. Ein zeitaufwändigerer Weg beinhaltet das sequentielle Ausschließen des ersten Objekts am Anfang und das Clustering der verbleibenden (N - 1) Objekte. Ferner führt das sequentielle Ausführen dieses Verfahrens mit Ausnahme des zweiten, dritten usw. Objekten wird die Struktur aller N erhaltenen Cluster analysiert. Ein weiterer Algorithmus zum Prüfen der Stabilität umfasst die mehrfache Reproduktion, das Duplizieren der ursprünglichen Stichprobe von N Objekten, das anschließende Kombinieren aller duplizierten Stichproben zu einer großen Stichprobe (Pseudo-Allgemeinpopulation) und das zufällige Extrahieren einer neuen Stichprobe von N Objekten daraus. Danach wird diese Stichprobe geclustert, dann eine neue Zufallsstichprobe gezogen und erneut geclustert usw. Es ist auch ziemlich arbeitsintensiv.

Nicht weniger Probleme gibt es bei der Beurteilung der Clusterqualität. Es sind eine ganze Reihe von Algorithmen zur Optimierung von Clusterlösungen bekannt. In den 50er Jahren erschienen die ersten Arbeiten, die Formulierungen des Kriteriums zur Minimierung der Intracluster-Varianz und eines Algorithmus (vom k-Means-Typ) zum Finden der optimalen Lösung enthielten. 1963 Der Artikel von J. Ward stellte auch einen ähnlichen hierarchischen Optimierungsalgorithmus vor. Es gibt kein allgemeingültiges Kriterium zur Optimierung einer Clusterlösung. All dies macht es dem Forscher schwer, die optimale Lösung zu wählen. In einer solchen Situation auf die bestmögliche Weise Zu behaupten, dass die gefundene Clusterlösung in diesem Stadium der Studie optimal ist, ist nur die Konsistenz dieser Lösung mit den Schlussfolgerungen, die mit anderen Methoden der multivariaten Statistik erhalten wurden.

Zu Gunsten der Schlussfolgerung über die Optimalität des Clusterings gibt es auch positive Ergebnisse der Überprüfung der prädiktiven Momente der erhaltenen Lösung bereits an anderen Untersuchungsobjekten. Beim Einsatz hierarchischer Methoden der Clusteranalyse empfiehlt es sich, mehrere Graphen miteinander zu vergleichen inkrementelle Veränderung Intercluster-Abstand. In diesem Fall sollte der Option der Vorzug gegeben werden, bei der eine flache Linie eines solchen Inkrements vom ersten Schritt bis zu mehreren vorletzten Schritten mit einem starken vertikalen Anstieg in diesem Diagramm bei den letzten 1-2 Schritten der Clusterbildung beobachtet wird.

SCHLUSSFOLGERUNGEN

In meiner Arbeit habe ich versucht, nicht nur die Komplexität dieser Art von Analyse zu zeigen, sondern auch die optimalen Datenverarbeitungsmöglichkeiten, denn oft müssen für die Genauigkeit der Ergebnisse Dutzende bis Hunderte von Proben verwendet werden. Dieser Typ Analyse hilft, die Ergebnisse einzuordnen und zu verarbeiten. Nicht unwichtig halte ich auch die Akzeptanz von Computertechnologien bei dieser Analyse, die es ermöglichen, den Prozess der Ergebnisverarbeitung weniger zeitaufwändig zu gestalten und somit mehr Aufmerksamkeit auf die Korrektheit der Probenahme für die Analyse zu richten.

Beim Einsatz der Clusteranalyse gibt es solche Feinheiten und Details, die im Einzelfall auftreten und nicht sofort sichtbar sind. Beispielsweise kann die Rolle der Merkmalsskala minimal sein und in einigen Fällen dominant sein. In solchen Fällen ist es notwendig, Variablentransformationen zu verwenden. Dies ist besonders effektiv, wenn Methoden verwendet werden, die nichtlineare Merkmalstransformationen erzeugen, die im Allgemeinen das Gesamtniveau der Korrelationen zwischen Merkmalen erhöhen.

Noch spezifischer ist die Verwendung der Clusteranalyse in Bezug auf Objekte, die nur durch qualitative Merkmale beschrieben werden. In diesem Fall sind Methoden der vorläufigen Digitalisierung qualitativer Merkmale und Clusteranalysen mit neuen Merkmalen recht erfolgreich. In meiner Arbeit habe ich gezeigt, dass die Clusteranalyse sowohl bei ihrer Anwendung in ausreichend untersuchten Systemen als auch bei der Untersuchung von Systemen mit unbekannter Struktur viele neue und originelle Informationen liefert.

Es sollte auch beachtet werden, dass die Clusteranalyse in der Evolutionsforschung unverzichtbar geworden ist, da sie die Konstruktion von Stammbäumen ermöglicht, die Evolutionspfade zeigen. Diese Methoden werden häufig in Programmen verwendet wissenschaftliche Forschung in Physikalischer und Analytischer Chemie.

LITERATURVERZEICHNIS

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. Über die Struktur und den Inhalt des Softwarepakets für angewandte statistische Analyse//Algorithmic and Software angewandte statistische Analyse.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. Klassifikation mehrdimensionaler Beobachtungen.--M.: Statistics, 1974.

3) Becker V. A., Lukatskaya M. L. Zur Analyse der Struktur der Matrix der Kopplungskoeffizienten//Fragen der wirtschaftlichen und statistischen Modellierung und Prognose in der Industrie.-- Nowosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. Strukturelle Methoden Datenverarbeitung.--M.: Nauka, 1983.

5) Voronin Yu. A. Klassifikationstheorie und ihre Anwendungen. – Novosibirsk: Nauka, 1987.

6) Good I. J. Botryology of botryology//Classification and cluster.--M.: Mir, 1980.

7) Dubrovsky S. A. Angewandte multivariate statistische Analyse. – M.: Finanzen und Statistik, 1982.

8) Duran N., Odell P. Clusteranalyse. – M.: Statistics, 1977.

9) Eliseeva I.I., Rukavishnikov V.S. Gruppierung, Korrelation, Mustererkennung. – M.: Statistics, 1977.

10) Zagoruiko N. G. Erkennungsmethoden und ihre Anwendung.--M.: Soviet radio, 1972.

11) Zade L. A. Fuzzy-Sets und ihre Anwendung in der Mustererkennung und Clusteranalyse//Klassifizierung und Cluster.--M.: Mir, 1980.

12) Kildishev G. S., Abolentsev Yu. I. Multidimensional groupings.--M.: Statistics, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA Über eine Möglichkeit, die Gültigkeit der Partitionierung in der Clusteranalyse zu überprüfen.//Anwendung der multivariaten statistischen Analyse in der Wirtschafts- und Produktqualitätsbewertung.--Ch. P.Tartu, 1977.

14) Shurygin A. M. Verteilung von Zwischenpunktabständen und Differenzen // Software und algorithmische Unterstützung für angewandte mehrdimensionale statistische Analyse.--M., 1983.

15) Eeremaa R. Allgemeine Theorie zum Entwerfen von Clustersystemen und Algorithmen zum Auffinden ihrer numerischen Darstellungen: Proceedings of the Computing Center of TSU.--Tartu, 1978.

16) Yastremsky B. S. Selected Works.--M.: Statistics, 1964.

Ähnliche Dokumente

    Die Ziele der Marktsegmentierung in Marketing Aktivitäten. Die Essenz der Clusteranalyse, die Hauptphasen ihrer Umsetzung. Wählen Sie aus, wie das Distanz- oder Ähnlichkeitsmaß gemessen werden soll. Hierarchische, nicht-hierarchische Clustering-Methoden. Bewertung der Zuverlässigkeit und Zuverlässigkeit.

    Bericht, hinzugefügt am 02.11.2009

    Hauptmerkmale Finanzielle Situation Unternehmen. Krise im Unternehmen, ihre Ursachen, Arten und Folgen. Moderne Methoden und Cluster-Analyse-Tools, Merkmale ihrer Verwendung für die finanzielle und wirtschaftliche Bewertung des Unternehmens.

    Dissertation, hinzugefügt am 09.10.2013

    Führen Sie Clusteranalysen von Unternehmen mit Statgraphics Plus durch. Konstruktion einer linearen Regressionsgleichung. Berechnung von Elastizitätskoeffizienten durch Regressionsmodelle. Beurteilung der statistischen Signifikanz der Gleichung und des Bestimmtheitsmaßes.

    Aufgabe, hinzugefügt am 16.03.2014

    Konstruktion typologischer Regressionen für einzelne Beobachtungsgruppen. Räumliche Daten und zeitliche Informationen. Anwendungsbereich der Clusteranalyse. Das Konzept der Homogenität von Objekten, Eigenschaften der Abstandsmatrix. Durchführung einer typologischen Regression.

    Präsentation, hinzugefügt am 26.10.2013

    Erstellung von kombinierten Modellen und Methoden als moderner Weg Prognose. Ein ARIMA-basiertes Modell zur Beschreibung stationärer und instationärer Zeitreihen zur Lösung von Clustering-Problemen. Autoregressive AR-Modelle und Anwendung von Korrelogrammen.

    Präsentation, hinzugefügt am 01.05.2015

    Merkmale verschiedener Arten von Metriken. Nächste-Nachbar-Methode und ihre Verallgemeinerungen. Nächster-Nachbar-Algorithmus. Parzen-Fenstermethode. Verallgemeinerter metrischer Klassifikator. Das Problem der Auswahl einer Metrik. Manhattan und Euklidische Distanz. Kosinusmaß.

    Seminararbeit, hinzugefügt am 08.03.2015

    Merkmale der Bauindustrie der Region Krasnodar. Prognose der Entwicklung des Wohnungsbaus. Moderne Methoden und Werkzeuge der Clusteranalyse. Mehrdimensionale statistische Verfahren zur Diagnose der wirtschaftlichen Lage eines Unternehmens.

    Diplomarbeit, hinzugefügt am 20.07.2015

    Merkmale der Hypothekenvergabe am Beispiel des Gebiets Brjansk. Überprüfung mathematischer Entscheidungsmethoden: Expertenauswertungen, sequentielle und paarweise Vergleiche, Hierarchieanalyse. Entwicklung eines Suchprogramms für das optimale Hypothekendarlehen.

    Seminararbeit, hinzugefügt am 29.11.2012

    Anwendungsgebiete der Systemanalyse, ihre Stellung, Rolle, Ziele und Funktionen in moderne Wissenschaft. Konzept und Inhalt von Methoden der Systemanalyse, ihre informellen Methoden. Merkmale heuristischer und Expertenforschungsmethoden und Merkmale ihrer Anwendung.

    Seminararbeit, hinzugefügt am 20.05.2013

    Entwicklung und Erforschung ökonometrischer Methoden unter Berücksichtigung der Besonderheiten volkswirtschaftlicher Daten und bedarfsgerecht Wirtschaft und Praktiken. Anwendung ökonometrischer Methoden und Modelle zur statistischen Analyse von Wirtschaftsdaten.

Universität: VZFEI

Jahr und Stadt: Moskau 2008


1. Einleitung. Das Konzept der Clusteranalysemethode.

2. Beschreibung der Methodik zur Anwendung der Clusteranalyse. Kontrollbeispiel zur Problemlösung.

4. Liste der verwendeten Literatur

  1. Einführung. Das Konzept der Clusteranalysemethode.

Die Clusteranalyse ist eine Reihe von Methoden, die es ermöglichen, mehrdimensionale Beobachtungen zu klassifizieren, von denen jede durch eine Reihe von Merkmalen (Parametern) X1, X2, ..., Xk beschrieben wird.

Der Zweck der Clusteranalyse ist die Bildung von Gruppen von einander ähnlichen Objekten, die allgemein als Cluster (Klasse, Taxon, Konzentration) bezeichnet werden.

Die Clusteranalyse ist eines der Gebiete der statistischen Forschung. Sie nimmt einen besonders wichtigen Platz in jenen Wissenschaftszweigen ein, die mit der Erforschung von Massenphänomenen und -prozessen verbunden sind. Die Notwendigkeit, Methoden der Clusteranalyse und deren Einsatz zu entwickeln, ergibt sich aus der Tatsache, dass sie dabei helfen, wissenschaftlich fundierte Klassifikationen aufzubauen, zu identifizieren Interne Kommunikation zwischen Einheiten der beobachteten Grundgesamtheit. Darüber hinaus können Methoden der Clusteranalyse verwendet werden, um Informationen zu komprimieren, was angesichts einer ständigen Zunahme und Verkomplizierung statistischer Datenströme ein wichtiger Faktor ist.

Methoden der Clusteranalyse ermöglichen die Lösung folgender Probleme:

Durchführung der Klassifizierung von Objekten unter Berücksichtigung der Merkmale, die das Wesen und die Natur von Objekten widerspiegeln. Die Lösung eines solchen Problems führt in der Regel zu einer Vertiefung des Wissens über die Gesamtheit der zu klassifizierenden Objekte;

Überprüfung der Annahmen über das Vorhandensein einer Struktur in der untersuchten Menge von Objekten, d.h. Suche nach einer bestehenden Struktur;

Konstruktion neuer Klassifikationen für schlecht untersuchte Phänomene, wenn es notwendig ist, das Vorhandensein von Verbindungen innerhalb der Bevölkerung festzustellen und zu versuchen, ihr eine Struktur zu verleihen (1. S. 85-86).

2. Beschreibung der Methodik zur Anwendung der Clusteranalyse. Kontrollbeispiel zur Problemlösung.

Die Clusteranalyse ermöglicht es, aus n Objekten, die durch k Merkmale gekennzeichnet sind, eine Zerlegung in homogene Gruppen (Cluster) zu bilden. Die Homogenität von Objekten wird durch den Abstand p(xi xj) bestimmt, wobei xi = (xi1, …., xik) und xj= (xj1,…,xjk) Vektoren sind, die sich aus den Werten von k Attributen des i zusammensetzen -te bzw. j-te Objekte.

Bei Objekten, die durch numerische Merkmale gekennzeichnet sind, wird die Entfernung nach folgender Formel bestimmt:

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

Objekte gelten als homogen, wenn p(xi xj)< p предельного.

Eine grafische Darstellung der Vereinigung kann mit einem Cluster-Vereinigungsbaum - einem Dendrogramm - erhalten werden. (2. Kapitel 39).

Testfall (Beispiel 92).

Umsatzvolumen

Lassen Sie uns diese Objekte nach dem „Near Neighbor“-Prinzip klassifizieren. Finden wir die Abstände zwischen Objekten mit der Formel (1)* . Lassen Sie uns die Tabelle ausfüllen.

Lassen Sie uns erklären, wie die Tabelle gefüllt wird.

Am Schnittpunkt von Zeile i und Spalte j wird der Abstand p(xi xj) angegeben (das Ergebnis wird auf zwei Dezimalstellen aufgerundet).

Zum Beispiel wird am Schnittpunkt von Zeile 1 und Spalte 3 der Abstand p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5,10 angezeigt, und am Schnittpunkt von Zeile 3 und Spalte 5, der Abstand p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6,08. Da p(xi, xj) = p(xj,xi) ist, braucht der untere Teil der Tabelle nicht ausgefüllt zu werden.

Wenden wir das „Near Neighbor“-Prinzip an. Wir finden in der Tabelle die kleinsten Entfernungen (wenn es mehrere davon gibt, wählen wir eine davon). Dies ist p 1,2 ≈ p 4,5 \u003d 2,24. Sei p min = p 4,5 = 2,24. Dann können wir die Objekte 4 und 5 zu einer Gruppe zusammenfassen, das heißt, die kombinierte Spalte 4 und 5 enthält die kleinste der entsprechenden Nummern der Spalten 4 und 5 der ursprünglichen Entfernungstabelle. Dasselbe machen wir mit den Zeilen 4 und 5. Wir bekommen eine neue Tabelle.

In der resultierenden Tabelle finden wir den kleinsten der Abstände (wenn es mehrere gibt, wählen wir einen aus): ð min = ð 1,2 = 2,24. Dann können wir die Objekte 1,2,3 zu einer Gruppe zusammenfassen, das heißt, die kombinierte Spalte 1,2,3 enthält die kleinste der entsprechenden Nummern der Spalten 1 und 2 und 3 der vorherigen Entfernungstabelle. Wir machen dasselbe mit den Zeilen 1 und 2 und 3. Wir bekommen eine neue Tabelle.

Wir haben zwei Cluster: (1,2,3) und (4,5).

3. Lösen von Problemen für die Kontrollarbeit.

Aufgabe 85.

Bedingungen: Fünf Produktionsstätten zeichnen sich durch zwei Merkmale aus: Umsatzvolumen und durchschnittliche jährliche Anschaffungskosten des Anlagevermögens.

Umsatzvolumen

Durchschnittliche jährliche Kosten feste Produktionsanlagen

Lösung: Finden wir die Abstände zwischen Objekten mit der Formel (1)* (wir werden auf zwei Dezimalstellen runden):

p 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

p 1,2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3,61

p 1,3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5,83

p 2,2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

p 2,3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2,24

p 3,4 \u003d √ (7-12) 2 + (10-8) 2 ≈ 5,39

p 3,5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7,81

p 4,5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3,16

Basierend auf den Ergebnissen der Berechnungen füllen wir die Tabelle aus:

Wenden wir das Prinzip des nächsten Nachbarn an. Dazu finden wir in der Tabelle die kleinsten Entfernungen (wenn es mehrere davon gibt, wählen Sie eine davon aus). Dies ist p 2,3 = 2,24. Sei p min = p 2,3 = 2,24, dann können wir die Objekte der Spalten "2" und "3" kombinieren und auch die Zeilen der Objekte "2" und "3" kombinieren. In der neuen Tabelle tragen wir die kleinsten Werte aus der ursprünglichen Tabelle in die zusammengefassten Gruppen ein.

In der neuen Tabelle finden wir die kleinsten Entfernungen (wenn es mehrere gibt, wählen wir eine davon aus). Dies ist p 4,5 = 3,16. Sei p min = p 4,5 = 3,16, dann können wir die Objekte der Spalten "4" und "5" kombinieren und auch die Zeilen der Objekte "4" und "5" kombinieren. In der neuen Tabelle tragen wir die kleinsten Werte aus der ursprünglichen Tabelle in die zusammengefassten Gruppen ein.

In der neuen Tabelle finden wir die kleinsten Entfernungen (wenn es mehrere gibt, wählen wir eine davon aus). Dies sind p 1, 2 und 3 = 3,61. Sei p min = p 1, 2 und 3 = 3,61, dann können wir die Spaltenobjekte „1“ und „2 und 3“ zusammenführen und auch Zeilen zusammenführen. In der neuen Tabelle tragen wir die kleinsten Werte aus der ursprünglichen Tabelle in die zusammengefassten Gruppen ein.

Wir erhalten zwei Cluster: (1,2,3) und (4,5).

Das Dendrogramm zeigt die Reihenfolge der Auswahl der Elemente und die entsprechenden Mindestabstände pmin.

Antworten: Als Ergebnis der Clusteranalyse nach dem Prinzip des "nächsten Nachbarn" werden 2 Cluster von einander ähnlichen Objekten gebildet: (1,2,3) und (4,5).

Aufgabe 211.

Bedingungen: Fünf Produktionsstätten zeichnen sich durch zwei Merkmale aus: Umsatzvolumen und durchschnittlicher Jahreswert des Anlagevermögens.

Umsatzvolumen

Durchschnittliche jährliche Kosten der Produktionsanlagen

Klassifizieren Sie diese Objekte nach dem Prinzip des nächsten Nachbarn.

Lösung: Um das Problem zu lösen, präsentieren wir die Daten in der Originaltabelle. Lassen Sie uns die Abstände zwischen Objekten bestimmen. Wir klassifizieren Objekte nach dem „Nearest Neighbor“-Prinzip. Die Ergebnisse werden in Form eines Dendrogramms dargestellt.

Umsatzvolumen

Durchschnittliche jährliche Kosten der Produktionsanlagen

Mit Formel (1)* finden wir die Abstände zwischen Objekten:

p 1,1 = 0, p 1,2 = 6, p 1,3 = 8,60, p 1,4 = 6,32, p 1,5 = 6,71, p 2,2 = 0, p 2,3 = 7,07, p 2,4 = 2, p 2,5 = 3,32, p 3,3 = 0, p 3,4 = 5,10, p 3,5 = 4,12, p 4, 4=0, p4,5=1, p5,5=0.

Die Ergebnisse sind in der Tabelle dargestellt:

Der kleinste Wert der Abstände in der Tabelle ist p 4,5=1. Sei p min = p 4,5 = 1, dann können wir die Objekte der Spalten "4" und "5" kombinieren und auch die Zeilen der Objekte "4" und "5" kombinieren. In der neuen Tabelle tragen wir die kleinsten Werte aus der ursprünglichen Tabelle in die zusammengefassten Gruppen ein.

Der kleinste Wert der Abstände in der neuen Tabelle ist p 2, 4 und 5=2. Sei p min = p 2, 4 und 5=2, dann können wir die Objekte der Spalten "4 und 5" und "3" kombinieren und auch die Zeilen der Objekte "4 und 5" und "3" kombinieren. In der neuen Tabelle tragen wir die kleinsten Werte aus der Tabelle in die zusammengefassten Gruppen ein.

Der kleinste Wert der Abstände in der neuen Tabelle ist p 3,4,5=2. Sei p min = p 3,4,5=2, dann können wir die Objekte der Spalten "3,4,5" und "2" kombinieren und auch die Reihen der Objekte "3,4,5" und " 2". In der neuen Tabelle tragen wir die kleinsten Werte aus der Tabelle in die zusammengefassten Gruppen ein.

oder melden Sie sich auf der Website an.

Wichtig! Alle hier vorgestellten Testarbeiten zum kostenlosen Download dienen der Planung bzw. Grundlage für die eigene wissenschaftliche Arbeit.

Freunde! Sie haben einzigartige Möglichkeit Helfen Sie Schülern wie Ihnen! Wenn unsere Seite Ihnen geholfen hat, zu finden der richtige Beruf, dann verstehen Sie sicherlich, wie die Arbeit, die Sie hinzugefügt haben, die Arbeit anderer erleichtern kann.

Wenn die Kontrolle Ihrer Meinung nach funktioniert, Schlechte Qualität, oder Sie haben diese Arbeit bereits kennengelernt, lassen Sie es uns wissen.

Siehe CLUSTERANALYSE. Antinazi. Enzyklopädie der Soziologie, 2009 ... Enzyklopädie der Soziologie

Clusteranalyse- Dies ist eine Reihe von Methoden, mit denen Sie mehrdimensionale Beobachtungen klassifizieren können, von denen jede durch einen bestimmten Satz von Variablen beschrieben wird. Der Zweck der Clusteranalyse ist die Bildung von Gruppen von einander ähnlichen Objekten, die allgemein als ... ... bezeichnet werden. Soziologisches Wörterbuch Socium

Clusteranalyse- ein mathematisches Verfahren zur multidimensionalen Analyse, das es ermöglicht, auf der Grundlage einer Reihe von Indikatoren, die eine Reihe von Objekten (z. B. Subjekten) charakterisieren, diese in Klassen (Cluster) zu gruppieren, so dass die in einer Klasse enthaltenen Objekte mehr sind. .. ... Große psychologische Enzyklopädie

Clusteranalyse- ein mathematisches Verfahren, das es ermöglicht, basierend auf der Ähnlichkeit der quantitativen Werte mehrerer Merkmale, die für jedes Objekt (z. B. das Subjekt) einer beliebigen Menge charakteristisch sind, diese Objekte in bestimmte Klassen oder Cluster zu gruppieren. ... . .. Psychologisches Wörterbuch

Clusteranalyse- - [L. G. Sumenko. Englisch-Russisches Wörterbuch der Informationstechnologien. M.: GP TsNIIS, 2003.] Themen Informationstechnologie allgemein EN Clusteranalyse … Handbuch für technische Übersetzer

Clusteranalyse- * Clusteranalyse * Clusteranalyse oder Datenclustering ist ein multivariates statistisches Verfahren, das Daten sammelt, die Informationen über eine Auswahl von Objekten enthalten, und dann Objekte in relativ homogene Gruppen von Clustern (Q… … Genetik. Enzyklopädisches Wörterbuch

Clusteranalyse- Ist es wünschenswert, diesen Artikel in Mathematik zu verbessern?: Setzen Sie Fußnoten, machen Sie genauere Angaben zu den Quellen. Korrigieren Sie den Artikel nach den Stilregeln von Wikipedia. Recycling von ... Wikipedia

CLUSTERANALYSE- - ein mathematisches Verfahren zur mehrdimensionalen Analyse, das es erlaubt, auf der Grundlage einer Reihe von Indikatoren, die eine Anzahl von Objekten (zB Subjekten) charakterisieren, diese in Klassen (Cluster) zu gruppieren, so dass die Objekte in einer Klasse enthalten sind mehr ... ... Enzyklopädisches Wörterbuch der Psychologie und Pädagogik

CLUSTERANALYSE - Gemeinsamen Namen für verschiedene mathematische Methoden zur Bestimmung der Tiefenstruktur in komplexen Daten. Die Clusteranalyse ähnelt in vielerlei Hinsicht der Faktorenanalyse. Beide beinhalten die Suche nach einheitlichen Elementen (Faktoren oder Clustern), die ... ... Erklärendes Wörterbuch der Psychologie

CLUSTERANALYSE- (Cluster-Analyse) eine Technik zur Identifizierung von Gruppen von Objekten oder Personen, die relative Unterschiede in einem Datensatz aufweisen können. Dann werden die Eigenschaften solcher Menschen innerhalb jeder Gruppe untersucht. In der Marktforschung, ... ... Großes erklärendes soziologisches Wörterbuch

CLUSTERANALYSE- (CLUSTER-ANALYSE) Eine Gruppe statistischer Techniken, die verwendet werden, um die interne Struktur von Daten bei der Analyse von Forschungsinformationen in Bezug auf mehrere Variablen zu bestimmen. Der Zweck der Clusteranalyse besteht darin, Gruppen von Objekten zu identifizieren ... ... Soziologisches Wörterbuch

Dieses Buch widmet sich nur einem der vielversprechendsten Ansätze zur Analyse multidimensionaler Prozesse und Phänomene in diesem Sinne – der Clusteranalyse.

Die Clusteranalyse ist eine Möglichkeit, mehrdimensionale Objekte zu gruppieren, basierend auf der Präsentation der Ergebnisse einzelner Beobachtungen durch Punkte eines geeigneten geometrischen Raums, gefolgt von der Auswahl von Gruppen als "Klumpen" dieser Punkte. Eigentlich ist das "Cluster" (Cluster) in Englische Sprache und bedeutet „Klumpen“, „Weintrauben“, „Sternhaufen“ usw. Dieser Begriff passt ungewöhnlich gut in die wissenschaftliche Terminologie, da seine erste Silbe dem traditionellen Begriff „Klasse“ entspricht und die zweite, gleichsam auf seinen künstlichen Ursprung hin. Wir haben keinen Zweifel daran, dass die Terminologie der Clusteranalyse alle bisher für diesen Zweck verwendeten Konstrukte (unüberwachte Mustererkennung, Schichtung, Taxonomie, automatische Klassifizierung usw.) ersetzen wird. Die potenziellen Möglichkeiten der Clusteranalyse liegen auf der Hand, um beispielsweise die Probleme zu lösen, Gruppen von Unternehmen zu identifizieren, die unter ähnlichen Bedingungen oder mit ähnlichen Ergebnissen arbeiten, homogene Gruppen der Bevölkerung in verschiedenen Aspekten des Lebens oder des Lebensstils im Allgemeinen usw.

Als wissenschaftliche Richtung hat sich die Clusteranalyse Mitte der 60er Jahre deklariert und entwickelt sich seither rasant zu einem der Zweige des intensivsten Wachstums der statistischen Wissenschaft. Es genügt zu sagen, dass nur die Anzahl der bisher in verschiedenen Ländern veröffentlichten Monographien zur Clusteranalyse in Hunderten gemessen wird (während beispielsweise nach einer so „verdienten“ Methode der multivariaten statistischen Analyse wie Faktorenanalyse, es ist kaum möglich, mehrere Dutzend Bücher zu zählen). Und das ist durchaus verständlich. Schließlich sprechen wir eigentlich über die Modellierung der Gruppierungsoperation, einer der wichtigsten nicht nur in der Statistik, sondern überhaupt - sowohl in der Kognition als auch in der Entscheidungsfindung.

In unserem Land wurde eine Reihe von Monographien veröffentlicht, die sich mit der Untersuchung spezifischer sozioökonomischer Probleme unter Verwendung der Clusteranalyse (1), der Methodik für den Einsatz der Clusteranalyse in der sozioökonomischen Forschung (2), der Methodik der Clusteranalyse als solcher ( 3) (Grundlagen der statistischen Analyse)

Das vorgeschlagene Buch von I. D. Mandel steht gewissermaßen senkrecht zu dieser Einteilung: Sein Inhalt ist jedem dieser drei Bereiche zugeordnet.

Ziel des Buches ist es, zusammenzufassen Der letzte Stand der Technik Clusteranalyse, analysieren die Möglichkeiten ihres Einsatzes und die Aufgaben der Weiterentwicklung. Diese Idee allein kann nur Respekt erregen: Eine unvoreingenommene Analyse und Verallgemeinerung erfordern viel Arbeit, Gelehrsamkeit, Mut und werden von der wissenschaftlichen Gemeinschaft viel niedriger bewertet als die Förderung und Entwicklung eigener Entwürfe. (Das Buch enthält jedoch auch die ursprünglichen Entwicklungen des Autors in Bezug auf die „intensionale“ Analyse und die Dualität von Klassifikationen.)

Mit der Verwirklichung dieses Ziels hängen sowohl die Vorzüge des Buches als auch seine Mängel zusammen. Zu den Vorteilen sollten gehören:

· methodische Auseinandersetzung mit den Begriffen Homogenität, Gruppierung und Klassifikation unter Berücksichtigung der Multidimensionalität von Phänomenen und Prozessen;

· eine systematische Überprüfung von Ansätzen und Methoden der Clusteranalyse (einschließlich bis zu 150 spezifischer Algorithmen);

· Vorstellung von Technik und Ergebnissen des experimentellen Vergleichs von Clusteranalyseverfahren; Dieses Buch widmet sich nur einem der vielversprechendsten Ansätze zur Analyse multidimensionaler Prozesse und Phänomene in diesem Sinne – der Clusteranalyse.

Die Clusteranalyse ist eine Möglichkeit, mehrdimensionale Objekte zu gruppieren, basierend auf der Präsentation der Ergebnisse einzelner Beobachtungen durch Punkte eines geeigneten geometrischen Raums, gefolgt von der Auswahl von Gruppen als "Klumpen" dieser Punkte. Eigentlich bedeutet „cluster“ (Cluster) im Englischen „Klumpen“, „Trauben (Trauben)“, „Cluster (Sterne)“ usw. Dieser Begriff passt ungewöhnlich gut in die wissenschaftliche Terminologie, da seine erste Silbe der traditionellen entspricht Begriff "Klasse", und der zweite weist sozusagen auf seinen künstlichen Ursprung hin. Wir haben keinen Zweifel daran, dass die Terminologie der Clusteranalyse alle bisher für diesen Zweck verwendeten Konstrukte (unüberwachte Mustererkennung, Schichtung, Taxonomie, automatische Klassifizierung usw.) ersetzen wird. Die potenziellen Möglichkeiten der Clusteranalyse liegen auf der Hand, um beispielsweise die Probleme zu lösen, Gruppen von Unternehmen zu identifizieren, die unter ähnlichen Bedingungen oder mit ähnlichen Ergebnissen arbeiten, homogene Gruppen der Bevölkerung in verschiedenen Aspekten des Lebens oder des Lebensstils im Allgemeinen usw.

Als wissenschaftliche Richtung hat sich die Clusteranalyse Mitte der 60er Jahre deklariert und entwickelt sich seither rasant zu einem der Zweige des intensivsten Wachstums der statistischen Wissenschaft. Es genügt zu sagen, dass nur eine Reihe von Monographien zur Clusteranalyse die Entwicklung allgemeine Schemata die Verwendung von Cluster-Analysemethoden, die in ziemlich anschaulichen Tabellen implementiert sind; Empfehlungscharakter der Präsentation.

Diese Vorzüge bestimmen die eigenständige Stellung des Buches von I. D. Mandel unter anderen Veröffentlichungen.

Die Mängel des Buches sind die Mehrdeutigkeit einiger Empfehlungen und das Fehlen einer systematischen Analyse der Probleme der Verwendung von Methoden der Clusteranalyse in fachlichen sozioökonomischen Anwendungen. Letzteres ist zwar auf den unzureichenden Einsatz der Clusteranalyse in diesem Bereich zurückzuführen.

Das Buch bietet ein Sprungbrett, dessen Nutzung den Fortschritt in der schwierigsten Frage jeder Theorie erleichtert - der praktischen Anwendung der bereitgestellten Werkzeuge.

B. G. Mirkin

Die Forschungsthemen reichen von der Analyse der Morphologie mumifizierter Nagetiere in Neuguinea über die Untersuchung der Ergebnisse der Abstimmung von US-Senatoren, von der Analyse der Verhaltensfunktionen gefrorener Schaben beim Auftauen bis hin zur Untersuchung der geografischen Verbreitung bestimmter Flechtenarten in Saskatchewan.

Diese Explosion von Veröffentlichungen hatte einen enormen Einfluss auf die Entwicklung und Anwendung der Clusteranalyse. Aber leider gibt es auch negative Seiten. Die schnelle Zunahme von Veröffentlichungen zur Clusteranalyse hat zur Bildung von Benutzergruppierungen und als Folge davon zur Schaffung von Fachsprache geführt, die nur von den Gruppierungen verwendet wird, die sie geschaffen haben (Blashfield und Aldenderfer, 1978; Blashfield, 1980).

Zur Jargonbildung der Fachwelt Sozialwissenschaften belegt, zum Beispiel durch die unterschiedliche Terminologie in Bezug auf Wards Methode. Die „Ward-Methode“ wird in der Literatur unterschiedlich bezeichnet. Mindestens vier weitere seiner Namen sind bekannt: "Minimum Variance Method", "Sum of Squared Error Method", "Hierarchical Grouping Minimizing" und "HGROUP". Die ersten beiden Namen beziehen sich einfach auf das Kriterium, dessen Optimum durch Wards Methode bestimmt wird, während der dritte sich auf die Summe der quadrierten Fehler bezieht, die eine monotone Spurtransformation der Matrix W, der Intragruppen-Kovarianzmatrix, ist. Schließlich ist der weit verbreitete Name "HGROUP" der Name eines beliebten Computer Programm, das die Ward-Methode implementiert (Veldman, 1967).

Die Bildung von Jargon behindert die Entwicklung interdisziplinärer Verbindungen, behindert effektiver Vergleich Methodik und Ergebnisse der Anwendung der Clusteranalyse in verschiedenen Wissenschaftsbereichen, führt zu unnötigem Aufwand (Neuerfindung derselben Algorithmen) und verschafft neuen Benutzern schließlich kein tiefes Verständnis der von ihnen gewählten Methoden (Blashfield und Aldenderfer, 1978 ). Beispielsweise verglich eine sozialwissenschaftliche Studie (Rogers und Linden, 1973) drei verschiedene Clustering-Methoden unter Verwendung derselben Daten. Sie nannten diese Methoden wie folgt: "hierarchisches Gruppieren", "hierarchisches Clustering oder HCG" und "Clusteranalyse". Und keiner dieser Namen war mit Clustering-Methoden vertraut. Ein unerfahrener Benutzer von Cluster-Analyseprogrammen wird durch all die existierenden Namen verwirrt und kann sie nicht mit anderen Beschreibungen von Clustering-Verfahren in Verbindung bringen. Erfahrene Benutzer werden sich in einer schwierigen Position befinden, wenn sie ihre Forschung mit ähnlichen Arbeiten vergleichen. Wir gehen vielleicht bis zum Äußersten, aber der Jargon ist ein ernsthaftes Problem.

In den letzten Jahren hat sich die Entwicklung der Clusteranalyse etwas verlangsamt, gemessen an der Anzahl der Publikationen und der Anzahl der Disziplinen, in denen diese Methode angewendet wird. Wir können das derzeit Psychologie, Soziologie, Biologie, Statistik und einiges sagen technische Disziplinen in die Konsolidierungsphase in Bezug auf die Clusteranalyse eintreten.

Die Zahl der Artikel, die die Vorzüge der Clusteranalyse loben, nimmt allmählich ab. Gleichzeitig gibt es immer mehr Arbeiten, in denen die Anwendbarkeit verschiedener Clustering-Verfahren auf die Kontrolldaten verglichen wird. In der Literatur wurde den Anwendungen mehr Aufmerksamkeit geschenkt. Viele Studien zielen darauf ab, praktische Maßnahmen zu entwickeln, um die Validität der mit der Clusteranalyse gewonnenen Ergebnisse zu testen. All dies zeugt von ernsthaften Versuchen, eine vernünftige statistische Theorie der Clustering-Methoden zu erstellen.


DIE KLINGEL

Es gibt diejenigen, die diese Nachricht vor Ihnen gelesen haben.
Abonnieren Sie, um die neuesten Artikel zu erhalten.
Email
Name
Familien-oder Nachname
Wie möchten Sie The Bell lesen?
Kein Spam