Clustering-Methode: Beschreibung, grundlegende Konzepte, Anwendungsfunktionen

Inhaltsverzeichnis:

Clustering-Methode: Beschreibung, grundlegende Konzepte, Anwendungsfunktionen
Clustering-Methode: Beschreibung, grundlegende Konzepte, Anwendungsfunktionen
Anonim

Die Clustering-Methode ist die Aufgabe, eine Menge von Objekten so zu gruppieren, dass sie in derselben Gruppe einander ähnlicher sind als Objekten in anderen Branchen. Es ist die Hauptaufgabe des Data Mining und eine allgemeine statistische Analysetechnik, die in vielen Bereichen verwendet wird, darunter maschinelles Lernen, Mustererkennung, Bilderkennung, Informationsabruf, Datenkomprimierung und Computergrafik.

Optimierungsproblem

mit der Clustering-Methode
mit der Clustering-Methode

Die Clustering-Methode selbst ist kein bestimmter Algorithmus, sondern eine allgemeine Aufgabe, die es zu lösen gilt. Dies kann mit verschiedenen Algorithmen erreicht werden, die sich erheblich darin unterscheiden, was eine Gruppe ausmacht und wie sie effizient gefunden werden kann. Die Verwendung des Clustering-Verfahrens zur Bildung von Metasubjekten schließt die Verwendung einer Gruppe mit einkleine Abstände zwischen Stäben, dichte Raumregionen, Intervalle oder bestimmte statistische Verteilungen. Daher kann Clustering als Optimierungsproblem mit mehreren Zielen formuliert werden.

Die geeigneten Methoden- und Parametereinstellungen (einschließlich Elemente wie die zu verwendende Abstandsfunktion, die Dichteschwelle oder die Anzahl der erwarteten Cluster) hängen vom individuellen Datensatz und der beabsichtigten Verwendung der Ergebnisse ab. Die Analyse als solche ist keine automatische Aufgabe, sondern ein iterativer Prozess der Wissensfindung oder der interaktiven Mehrzieloptimierung. Diese Clustering-Methode umfasst Trial-and-Error-Versuche. Oft ist es notwendig, Datenvorverarbeitung und Modellparameter zu modifizieren, bis das Ergebnis die gewünschten Eigenschaften erreicht.

Neben dem Begriff "Clustering" gibt es eine Reihe von Wörtern mit ähnlicher Bedeutung, darunter automatische Klassifikation, numerische Taxonomie, Bothryologie und typologische Analyse. Subtile Unterschiede liegen oft in der Verwendung der Clustering-Methode zur Bildung von Metasubjektbeziehungen. Während bei der Datenextraktion die resultierenden Gruppen von Interesse sind, ist es bei der automatischen Klassifikation bereits die Unterscheidungskraft, die diese Funktionen erfüllt.

Die Clusteranalyse basierte auf zahlreichen Arbeiten von Kroeber aus dem Jahr 1932. Es wurde 1938 von Zubin und 1939 von Robert Tryon in die Psychologie eingeführt. Und diese Arbeiten wurden von Cattell seit 1943 verwendet, um die Klassifizierung von Clustering-Methoden in der Theorie anzugeben.

Laufzeit

VerwendungszweckMethode
VerwendungszweckMethode

Der Begriff „Cluster“lässt sich nicht genau definieren. Dies ist einer der Gründe, warum es so viele Clustering-Methoden gibt. Es gibt einen gemeinsamen Nenner: eine Gruppe von Datenobjekten. Verschiedene Forscher verwenden jedoch unterschiedliche Modelle. Und jede dieser Verwendungen von Clustering-Methoden beinh altet unterschiedliche Daten. Das von verschiedenen Algorithmen gefundene Konzept unterscheidet sich deutlich in seinen Eigenschaften.

Die Verwendung der Clustering-Methode ist der Schlüssel zum Verständnis der Unterschiede zwischen den Anweisungen. Typische Clustermuster sind:

  • Schwerpunkt s. Dies ist beispielsweise der Fall, wenn k-Means-Clustering jeden Cluster mit einem Mittelwertvektor darstellt.
  • Konnektivitätsmodell s. Dies ist zum Beispiel das hierarchische Clustering, das Modelle basierend auf Distanzkonnektivität erstellt.
  • Verteilungsmodell s. In diesem Fall werden Cluster unter Verwendung der Clustering-Methode modelliert, um statistische Metasubjektverteilungen zu bilden. Wie die multivariate normale Trennung, die auf den Erwartungsmaximierungsalgorithmus anwendbar ist.
  • Dichtemodell s. Dies sind zum Beispiel DBSCAN (Spatial Clustering Algorithm with Noise) und OPTICS (Order Points for Structure Detection), die Cluster als zusammenhängende dichte Regionen im Datenraum definieren.
  • Subspace-Modell c. Beim Biclustering (auch bekannt als Co-Clustering oder zwei Modi) werden Gruppen mit beiden Elementen und mit den entsprechenden Attributen modelliert.
  • Modell s. Einige Algorithmen tun dies nichtverfeinerte Beziehung für ihre Clustering-Methode, um Meta-Subjekt-Ergebnisse zu generieren und einfach Informationsgruppierung bereitzustellen.
  • Modell basierend auf Graphen s. Eine Clique, d. h. eine Teilmenge von Knoten, sodass alle zwei Verbindungen im Kantenteil als Prototyp der Clusterform betrachtet werden können. Die Abschwächung der Gesamtnachfrage wird als Quasi-Cliquen bezeichnet. Genau derselbe Name wird im HCS-Clustering-Algorithmus angezeigt.
  • Neuronale Modelle s. Das bekannteste unüberwachte Netzwerk ist die selbstorganisierende Karte. Und es sind diese Modelle, die normalerweise als ähnlich zu einer oder mehreren der oben genannten Clustering-Methoden zur Bildung von Meta-Subjekt-Ergebnissen charakterisiert werden können. Es umfasst Subraumsysteme, wenn neuronale Netze die notwendige Form der Haupt- oder unabhängigen Komponentenanalyse implementieren.

Dieser Begriff ist eigentlich eine Menge solcher Gruppen, die normalerweise alle Objekte in der Menge der Daten-Clustering-Methoden enth alten. Darüber hinaus kann es die Beziehung von Clustern zueinander anzeigen, beispielsweise eine Hierarchie von ineinander gebauten Systemen. Die Gruppierung kann in folgende Aspekte unterteilt werden:

  • Hard Centroid-Clustering-Methode. Dabei gehört jedes Objekt einer Gruppe an oder befindet sich außerhalb davon.
  • Soft- oder Fuzzy-System. Zu diesem Zeitpunkt gehört jedes Objekt bereits zu einem gewissen Grad zu irgendeinem Cluster. Es wird auch als c-Means-Fuzzy-Clustering-Methode bezeichnet.

Und subtilere Unterschiede sind ebenfalls möglich. Zum Beispiel:

  • Strict Partitioning Clustering. Hierjedes Objekt gehört zu genau einer Gruppe.
  • Strict Partitioning Clustering mit Ausreißern. In diesem Fall können Objekte auch keinem Cluster angehören und als unnötig betrachtet werden.
  • Überlappendes Clustering (auch alternativ, mit mehreren Ansichten). Dabei können Objekte zu mehr als einem Zweig gehören. Typischerweise mit soliden Clustern.
  • Hierarchische Clustering-Methoden. Objekte, die zu einer untergeordneten Gruppe gehören, gehören auch zum übergeordneten Subsystem.
  • Unterraumbildung. Obwohl sie überlappenden Clustern ähnlich sind, sollten sich gemeinsame Gruppen innerhalb eines eindeutig definierten Systems nicht überschneiden.

Anleitung

Verwenden der Clustering-Methode zur Bildung
Verwenden der Clustering-Methode zur Bildung

Wie oben erwähnt, können Clustering-Algorithmen basierend auf ihrem Clustermodell klassifiziert werden. Die folgende Übersicht listet nur die prominentesten Beispiele dieser Anweisungen auf. Da es möglicherweise über 100 veröffentlichte Algorithmen gibt, stellen nicht alle Modelle für ihre Cluster bereit und können daher nicht einfach klassifiziert werden.

Es gibt keinen objektiv korrekten Clustering-Algorithmus. Aber wie oben erwähnt, befindet sich die Anweisung immer im Blickfeld des Beobachters. Der für ein bestimmtes Problem am besten geeignete Clustering-Algorithmus muss oft experimentell ausgewählt werden, es sei denn, es gibt einen mathematischen Grund, ein Modell einem anderen vorzuziehen. Es sollte beachtet werden, dass ein Algorithmus, der für einen einzelnen Typ entwickelt wurde, normalerweise nicht funktioniertein Datensatz, der ein radikal anderes Thema enthält. Beispielsweise kann k-means keine nicht-konvexen Gruppen finden.

Verbindungsbasiertes Clustering

Clustering-Methode
Clustering-Methode

Diese Vereinigung ist auch unter ihrem Namen bekannt, dem hierarchischen Modell. Es basiert auf der typischen Vorstellung, dass Objekte mehr mit benachbarten Teilen verbunden sind als mit weit entfernten. Diese Algorithmen verbinden Objekte und bilden je nach Entfernung unterschiedliche Cluster. Eine Gruppe kann hauptsächlich durch die maximale Entfernung beschrieben werden, die benötigt wird, um die verschiedenen Teile des Clusters zu verbinden. In allen möglichen Entfernungen bilden sich weitere Gruppen, die durch ein Dendrogramm dargestellt werden können. Dies erklärt, woher der gebräuchliche Name "hierarchisches Clustering" kommt. Das heißt, diese Algorithmen stellen keine einzelne Partition des Datensatzes bereit, sondern stellen stattdessen eine umfassende Autoritätsordnung bereit. Ihm ist es zu verdanken, dass es in gewissen Abständen einen Abfluss untereinander gibt. In einem Dendrogramm bezeichnet die y-Achse den Abstand, in dem die Cluster zusammenkommen. Und die Objekte sind entlang der X-Linie so angeordnet, dass sich die Gruppen nicht vermischen.

Verbindungsbasiertes Clustering ist eine ganze Familie von Methoden, die sich in der Art und Weise unterscheiden, wie sie Entfernungen berechnen. Neben der üblichen Auswahl an Entfernungsfunktionen muss der Benutzer auch über das Verbindungskriterium entscheiden. Da ein Cluster aus mehreren Objekten besteht, gibt es viele Möglichkeiten, ihn zu berechnen. Eine beliebte Wahl ist die Einhebel-Gruppierung, das ist die Methodevollständiger Link, der UPGMA oder WPGMA enthält (ungewichtetes oder gewichtetes Ensemble von Paaren mit arithmetischem Mittelwert, auch bekannt als Mean Link Clustering). Darüber hinaus kann das hierarchische System agglomerativ (mit einzelnen Elementen beginnend und zu Gruppen zusammengefasst) oder teilend (mit einem vollständigen Datensatz beginnend und in Abschnitte zerlegt) sein.

Verteiltes Clustering

Clustering-Methode zu bilden
Clustering-Methode zu bilden

Diese Modelle sind am engsten mit Statistiken verwandt, die auf Splits basieren. Cluster können einfach als Objekte definiert werden, die höchstwahrscheinlich zu derselben Verteilung gehören. Ein praktisches Merkmal dieses Ansatzes ist, dass er der Art und Weise, wie künstliche Datensätze erstellt werden, sehr ähnlich ist. Durch Stichproben von zufälligen Objekten aus einer Verteilung.

Während die theoretische Grundlage dieser Methoden hervorragend ist, leiden sie unter einem Schlüsselproblem, das als Overfitting bekannt ist, es sei denn, der Komplexität des Modells sind Grenzen gesetzt. Eine größere Assoziation erklärt die Daten normalerweise besser, was die Auswahl der richtigen Methode erschwert.

Gaußsches Mischungsmodell

Diese Methode verwendet alle Arten von Erwartungsmaximierungsalgorithmen. Hier wird der Datensatz normalerweise mit einer festen (um ein Überschreiben zu vermeiden) Anzahl von Gaußschen Verteilungen modelliert, die zufällig initialisiert werden und deren Parameter iterativ optimiert werden, um besser zum Datensatz zu passen. Dieses System konvergiert gegen ein lokales Optimum. Deshalb kann es mehrere Läufe gebenunterschiedliche Ergebnisse. Um die engste Clusterbildung zu erh alten, werden Features häufig der Gaußschen Verteilung zugeordnet, zu der sie am wahrscheinlichsten gehören. Und für weichere Gruppen ist dies nicht erforderlich.

Verteilungsbasiertes Clustering erstellt komplexe Modelle, die letztendlich die Korrelation und Abhängigkeit zwischen Attributen erfassen können. Diese Algorithmen belasten den Benutzer jedoch zusätzlich. Für viele reale Datensätze gibt es möglicherweise kein genau definiertes mathematisches Modell (z. B. ist die Annahme einer Gaußschen Verteilung eine ziemlich starke Annahme).

Dichtebasiertes Clustering

Cluster zu bilden
Cluster zu bilden

In diesem Beispiel sind die Gruppen grundsätzlich als Bereiche mit höherer Dichtheit als der Rest des Datensatzes definiert. Objekte in diesen seltenen Teilen, die notwendig sind, um alle Komponenten zu trennen, werden normalerweise als Rausch- und Kantenpunkte betrachtet.

Die beliebteste dichtebasierte Clustering-Methode ist DBSCAN (Spatial Noise Clustering Algorithm). Im Gegensatz zu vielen neueren Methoden hat es eine klar definierte Cluster-Komponente namens "Density Reachability". Ähnlich wie beim linkbasierten Clustering basiert es auf Verbindungspunkten innerhalb bestimmter Entfernungsschwellen. Bei dieser Methode werden jedoch nur die Elemente gesammelt, die das Dichtekriterium erfüllen. In der ursprünglichen Version, definiert als die Mindestanzahl anderer Objekte in diesem Radius, besteht der Cluster aus allendichtebezogene Elemente (die im Gegensatz zu vielen anderen Methoden eine Freiformgruppe bilden können) und alle Objekte, die sich innerhalb des zulässigen Bereichs befinden.

Eine weitere interessante Eigenschaft von DBSCAN ist, dass seine Komplexität ziemlich gering ist – es erfordert eine lineare Anzahl von Bereichsabfragen gegen die Datenbank. Und auch ungewöhnlich ist, dass es bei jedem Durchlauf im Wesentlichen die gleichen Ergebnisse findet (dies ist deterministisch für Kern- und Rauschpunkte, aber nicht für Randelemente). Daher muss es nicht mehrmals ausgeführt werden.

Der Hauptnachteil von DBSCAN und OPTICS ist, dass sie einen gewissen Dichteabfall erwarten, um Clustergrenzen zu erkennen. Beispielsweise erscheinen in Datensätzen mit überlappenden Gaußschen Verteilungen – ein häufiger Anwendungsfall für künstliche Objekte – die von diesen Algorithmen generierten Clustergrenzen oft willkürlich. Dies geschieht, weil die Gruppendichte kontinuierlich abnimmt. Und in einem Gaußschen Mischungsdatensatz übertreffen diese Algorithmen fast immer Methoden wie EM-Clustering, die in der Lage sind, diese Art von Systemen genau zu modellieren.

Mean Displacement ist ein Clustering-Ansatz, bei dem sich jedes Objekt auf der Grundlage einer Schätzung des gesamten Kernels in den dichtesten Bereich in der Nachbarschaft bewegt. Am Ende konvergieren die Objekte zu lokalen Undurchdringlichkeitsmaxima. Ähnlich wie beim k-Means-Clustering können diese "Dichte-Attraktoren" als Repräsentanten für einen Datensatz dienen. Aber die mittlere Verschiebungkann beliebig geformte Cluster ähnlich wie DBSCAN erkennen. Aufgrund des teuren iterativen Verfahrens und der Dichteschätzung ist die durchschnittliche Verschiebung normalerweise langsamer als DBSCAN oder k-Means. Darüber hinaus ist die Anwendbarkeit des typischen Verschiebungsalgorithmus auf hochdimensionale Daten aufgrund des ungleichmäßigen Verh altens der Kerneldichteschätzung schwierig, was zu einer übermäßigen Fragmentierung der Clusterschwänze führt.

Bewertung

Clustering-Methode zur Bildung von Metasubjekten
Clustering-Methode zur Bildung von Metasubjekten

Das Überprüfen von Clustering-Ergebnissen ist so schwierig wie das Clustering selbst. Beliebte Ansätze sind das „interne“Scoring (bei dem das System auf ein einzelnes Qualitätsmaß reduziert wird) und natürlich das „externe“Scoring (bei dem das Clustering mit einer bestehenden „Ground Truth“-Klassifizierung verglichen wird). Und die manuelle Bewertung und die indirekte Bewertung des menschlichen Experten werden ermittelt, indem die Nützlichkeit des Clusterings in der beabsichtigten Anwendung untersucht wird.

Interne Flag-Maße leiden unter dem Problem, dass sie Merkmale darstellen, die selbst als Clustering-Ziele angesehen werden können. Beispielsweise ist es möglich, durch den Silhouette-Koeffizienten gegebene Daten zu gruppieren, außer dass dafür kein effizienter Algorithmus bekannt ist. Mit einem solchen internen Bewertungsmaß ist es besser, die Ähnlichkeit von Optimierungsproblemen zu vergleichen.

Die Außenmarke hat ähnliche Probleme. Wenn es solche Labels der "Ground Truth" gibt, besteht keine Notwendigkeit, sich zu gruppieren. Und in der Praxis gibt es solche Konzepte meist nicht. Andererseits spiegeln die Labels nur eine mögliche Aufteilung des Datensatzes wider, was nicht bedeutetdass es kein anderes (vielleicht sogar besseres) Clustering gibt.

Also keiner dieser Ansätze kann letztendlich die tatsächliche Qualität beurteilen. Dies erfordert jedoch eine menschliche Bewertung, die höchst subjektiv ist. Nichtsdestotrotz können solche Statistiken beim Identifizieren schlechter Cluster aufschlussreich sein. Aber man sollte die subjektive Einschätzung einer Person nicht außer Acht lassen.

Innere Markierung

Wenn das Ergebnis eines Clusterings anhand von Daten ausgewertet wird, die selbst geclustert wurden, spricht man von diesem Begriff. Diese Verfahren weisen im Allgemeinen das beste Ergebnis einem Algorithmus zu, der Gruppen mit hoher Ähnlichkeit innerhalb und geringer Ähnlichkeit zwischen Gruppen erstellt. Einer der Nachteile der Verwendung interner Kriterien bei der Clusterbewertung besteht darin, dass hohe Punktzahlen nicht unbedingt zu effektiven Informationsabrufanwendungen führen. Außerdem ist diese Punktzahl gegenüber Algorithmen voreingenommen, die dasselbe Modell verwenden. Beispielsweise optimiert k-Means-Clustering auf natürliche Weise die Feature-Abstände, und ein internes Kriterium, das darauf basiert, überschätzt wahrscheinlich das resultierende Clustering.

Daher eignen sich diese Bewertungsmaße am besten, um sich ein Bild von Situationen zu machen, in denen ein Algorithmus besser abschneidet als ein anderer. Dies bedeutet jedoch nicht, dass jede Information zuverlässigere Ergebnisse liefert als andere. Die von einem solchen Index gemessene Gültigkeitsdauer hängt von der Behauptung ab, dass die Struktur im Datensatz existiert. Ein für manche Typen entwickelter Algorithmus hat keine Chance, wenn die Menge radikal enthältunterschiedlicher Zusammensetzung oder wenn die Bewertung unterschiedliche Kriterien misst. K-Means-Clustering kann beispielsweise nur konvexe Cluster finden, und viele Score-Indizes nehmen dasselbe Format an. In einem Datensatz mit nicht-konvexen Modellen ist es unangemessen, k-Mittelwerte und typische Bewertungskriterien zu verwenden.

Externe Evaluation

Bei dieser Art von Balling werden Clustering-Ergebnisse anhand von Daten ausgewertet, die nicht zur Gruppierung verwendet wurden. Das heißt, wie bekannte Klassenbezeichnungen und externe Tests. Solche Fragen bestehen aus einer Reihe vorklassifizierter Elemente und werden häufig von Experten (Menschen) erstellt. Daher können Referenzkits als Goldstandard für die Bewertung angesehen werden. Diese Arten von Scoring-Methoden messen, wie nahe das Clustering an gegebenen Referenzklassen liegt. In letzter Zeit wurde jedoch diskutiert, ob dies für echte Daten oder nur für synthetische Mengen mit tatsächlicher Grundwahrheit ausreicht. Da Klassen interne Strukturen enth alten können und die vorhandenen Attribute möglicherweise keine Trennung von Clustern zulassen. Auch aus Sicht der Wissensentdeckung führt die Reproduktion bekannter Tatsachen nicht unbedingt zu den erwarteten Ergebnissen. In einem speziellen eingeschränkten Clustering-Szenario, in dem Metainformationen (z. B. Klassenbezeichnungen) bereits im Gruppierungsprozess verwendet werden, ist es nicht trivial, alle Informationen für Bewertungszwecke aufzubewahren.

Jetzt ist klar, was auf Clustering-Methoden nicht zutrifft und welche Modelle dafür verwendet werden.

Empfohlen: