Multivariate Skalierung (MDS) ist ein Werkzeug zur Visualisierung des Ähnlichkeitsgrades einzelner Fälle in einem Datensatz. Es bezieht sich auf eine Reihe verwandter Ordinationsmethoden, die bei der Visualisierung von Informationen verwendet werden, insbesondere um die in einer Entfernungsmatrix enth altenen Informationen anzuzeigen. Dies ist eine Form der nichtlinearen Dimensionsreduktion. Der MDS-Algorithmus zielt darauf ab, jedes Objekt in einem N-dimensionalen Raum so zu platzieren, dass die Abstände zwischen Objekten so gut wie möglich erh alten bleiben. Jedem Objekt werden dann Koordinaten in jeder der N Dimensionen zugewiesen.
Die Anzahl der Dimensionen des MDS-Graphen kann 2 überschreiten und wird a priori festgelegt. Die Auswahl von N=2 optimiert die Objektplatzierung für das 2D-Streudiagramm. Beispiele für mehrdimensionale Skalierung sehen Sie in den Bildern im Artikel. Beispiele mit russischen Symbolen sind besonders anschaulich.
Essenz
Methode der multidimensionalen Skalierung (MMS,MDS) ist ein erweiterter Satz klassischer Werkzeuge, der das Optimierungsverfahren für einen Satz von Verlustfunktionen und Eingabematrizen bekannter Entfernungen mit Gewichten usw. verallgemeinert. In diesem Zusammenhang wird Stress als nützliche Verlustfunktion bezeichnet, die häufig durch ein Verfahren namens Stressmajorisierung minimiert wird.
Manuell
Es gibt mehrere Optionen für die multidimensionale Skalierung. MDS-Programme minimieren automatisch die Last, um eine Lösung zu erh alten. Der Kern des nichtmetrischen MDS-Algorithmus ist ein zweifacher Optimierungsprozess. Zunächst muss die optimale monotone Näherungstransformation gefunden werden. Zweitens müssen Konfigurationspunkte optimal positioniert werden, damit ihre Abstände möglichst genau mit den skalierten Näherungswerten übereinstimmen.
Erweiterung
Eine Erweiterung der metrischen mehrdimensionalen Skalierung in der Statistik, bei der der Zielraum ein beliebiger glatter nicht-euklidischer Raum ist. Wo die Unterschiede Entfernungen auf einer Oberfläche sind und der Zielraum eine andere Oberfläche ist. Thematische Programme ermöglichen es Ihnen, eine Befestigung mit minimaler Verzerrung einer Oberfläche in eine andere zu finden.
Schritte
Die Durchführung einer Studie mit multivariater Skalierung umfasst mehrere Schritte:
- Formulierung des Problems. Welche Variablen möchten Sie vergleichen? Wie viele Variablen möchten Sie vergleichen? Zu welchem Zweck wird die Studie verwendet?
- Eingabedaten abrufen. Den Befragten wird eine Reihe von Fragen gestellt. Für jedes Produktpaar werden sie gebeten, die Ähnlichkeit zu bewerten (normalerweise auf einer 7-Punkte-Likert-Skala von sehr ähnlich bis sehr unähnlich). Die erste Frage könnte zum Beispiel für Coca-Cola/Pepsi sein, die nächste für Bier, die nächste für Dr. Pepper usw. Die Anzahl der Fragen hängt von der Anzahl der Marken ab.
Alternative Ansätze
Es gibt zwei weitere Ansätze. Es gibt eine Technik namens "Perceptual Data: Derived Approach", bei der Produkte in Attribute zerlegt werden und die Bewertung auf einer semantischen Differenzskala erfolgt. Eine andere Methode ist der „Präferenzdatenansatz“, bei dem die Befragten eher nach Präferenzen als nach Ähnlichkeiten gefragt werden.
Es besteht aus den folgenden Schritten:
- Start des MDS-Statistikprogramms. Software zur Durchführung des Verfahrens ist in vielen statistischen Softwarepaketen verfügbar. Oft besteht die Wahl zwischen metrischem MDS (das sich mit Daten auf Intervall- oder Verhältnisebene befasst) und nicht-metrischem MDS (das sich mit ordinalen Daten befasst).
- Bestimmung der Anzahl der Messungen. Der Forscher muss die Anzahl der Messungen festlegen, die er am Computer erstellen möchte. Je mehr Messungen, desto besser die statistische Übereinstimmung, aber desto schwieriger ist es, die Ergebnisse zu interpretieren.
- Ergebnisse anzeigen und Messungen definieren - das Statistikprogramm (oder ein verwandtes Modul) zeigt die Ergebnisse an. Auf der Karte wird jedes Produkt angezeigt (normalerweise in 2D). Platz). Die Nähe von Produkten zueinander zeigt entweder ihre Ähnlichkeit oder ihre Präferenz an, je nachdem, welcher Ansatz verwendet wurde. Wie Messungen tatsächlich Messungen des Systemverh altens entsprechen, ist jedoch nicht immer klar. Hier kann ein subjektives Konformitätsurteil abgegeben werden.
- Überprüfen Sie die Ergebnisse auf Zuverlässigkeit und Gültigkeit - berechnen Sie R-Quadrat, um den Anteil der skalierten Datenvarianz zu bestimmen, der durch das MDS-Verfahren berücksichtigt werden kann. Square R 0,6 wird als akzeptables Mindestniveau angesehen. R zum Quadrat von 0,8 wird als gut für die metrische Skalierung angesehen, während 0,9 als gut für die nicht-metrische Skalierung angesehen wird.
Verschiedene Tests
Andere mögliche Tests sind Stresstests vom Kruskal-Typ, Split-Data-Tests, Datenstabilitätstests und Retest-Zuverlässigkeitstests. Schreiben Sie ausführlich über die Ergebnisse des Tests. Neben der Kartierung sollte zumindest ein Distanzmaß (z. B. Sorenson-Index, Jaccard-Index) und Zuverlässigkeit (z. B. Stresswert) angegeben werden.
Es ist auch sehr wünschenswert, einen Algorithmus (z. B. Kruskal, Mather) anzugeben, der häufig durch das verwendete Programm bestimmt wird (und manchmal den Algorithmusbericht ersetzt), wenn Sie eine Startkonfiguration angegeben haben oder eine zufällige Nummer haben der Dimensionsläufe, Monte-Carlo-Ergebnisse, Anzahl der Iterationen, Stabilitätswert und proportionale Varianz jeder Achse (r-Quadrat).
Visuelle Informationen und Datenanalysemethodemultidimensionale Skalierung
Informationsvisualisierung ist das Studium interaktiver (visueller) Darstellungen abstrakter Daten zur Verbesserung der menschlichen Wahrnehmung. Abstrakte Daten umfassen sowohl numerische als auch nicht-numerische Daten wie Text- und geografische Informationen. Die Informationsvisualisierung unterscheidet sich jedoch von der wissenschaftlichen Visualisierung: „Es ist informativ (Informationsvisualisierung), wenn eine räumliche Darstellung gewählt wird, und scivis (wissenschaftliche Visualisierung), wenn eine räumliche Darstellung gegeben ist.“
Das Gebiet der Informationsvisualisierung entstand aus der Forschung in den Bereichen Mensch-Computer-Interaktion, Informatikanwendungen, Grafik, visuelles Design, Psychologie und Geschäftsmethoden. Es wird zunehmend als wesentlicher Bestandteil in wissenschaftlicher Forschung, digitalen Bibliotheken, Data Mining, Finanzdaten, Marktforschung, Produktionskontrolle usw. verwendet.
Methoden und Prinzipien
Informationsvisualisierung deutet darauf hin, dass Visualisierungs- und Interaktionsmethoden den Reichtum der menschlichen Wahrnehmung nutzen und es Benutzern ermöglichen, große Mengen an Informationen gleichzeitig zu sehen, zu erforschen und zu verstehen. Informationsvisualisierung zielt darauf ab, Ansätze für die intuitive Kommunikation abstrakter Daten und Informationen zu schaffen.
Datenanalyse ist ein integraler Bestandteil aller angewandten Forschung und Problemlösung in der Industrie. Die meistenDie grundlegenden Ansätze zur Datenanalyse sind Visualisierung (Histogramme, Streudiagramme, Oberflächendiagramme, Baumkarten, Parallelkoordinatendiagramme usw.), Statistiken (Hypothesentests, Regression, PCA usw.), Datenanalyse (Matching usw.)..d.) und Methoden des maschinellen Lernens (Clustering, Klassifikation, Entscheidungsbäume etc.).
Unter diesen Ansätzen ist die Informationsvisualisierung oder visuelle Datenanalyse am stärksten von den kognitiven Fähigkeiten des analytischen Personals abhängig und ermöglicht die Entdeckung unstrukturierter, umsetzbarer Erkenntnisse, die nur durch die menschliche Vorstellungskraft und Kreativität begrenzt sind. Ein Analyst muss keine komplexen Techniken erlernen, um Datenvisualisierungen interpretieren zu können. Informationsvisualisierung ist auch ein Schema zur Hypothesengenerierung, das von eher analytischen oder formalen Analysen wie statistischen Hypothesentests begleitet werden kann und wird.
Studie
Das moderne Studium der Visualisierung begann mit der Computergrafik, die "von Anfang an zur Untersuchung wissenschaftlicher Probleme verwendet wurde. In den Anfangsjahren schränkte jedoch der Mangel an Grafikleistung häufig ihre Nützlichkeit ein. Die Priorität der Visualisierung begann 1987 mit der Veröffentlichung einer speziellen Software für Computergrafik und Visualisierung im wissenschaftlichen Rechnen zu entwickeln. Seitdem gab es mehrere Konferenzen und Workshops, die gemeinsam von der IEEE Computer Society und ACM SIGGRAPH organisiert wurden."
Sie behandelten die allgemeinen Themen Datenvisualisierung, Informationsvisualisierung und wissenschaftliche Visualisierung,sowie spezifischere Bereiche wie das Rendern von Volumen.
Zusammenfassung
Generalized Multidimensional Scaling (GMDS) ist eine Erweiterung der metrischen multidimensionalen Skalierung, bei der der Zielraum nicht euklidisch ist. Wenn es sich bei den Unterschieden um Abstände auf einer Oberfläche handelt und der Zielraum eine andere Oberfläche ist, ermöglicht Ihnen GMDS, die Verschachtelung einer Oberfläche in eine andere mit minimaler Verzerrung zu finden.
GMDS ist eine neue Forschungslinie. Derzeit sind die Hauptanwendungen die Erkennung deformierbarer Objekte (z. B. für die 3D-Gesichtserkennung) und Textur-Mapping.
Der Zweck der multidimensionalen Skalierung ist die Darstellung multidimensionaler Daten. Mehrdimensionale Daten, d. h. Daten, für deren Darstellung mehr als zwei oder drei Dimensionen erforderlich sind, können schwierig zu interpretieren sein. Ein Ansatz zur Vereinfachung besteht darin, anzunehmen, dass die interessierenden Daten auf einer eingebetteten nichtlinearen Mannigf altigkeit in einem hochdimensionalen Raum liegen. Wenn der Kollektor eine ausreichend geringe Dimension hat, können die Daten im niedrigdimensionalen Raum visualisiert werden.
Viele der nichtlinearen Methoden zur Dimensionsreduktion sind mit linearen Methoden verwandt. Nichtlineare Methoden können grob in zwei Gruppen eingeteilt werden: diejenigen, die eine Abbildung bereitstellen (entweder vom hochdimensionalen Raum zur niedrigdimensionalen Einbettung oder umgekehrt), und diejenigen, die einfach eine Visualisierung bereitstellen. Im Kontext des maschinellen Lernens können Mapping-Verfahren betrachtet werden alseine Vorstufe der Merkmalsextraktion, nach der Mustererkennungsalgorithmen angewendet werden. Normalerweise basieren diejenigen, die nur Visualisierungen geben, auf Näherungsdaten - dh Entfernungsmessungen. Multidimensionale Skalierung ist auch in der Psychologie und anderen Geisteswissenschaften weit verbreitet.
Wenn die Anzahl der Attribute groß ist, dann ist auch der Platz der eindeutig möglichen Zeichenfolgen exponentiell groß. Je größer also die Dimension, desto schwieriger wird es, den Raum darzustellen. Dies verursacht viele Probleme. Algorithmen, die mit hochdimensionalen Daten arbeiten, haben tendenziell eine sehr hohe Zeitkomplexität. Das Reduzieren von Daten auf weniger Dimensionen macht Analysealgorithmen häufig effizienter und kann maschinellen Lernalgorithmen dabei helfen, genauere Vorhersagen zu treffen. Aus diesem Grund ist die multidimensionale Datenskalierung so beliebt.