Im Laufe der Geschichte der Statistik wurden verschiedene Versuche unternommen, eine Taxonomie von Messniveaus zu erstellen. Der Psychophysiker Stanley Smith Stevens definierte nominale, ordinale, Intervall- und proportionale Skalen.
Nennmessungen haben keine signifikante Rangfolge zwischen den Werten und erlauben eine Eins-zu-Eins-Umrechnung.
Reguläre Dimensionen haben ungenaue Unterschiede zwischen aufeinanderfolgenden Werten, haben aber eine bestimmte Reihenfolge dieser Werte und erlauben jede reihenfolgeerh altende Transformation.
Intervallmessungen haben sinnvolle Abstände zwischen Punkten, aber der Nullwert ist willkürlich (wie im Fall von Längengrad- und Temperaturmessungen in Celsius oder Fahrenheit) und erlaubt jede lineare Transformation.
Verhältnisdimensionen haben sowohl einen sinnvollen Nullwert als auch Abstände zwischen verschiedenen Dimensionen und ermöglichen jede Skalierungstransformation.
Variablen und Klassifizierung von Informationen
Weil die Variablendie nur nominalen oder ordinalen Messungen entsprechen, können vernünftigerweise nicht numerisch gemessen werden und werden manchmal als kategoriale Variablen gruppiert. Die Verhältnis- und Intervallmessungen werden als quantitative Variablen gruppiert, die aufgrund ihrer numerischen Natur entweder diskret oder kontinuierlich sein können. Solche Unterscheidungen sind in der Informatik oft lose mit dem Datentyp verbunden, da dichotome kategoriale Variablen durch boolesche Werte, polytome kategoriale Variablen mit beliebigen ganzen Zahlen in einem ganzzahligen Datentyp und kontinuierliche Variablen mit reellen Komponenten, die eine Gleitkommaberechnung beinh alten, dargestellt werden können. Die Anzeige der Datentypen statistischer Informationen hängt jedoch davon ab, welche Klassifizierung angewendet wird.
Andere Klassifikationen
Andere Klassifikationen statistischer Daten (Informationen) wurden ebenfalls erstellt. Zum Beispiel unterschieden Mosteller und Tukey zwischen Noten, Rängen, gezählten Anteilen, Zählungen, Beträgen und Salden. Nelder beschrieb einst kontinuierliche Zählungen, kontinuierliche Verhältnisse, Korrelationen von Zählungen und kategorische Arten der Datenübermittlung. Alle diese Klassifizierungsmethoden werden bei der Sammlung statistischer Informationen verwendet.
Probleme
Die Frage, ob es angemessen ist, unterschiedliche Arten statistischer Methoden auf Daten anzuwenden, die durch unterschiedliche Mess(erhebungs)verfahren gewonnen wurden, wird durch Probleme im Zusammenhang mit der Umrechnung von Variablen und der genauen Interpretation von Fragen erschwertForschung. „Die Beziehung zwischen Daten und dem, was sie beschreiben, spiegelt einfach die Tatsache wider, dass bestimmte Arten von statistischen Aussagen Wahrheitswerte haben können, die unter bestimmten Transformationen nicht unveränderlich sind. Ob die Transformation eine Überlegung wert ist, hängt von der Frage ab, die Sie zu beantworten versuchen.
Was ist ein Datentyp
Der Datentyp ist eine grundlegende Komponente des semantischen Inh alts einer Variablen und steuert, welche Arten von Wahrscheinlichkeitsverteilungen logisch verwendet werden können, um die Variable zu beschreiben, welche Operationen darauf zulässig sind, welche Art von Regressionsanalyse verwendet wird, um sie vorherzusagen usw. Das Konzept eines Datentyps ähnelt dem Konzept des Messniveaus, ist jedoch spezifischer - zum Beispiel erfordern Datenzählungen eine andere Verteilung (Poisson oder Binomial) als für nicht negative reelle Werte, aber beide fallen unter dasselbe Messniveau (Koeffizientenskala).
Waage
Es wurden verschiedene Versuche unternommen, eine Taxonomie von Messniveaus für die Verarbeitung statistischer Informationen zu erstellen. Der Psychophysiker Stanley Smith Stevens definierte nominale, ordinale, Intervall- und proportionale Skalen. Nennmaße haben keine signifikante Rangfolge unter den Werten und erlauben keine Eins-zu-Eins-Umrechnung. Gewöhnliche Messungen weisen ungenaue Unterschiede zwischen aufeinanderfolgenden Werten auf, unterscheiden sich jedoch in der signifikanten Reihenfolge dieser Werte und ermöglichenjede ordnungserh altende Transformation. Intervallmessungen haben sinnvolle Abstände zwischen den Messungen, aber der Nullwert ist willkürlich (wie im Fall von Längen- und Temperaturmessungen in Celsius oder Fahrenheit) und lässt jede lineare Transformation zu. Verhältnisdimensionen haben sowohl einen sinnvollen Nullwert als auch Abstände zwischen verschiedenen definierten Dimensionen und ermöglichen jede Skalierungstransformation.
Daten, die sich nicht mit einer einzigen Zahl beschreiben lassen, sind oft in Zufallsvektoren echter Zufallsvariablen enth alten, obwohl der Trend zur eigenen Verarbeitung immer mehr zunimmt. Solche Beispiele werden weiter unten besprochen.
Zufallsvektoren
Einzelne Elemente können korreliert sein oder auch nicht. Beispiele für Verteilungen, die zur Beschreibung korrelierter Zufallsvektoren verwendet werden, sind die multivariate Normalverteilung und die multivariate t-Verteilung. Im Allgemeinen kann es zwischen beliebigen Elementen willkürliche Korrelationen geben, jedoch wird dies ab einer bestimmten Größe oft unhandlich und erfordert zusätzliche Einschränkungen für die korrelierten Komponenten.
Zufallsmatrizen
Zufallsmatrizen können linear angeordnet und als Zufallsvektoren behandelt werden, dies ist jedoch möglicherweise kein effizienter Weg, um Korrelationen zwischen verschiedenen Elementen darzustellen. Einige Wahrscheinlichkeitsverteilungen wurden speziell für Zufallsmatrizen entwickelt, wie z. B. die NormalmatrixVerteilung und Wishart-Verteilung.
Zufallsfolgen
Manchmal werden sie als Zufallsvektoren angesehen, aber in anderen Fällen wird der Begriff speziell auf Fälle angewendet, in denen jede Zufallsvariable nur mit nahegelegenen Variablen korreliert (wie in einem Markov-Modell). Dies ist ein Spezialfall des Bayes'schen Netzes und wird für sehr lange Sequenzen verwendet, wie etwa Genketten oder lange Textdokumente. Eine Reihe von Modellen sind speziell für solche Sequenzen ausgelegt, beispielsweise Hidden-Markov-Sequenzen.
Zufällige Prozesse
Sie ähneln zufälligen Sequenzen, aber nur, wenn die Länge der Sequenz unbestimmt oder unendlich ist und die Elemente in der Sequenz einzeln verarbeitet werden. Dies wird häufig für Daten verwendet, die als Zeitreihen beschrieben werden können. Dies gilt beispielsweise für den Aktienkurs am nächsten Tag.
Schlussfolgerung
Die Analyse statistischer Informationen hängt ausschließlich von der Qualität ihrer Sammlung ab. Letztere wiederum hängt stark mit den Möglichkeiten ihrer Einordnung zusammen. Natürlich gibt es viele Arten der Klassifizierung statistischer Informationen, von denen sich der Leser beim Lesen dieses Artikels überzeugen konnte. Nichtsdestotrotz werden das Vorhandensein effektiver Werkzeuge und gute Mathematikkenntnisse sowie Kenntnisse auf dem Gebiet der Soziologie ihre Aufgabe erfüllen, sodass Sie jede Umfrage oder Studie ohne wesentliche Fehlerkorrekturen durchführen können. Quellen statistischer Informationen im FormularMenschen, Organisationen und andere Themen der Soziologie sind glücklicherweise in großer Fülle vertreten. Und keine Schwierigkeit kann einem wahren Entdecker im Wege stehen.