Statistisches Modell: die Essenz der Methode, Konstruktion und Analyse

Inhaltsverzeichnis:

Statistisches Modell: die Essenz der Methode, Konstruktion und Analyse
Statistisches Modell: die Essenz der Methode, Konstruktion und Analyse
Anonim

Ein statistisches Modell ist eine mathematische Projektion, die eine Reihe verschiedener Annahmen über die Generierung einiger Beispieldaten enthält. Der Begriff wird oft stark idealisiert dargestellt.

Die im statistischen Modell ausgedrückten Annahmen zeigen eine Reihe von Wahrscheinlichkeitsverteilungen. Viele von ihnen sollen die Verteilung, aus der ein bestimmter Satz von Informationen gezogen wird, korrekt annähern. Die den statistischen Modellen innewohnenden Wahrscheinlichkeitsverteilungen unterscheiden die Projektion von anderen mathematischen Modifikationen.

Generalprojektion

Statistische Prozessmodelle
Statistische Prozessmodelle

Mathematisches Modell ist eine Beschreibung des Systems unter Verwendung bestimmter Konzepte und Sprache. Sie gelten für die naturwissenschaftlichen (zB Physik, Biologie, Geowissenschaften, Chemie) und ingenieurwissenschaftlichen Disziplinen (zB Informatik, Elektrotechnik) sowie die sozialwissenschaftlichen (zB Wirtschaftswissenschaften, Psychologie, Soziologie, Politikwissenschaft).

Das Modell kann helfen, das System zu erklären undUntersuchen Sie den Einfluss verschiedener Komponenten und treffen Sie Verh altensvorhersagen.

Mathematische Modelle können viele Formen annehmen, darunter dynamische Systeme, statistische Projektionen, Differentialgleichungen oder spieltheoretische Parameter. Diese und andere Typen können sich überschneiden, und dieses Modell enthält viele abstrakte Strukturen. Im Allgemeinen können mathematische Projektionen auch logische Komponenten enth alten. Die Qualität eines Wissenschaftsgebiets hängt in vielen Fällen davon ab, wie gut die theoretisch entwickelten mathematischen Modelle mit den Ergebnissen wiederholter Experimente übereinstimmen. Mangelnde Übereinstimmung zwischen theoretischen Prozessen und experimentellen Messungen führt oft zu wichtigen Fortschritten, wenn bessere Theorien entwickelt werden.

In den Naturwissenschaften enthält das traditionelle mathematische Modell eine große Anzahl der folgenden Elemente:

  • Kontrollgleichungen.
  • Zusätzliche Untermodelle.
  • Gleichungen definieren.
  • Konstituentengleichungen.
  • Annahmen und Einschränkungen.
  • Anfangs- und Randbedingungen.
  • Klassische Beschränkungen und kinematische Gleichungen.

Formel

Ein statistisches Modell wird in der Regel durch mathematische Gleichungen festgelegt, die eine oder mehrere Zufallsvariablen und möglicherweise andere natürlich vorkommende Variablen kombinieren. In ähnlicher Weise wird Projektion als "das formale Konzept eines Konzepts" betrachtet.

Alle statistischen Hypothesentests und statistischen Auswertungen basieren auf mathematischen Modellen.

Einführung

statistische mathematische Modelle
statistische mathematische Modelle

Informell kann ein statistisches Modell als eine Annahme (oder eine Reihe von Annahmen) mit einer bestimmten Eigenschaft angesehen werden: Es erlaubt einem, die Wahrscheinlichkeit eines beliebigen Ereignisses zu berechnen. Betrachten Sie als Beispiel ein Paar gewöhnlicher sechsseitiger Würfel. Zwei verschiedene statistische Annahmen über den Knochen müssen untersucht werden.

Die erste Annahme ist:

Für jeden Würfel beträgt die Wahrscheinlichkeit, eine der Zahlen (1, 2, 3, 4, 5 und 6) zu bekommen, 1/6.

Aus dieser Annahme können wir die Wahrscheinlichkeit beider Würfel berechnen: 1:1/6×1/6=1/36.

Ganz allgemein gesagt, Sie können die Wahrscheinlichkeit jedes Ereignisses berechnen. Es sollte jedoch klar sein, dass es unmöglich ist, die Wahrscheinlichkeit eines anderen nicht trivialen Ereignisses zu berechnen.

Nur die erste Meinung erhebt ein statistisch-mathematisches Modell: aufgrund der Tatsache, dass es mit nur einer Annahme möglich ist, die Wahrscheinlichkeit jeder Handlung zu bestimmen.

In dem obigen Beispiel mit anfänglicher Erlaubnis ist es einfach, die Möglichkeit eines Ereignisses zu bestimmen. Bei einigen anderen Beispielen kann die Berechnung schwierig oder sogar unrealistisch sein (z. B. kann sie viele Jahre an Berechnungen erfordern). Für eine Person, die ein statistisches Analysemodell entwirft, wird eine solche Komplexität als inakzeptabel angesehen: Die Implementierung von Berechnungen sollte weder praktisch noch theoretisch unmöglich sein.

Formale Definition

In mathematischer Hinsicht wird das statistische Modell eines Systems normalerweise als Paar (S, P) betrachtet, wobei S istdie Menge möglicher Beobachtungen, d. h. der Stichprobenraum, und P die Menge der Wahrscheinlichkeitsverteilungen auf S.

Die Intuition dieser Definition ist wie folgt. Es wird angenommen, dass es eine "wahre" Wahrscheinlichkeitsverteilung gibt, die durch den Prozess verursacht wird, der bestimmte Daten generiert.

Setzen

Er bestimmt die Parameter des Modells. Die Parametrisierung erfordert im Allgemeinen unterschiedliche Werte, um unterschiedliche Verteilungen zu erzielen, z. B.

Modellkonsequenz
Modellkonsequenz

muss gelten (mit anderen Worten, es muss injektiv sein). Eine Parametrisierung, die die Anforderung erfüllt, wird als identifizierbar bezeichnet.

Beispiel

Statistikdiagramm
Statistikdiagramm

Angenommen, es gibt eine Anzahl von Schülern unterschiedlichen Alters. Die Körpergröße des Kindes hängt stochastisch mit dem Geburtsjahr zusammen: Wenn beispielsweise ein Schuljunge 7 Jahre alt ist, beeinflusst dies die Wachstumswahrscheinlichkeit nur so, dass die Person größer als 3 Zentimeter wird.

Diesen Ansatz können Sie beispielsweise wie folgt in ein lineares Regressionsmodell formalisieren: Höhe i=b 0 + b 1 alteri + εi, wobei b 0 der Schnittpunkt, b 1 der Parameter mit welchem Alter ist wird multipliziert, wenn Höhenüberwachung erh alten wird. Dies ist ein Fehlerbegriff. Das heißt, es wird davon ausgegangen, dass die Größe anhand des Alters mit einem bestimmten Fehler vorhergesagt wird.

Ein gültiges Formular muss zu allen Informationspunkten passen. Die geradlinige Richtung (Ebene i=b 0 + b 1agei) ist also keine Gleichung für ein Datenmodell - wenn sie nicht absolut alle Punkte eindeutig beantwortet. AlsoAusnahmslos alle Informationen liegen einwandfrei auf der Leitung. Die Fehlerspanne εi muss in die Gleichung eingesetzt werden, damit das Formular absolut allen Angaben entspricht.

Um einen statistischen Schluss zu ziehen, müssen wir zunächst einige Wahrscheinlichkeitsverteilungen für ε i annehmen. Beispielsweise kann man annehmen, dass die Verteilungen von ε i eine Gaußsche Form mit einem Mittelwert von Null haben. In diesem Fall hat das Modell 3 Parameter: b 0, b 1 und die Varianz der Gaußschen Verteilung.

Sie können das Modell formal als (S, P) angeben.

In diesem Beispiel wird das Modell durch die Angabe von S definiert, sodass einige Annahmen über P gemacht werden können. Es gibt zwei Möglichkeiten:

Dieses Wachstum kann durch eine lineare Funktion des Alters angenähert werden;

Dass die Fehler in der Näherung wie innerhalb einer Gaußschen Verteilung verteilt sind.

Allgemeine Bemerkungen

Statistische Parameter von Modellen sind eine besondere Klasse der mathematischen Hochrechnung. Was unterscheidet eine Art von einer anderen? Das statistische Modell ist also nicht deterministisch. Darin haben also im Gegensatz zu mathematischen Gleichungen bestimmte Variablen keine bestimmten Werte, sondern eine Verteilung von Möglichkeiten. Das heißt, einzelne Variablen werden als stochastisch betrachtet. Im obigen Beispiel ist ε eine stochastische Variable. Ohne sie wäre die Projektion deterministisch.

Der Aufbau eines statistischen Modells wird oft verwendet, auch wenn der Materialprozess als deterministisch angesehen wird. Zum Beispiel ist das Werfen von Münzen im Prinzip eine vorherbestimmende Handlung. Dies wird jedoch in den meisten Fällen immer noch als stochastisch modelliert (durch einen Bernoulli-Prozess).

Nach Konishi und Kitagawa gibt es drei Ziele für ein statistisches Modell:

  • Vorhersagen.
  • Information Mining.
  • Beschreibung stochastischer Strukturen.

Projektionsgröße

Angenommen, es gibt ein statistisches Vorhersagemodell, Das Modell heißt parametrisch, falls O eine endliche Dimension hat. In die Lösung musst du schreiben, dass

Modellunterschied
Modellunterschied

wobei k eine positive ganze Zahl ist (R steht für beliebige reelle Zahlen). Hier wird k als Dimension des Modells bezeichnet.

Als Beispiel können wir annehmen, dass alle Daten aus einer univariaten Gaußschen Verteilung stammen:

Statistik-Formel
Statistik-Formel

In diesem Beispiel ist die Dimension von k 2.

Und als weiteres Beispiel kann angenommen werden, dass die Daten aus (x, y)-Punkten bestehen, von denen angenommen wird, dass sie in einer geraden Linie mit Gaußschen Residuen (mit Mittelwert null) verteilt sind. Dann ist die Dimension des statistischen Wirtschaftsmodells gleich 3: der Schnittpunkt der Linie, ihre Steigung und die Varianz der Verteilung der Residuen. Zu beachten ist, dass in der Geometrie eine Gerade die Dimension 1 hat.

Obwohl der obige Wert technisch gesehen der einzige Parameter ist, der die Dimension k hat, wird manchmal davon ausgegangen, dass er k unterschiedliche Werte enthält. Beispielsweise ist O bei einer eindimensionalen Gaußschen Verteilung der einzige Parameter mit einer Größe von 2, aber es wird manchmal angenommen, dass er zwei enthältindividueller Parameter - Mittelwert und Standardabweichung.

Ein statistisches Prozessmodell ist nichtparametrisch, wenn die Menge der O-Werte unendlichdimensional ist. Es ist auch semiparametrisch, wenn es sowohl endlichdimensionale als auch unendlichdimensionale Parameter hat. Wenn k eine Dimension von O und n die Anzahl der Stichproben ist, haben semiparametrische und nichtparametrische Modelle formal

Modellformel
Modellformel

dann ist das Modell semiparametrisch. Andernfalls ist die Projektion nichtparametrisch.

Parametrische Modelle sind die am häufigsten verwendeten Statistiken. In Bezug auf semiparametrische und nichtparametrische Projektionen sagte Sir David Cox:

"Normalerweise beinh alten sie die wenigsten Hypothesen über Textur und Verteilungsform, aber sie enth alten starke Theorien über Autarkie."

Verschachtelte Modelle

Verwechseln Sie sie nicht mit Projektionen auf mehreren Ebenen.

Zwei statistische Modelle sind verschachtelt, wenn das erste in das zweite konvertiert werden kann, indem den Parametern des ersten Beschränkungen auferlegt werden. Zum Beispiel hat die Menge aller Gaußschen Verteilungen eine verschachtelte Menge von Null-Mittelwert-Verteilungen:

Das heißt, Sie müssen den Mittelwert in der Menge aller Gaußschen Verteilungen begrenzen, um Verteilungen mit einem Mittelwert von Null zu erh alten. Als zweites Beispiel hat das quadratische Modell y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) ein eingebettetes lineares Modell y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - d.h. Parameter b2 ist gleich 0.

In beiden Beispielen hat das erste Modell eine höhere Dimensionalität als das zweite Modell. Dies ist oft, aber nicht immer der Fall. Ein weiteres Beispiel ist der Satz von Gaußschen Verteilungen mit positivem Mittelwert, der die Dimension 2 hat.

Modellvergleich

Statistisches Modell
Statistisches Modell

Es wird angenommen, dass es eine "wahre" Wahrscheinlichkeitsverteilung gibt, die den beobachteten Daten zugrunde liegt, die durch den Prozess, der sie erzeugt hat, induziert wird.

Und auch Modelle können miteinander verglichen werden, indem explorative Analysen oder konfirmatorische Analysen verwendet werden. In einer explorativen Analyse werden verschiedene Modelle formuliert und bewertet, wie gut jedes von ihnen die Daten beschreibt. In einer konfirmatorischen Analyse wird die zuvor formulierte Hypothese mit der ursprünglichen verglichen. Gemeinsame Kriterien dafür sind P 2, Bayesscher Faktor und relative Wahrscheinlichkeit.

Konishi und Kitagawas Gedanken

“Die meisten Probleme in einem statistischen mathematischen Modell können als Vorhersagefragen betrachtet werden. Sie werden normalerweise als Vergleich mehrerer Faktoren formuliert.“

Darüber hinaus sagte Sir David Cox: "Als Übersetzung des Themas ist das Problem im statistischen Modell oft der wichtigste Teil der Analyse."

Empfohlen: