Die in der statistischen Modellierung enth altenen Annahmen beschreiben eine Reihe von Wahrscheinlichkeitsverteilungen, von denen angenommen wird, dass einige die Verteilung angemessen annähern. Aus der Definition wird ein bestimmter Datensatz ausgewählt. Die der statistischen Modellierung innewohnenden Wahrscheinlichkeitsverteilungen unterscheiden statistische Modelle von anderen, nicht-statistischen, mathematischen Modellen.
Verbindung zur Mathematik
Diese wissenschaftliche Methode hat ihre Wurzeln hauptsächlich in der Mathematik. Die statistische Modellierung von Systemen wird normalerweise durch mathematische Gleichungen gegeben, die eine oder mehrere Zufallsvariablen und möglicherweise andere Nicht-Zufallsvariablen in Beziehung setzen. Ein statistisches Modell ist somit eine „formale Repräsentation einer Theorie“(Hermann Ader, zitiert Kenneth Bollen).
Alle statistischen Hypothesentests und alle statistischen Schätzungen werden von statistischen Modellen abgeleitet. Allgemeiner gesagt sind statistische Modelle Teil der Grundlage statistischer Inferenz.
Methoden der StatistikModellierung
Informell kann man sich ein statistisches Modell als eine statistische Annahme (oder eine Reihe von statistischen Annahmen) mit einer bestimmten Eigenschaft vorstellen: Diese Annahme ermöglicht es uns, die Wahrscheinlichkeit eines beliebigen Ereignisses zu berechnen. Betrachten Sie als Beispiel ein Paar gewöhnlicher sechsseitiger Würfel. Wir werden zwei verschiedene statistische Annahmen über den Knochen untersuchen.
Die erste statistische Annahme bildet das statistische Modell, denn mit nur einer Annahme können wir die Wahrscheinlichkeit jedes Ereignisses berechnen. Die alternative statistische Annahme stellt kein statistisches Modell dar, da wir mit nur einer Annahme nicht die Wahrscheinlichkeit jedes Ereignisses berechnen können.
Im obigen Beispiel mit der ersten Annahme ist es einfach, die Wahrscheinlichkeit eines Ereignisses zu berechnen. In einigen anderen Beispielen kann die Berechnung jedoch komplex oder sogar unpraktisch sein (zum Beispiel kann sie Millionen von Jahren an Berechnung erfordern). Für die Annahme, die ein statistisches Modell darstellt, ist diese Schwierigkeit hinnehmbar: Die Durchführung der Berechnung muss nicht praktisch durchführbar, sondern nur theoretisch möglich sein.
Modellbeispiele
Angenommen, wir haben eine Population von Schulkindern mit gleichmäßig verteilten Kindern. Die Größe eines Kindes hängt stochastisch mit dem Alter zusammen: Wenn wir beispielsweise wissen, dass ein Kind 7 Jahre alt ist, wirkt sich dies auf die Wahrscheinlichkeit aus, dass das Kind 5 Fuß (ca. 152 cm) groß ist. Wir könnten diese Beziehung in einem linearen Regressionsmodell formalisieren, zum Beispiel: Wachstum=b0 + b1agei+ εi, wobei b0 der Schnittpunkt ist, b1 der Parameter ist, mit dem das Alter multipliziert wird, wenn man die Wachstumsprognose erhält, εi der Fehlerterm ist. Dies impliziert, dass die Körpergröße mit einem gewissen Fehler nach dem Alter vorhergesagt wird.
Ein gültiges Modell muss mit allen Datenpunkten übereinstimmen. Eine Gerade (Höhei=b0 + b1agei) kann also keine Gleichung für ein Datenmodell sein – es sei denn, sie passt exakt auf alle Datenpunkte, d.h. alle Datenpunkte liegen perfekt auf der Geraden. Der Fehlerterm εi muss in die Gleichung aufgenommen werden, damit das Modell an alle Datenpunkte passt.
Um einen statistischen Schluss zu ziehen, müssen wir zunächst einige Wahrscheinlichkeitsverteilungen für εi annehmen. Beispielsweise können wir annehmen, dass die Verteilungen von εi gaußförmig sind, mit einem Mittelwert von null. In diesem Fall hat das Modell 3 Parameter: b0, b1 und die Varianz der Gaußschen Verteilung.
Allgemeine Beschreibung
Ein statistisches Modell ist eine spezielle Klasse mathematischer Modelle. Was ein statistisches Modell von anderen mathematischen Modellen unterscheidet, ist, dass es nicht deterministisch ist. Es wird verwendet, um statistische Daten zu modellieren. Daher haben in einem statistischen Modell, das mit mathematischen Gleichungen definiert ist, einige Variablen keine spezifischen Werte, sondern stattdessen Wahrscheinlichkeitsverteilungen; das heißt, einige Variablen sind stochastisch. Im obigen Beispiel ist ε eine stochastische Variable; ohne diese Variable war das Modellwäre deterministisch.
Statistische Modelle werden häufig in der statistischen Analyse und Modellierung verwendet, selbst wenn der zu modellierende physikalische Prozess deterministisch ist. Beispielsweise ist das Werfen von Münzen im Prinzip ein deterministischer Vorgang; dennoch wird es normalerweise als stochastisch modelliert (über einen Bernoulli-Prozess).
Parametrische Modelle
Parametrische Modelle sind die am häufigsten verwendeten statistischen Modelle. In Bezug auf semiparametrische und nichtparametrische Modelle sagte Sir David Cox: "Sie beinh alten im Allgemeinen weniger Annahmen über die Struktur und Form der Verteilung, enth alten aber normalerweise starke Unabhängigkeitsannahmen." Wie alle anderen genannten Modelle werden sie auch häufig in der statistischen Methode der mathematischen Modellierung verwendet.
Mehrstufige Modelle
Mehrebenenmodelle (auch bekannt als hierarchische lineare Modelle, verschachtelte Datenmodelle, gemischte Modelle, Zufallskoeffizienten, Zufallseffektmodelle, Zufallsparametermodelle oder partitionierte Modelle) sind statistische Parametermodelle, die auf mehr als einer Ebene variieren. Ein Beispiel ist ein Schülerleistungsmodell, das Metriken für einzelne Schüler sowie Metriken für Klassenzimmer enthält, in denen Schüler gruppiert sind. Diese Modelle können als Verallgemeinerungen linearer Modelle (insbesondere linearer Regression) betrachtet werden, obwohl sie auch auf nichtlineare Modelle erweitert werden können. Diese Modelle sind gewordenviel beliebter, sobald genügend Rechenleistung und Software zur Verfügung standen.
Mehrebenenmodelle eignen sich besonders für Forschungsprojekte, bei denen Daten für Teilnehmer auf mehr als einer Ebene organisiert sind (dh verschachtelte Daten). Analyseeinheiten sind normalerweise Individuen (auf einer niedrigeren Ebene), die in Kontext-/Aggregateinheiten (auf einer höheren Ebene) eingebettet sind. Während die niedrigste Datenebene in Mehrebenenmodellen typischerweise individuell ist, können auch wiederholte Messungen von Einzelpersonen in Betracht gezogen werden. Somit bieten Mehrebenenmodelle einen alternativen Analysetyp für die univariate oder multivariate Analyse wiederholter Messungen. Individuelle Unterschiede in den Wachstumskurven können berücksichtigt werden. Darüber hinaus können Mehrebenenmodelle als Alternative zu ANCOVA verwendet werden, bei denen abhängige Variablenwerte für Kovariaten (z. B. individuelle Unterschiede) angepasst werden, bevor auf Behandlungsunterschiede getestet wird. Mehrebenenmodelle sind in der Lage, diese Experimente ohne die von ANCOVA geforderte Annahme einheitlicher Regressionssteigungen zu analysieren.
Mehrebenenmodelle können für Daten mit vielen Ebenen verwendet werden, obwohl Zweiebenenmodelle am gebräuchlichsten sind und sich der Rest dieses Artikels auf diese konzentriert. Die abhängige Variable sollte auf der niedrigsten Analyseebene untersucht werden.
Modellauswahl
Modellauswahlist die Aufgabe, anhand der Daten aus einer Reihe von Modellkandidaten auszuwählen, die im Rahmen der statistischen Modellierung durchgeführt wird. Im einfachsten Fall wird ein bereits vorhandener Datensatz betrachtet. Die Aufgabe kann jedoch auch das Entwerfen von Experimenten umfassen, damit die gesammelten Daten gut für die Modellauswahlaufgabe geeignet sind. Bei Kandidatenmodellen mit ähnlicher Vorhersage- oder Erklärungskraft ist das einfachste Modell wahrscheinlich die beste Wahl (Ockhams Rasiermesser).
Konishi & Kitagawa sagt: "Die meisten statistischen Inferenzprobleme können als Probleme im Zusammenhang mit der statistischen Modellierung betrachtet werden." In ähnlicher Weise sagte Cox: „Wie die Übersetzung des Gegenstands in das statistische Modell erfolgt, ist oft der wichtigste Teil der Analyse.“
Modellauswahl kann sich auch auf das Problem der Auswahl einiger weniger repräsentativer Modelle aus einer großen Menge von Rechenmodellen für Entscheidungs- oder Optimierungszwecke unter Unsicherheit beziehen.
Grafische Muster
Graphisches Modell oder probabilistisches grafisches Modell (PGM) oder strukturiertes probabilistisches Modell ist ein probabilistisches Modell, für das der Graph die Struktur einer bedingten Beziehung zwischen Zufallsvariablen ausdrückt. Sie werden häufig in der Wahrscheinlichkeitstheorie, Statistik (insbesondere Bayessche Statistik) und maschinellem Lernen verwendet.
Ökonometrische Modelle
Ökonometrische Modelle sind statistische Modelle, die in verwendet werdenÖkonometrie. Ein ökonometrisches Modell definiert die statistischen Beziehungen, von denen angenommen wird, dass sie zwischen verschiedenen wirtschaftlichen Größen bestehen, die sich auf ein bestimmtes wirtschaftliches Phänomen beziehen. Ein ökonometrisches Modell kann von einem deterministischen Wirtschaftsmodell abgeleitet werden, das Unsicherheiten berücksichtigt, oder von einem Wirtschaftsmodell, das selbst stochastisch ist. Es können aber auch ökonometrische Modelle verwendet werden, die nicht an eine bestimmte Wirtschaftstheorie gebunden sind.