Logistische Regression: Modell und Methoden

Inhaltsverzeichnis:

Logistische Regression: Modell und Methoden
Logistische Regression: Modell und Methoden
Anonim

Methoden der logistischen Regression und der Diskriminanzanalyse werden verwendet, wenn es notwendig ist, die Befragten klar nach Zielkategorien zu differenzieren. In diesem Fall werden die Gruppen selbst durch Ebenen eines Parameters mit einer einzigen Variante dargestellt. Schauen wir uns das logistische Regressionsmodell genauer an und finden heraus, warum es benötigt wird.

logistische Regression
logistische Regression

Allgemeine Informationen

Ein Beispiel für ein Problem, bei dem die logistische Regression verwendet wird, ist die Einteilung der Befragten in Gruppen, die Senf kaufen und nicht kaufen. Die Differenzierung erfolgt nach soziodemografischen Merkmalen. Dazu gehören insbesondere Alter, Geschlecht, Anzahl der Angehörigen, Einkommen etc. Im Betrieb gibt es Differenzierungskriterien und eine Variable. Letztere kodiert die Zielkategorien, in die die Befragten eigentlich eingeteilt werden sollen.

Nuancen

Es sollte gesagt werden, dass der Bereich der Fälle, in denen die logistische Regression angewendet wird, viel enger ist als bei der Diskriminanzanalyse. In diesem Zusammenhang wird der Einsatz letzterer als universelle Differenzierungsmethode in Betracht gezogenmehr bevorzugt. Darüber hinaus empfehlen Experten, Klassifikationsstudien mit einer Diskriminanzanalyse zu beginnen. Und nur bei Unsicherheit über die Ergebnisse können Sie die logistische Regression verwenden. Dieser Bedarf ist auf mehrere Faktoren zurückzuführen. Die logistische Regression wird verwendet, wenn ein klares Verständnis der Art der unabhängigen und abhängigen Variablen besteht. Dementsprechend wird eines der 3 möglichen Verfahren ausgewählt. Bei der Diskriminanzanalyse hat es der Forscher immer mit einer statischen Operation zu tun. Es beinh altet eine abhängige und mehrere unabhängige kategoriale Variablen mit beliebigen Skalen.

Aufrufe

Die Aufgabe einer statistischen Studie mit logistischer Regression besteht darin, die Wahrscheinlichkeit zu ermitteln, mit der ein bestimmter Befragter einer bestimmten Gruppe zugeordnet wird. Die Differenzierung erfolgt nach bestimmten Parametern. In der Praxis ist es nach den Werten eines oder mehrerer unabhängiger Faktoren möglich, die Befragten in zwei Gruppen einzuteilen. In diesem Fall findet eine binäre logistische Regression statt. Außerdem können die angegebenen Parameter verwendet werden, wenn in Gruppen von mehr als zwei geteilt wird. In einer solchen Situation findet eine multinomiale logistische Regression statt. Die resultierenden Gruppen werden in Stufen einer einzelnen Variablen ausgedrückt.

logistische Regression
logistische Regression

Beispiel

Nehmen wir an, es gibt Antworten der Befragten auf die Frage, ob sie an dem Angebot interessiert sind, ein Grundstück in einem Vorort von Moskau zu kaufen. Die Optionen sind "nein"und ja. Es gilt herauszufinden, welche Faktoren einen überwiegenden Einfluss auf die Entscheidung potentieller Käufer haben. Dazu werden den Befragten Fragen zur Infrastruktur des Territoriums, zur Entfernung zur Hauptstadt, zur Fläche des Standorts, zum Vorhandensein / Fehlen eines Wohngebäudes usw. gestellt. Mithilfe der binären Regression ist eine Verteilung möglich die Befragten in zwei Gruppen. Die erste umfasst diejenigen, die an der Übernahme interessiert sind - potenzielle Käufer, und die zweite jeweils diejenigen, die an einem solchen Angebot nicht interessiert sind. Für jeden Befragten wird zusätzlich die Wahrscheinlichkeit berechnet, der einen oder anderen Kategorie zugeordnet zu werden.

Vergleichsmerkmale

Der Unterschied zu den beiden obigen Optionen ist die unterschiedliche Anzahl von Gruppen und die Art der abhängigen und unabhängigen Variablen. Bei der binären Regression wird beispielsweise die Abhängigkeit eines dichotomen Faktors von einer oder mehreren unabhängigen Bedingungen untersucht. Darüber hinaus können letztere jede Art von Skalierung haben. Die multinomiale Regression wird als Variation dieser Klassifizierungsoption angesehen. Darin gehören mehr als 2 Gruppen zur abhängigen Variablen. Die unabhängigen Faktoren müssen entweder eine ordinale oder eine nominale Skala haben.

Logistische Regression in spss

Im Statistikpaket 11-12 wurde eine neue Version der Analyse eingeführt - ordinal. Diese Methode wird verwendet, wenn der abhängige Faktor zur gleichnamigen (ordinalen) Skala gehört. In diesem Fall werden unabhängige Variablen eines bestimmten Typs ausgewählt. Sie müssen entweder ordinal oder nominal sein. Die Einteilung in mehrere Kategorien wird am meisten berücksichtigtUniversal. Diese Methode kann in allen Studien verwendet werden, die die logistische Regression verwenden. Die einzige Möglichkeit, die Qualität eines Modells zu verbessern, besteht jedoch darin, alle drei Techniken anzuwenden.

Angemessenheitsqualitätsprüfung und logistische Regression
Angemessenheitsqualitätsprüfung und logistische Regression

Ordinale Klassifikation

Es sollte gesagt werden, dass es früher im Statistikpaket keine typische Möglichkeit gab, spezialisierte Analysen für abhängige Faktoren mit einer Ordinalskala durchzuführen. Für alle Variablen mit mehr als 2 Gruppen wurde die multinominale Variante verwendet. Die relativ neu eingeführte Ordinalanalyse weist eine Reihe von Merkmalen auf. Sie berücksichtigen die Besonderheiten der Skala. Inzwischen wird in Lehrmitteln die ordinale logistische Regression oft nicht als separate Technik betrachtet. Dies hat folgende Gründe: Die Ordinalanalyse hat gegenüber der Multinomialanalyse keine wesentlichen Vorteile. Der Forscher kann letzteres gut verwenden, wenn sowohl eine ordinale als auch eine nominale abhängige Variable vorhanden sind. Dabei unterscheiden sich die Klassifikationsprozesse selbst kaum voneinander. Das bedeutet, dass die ordinale Analyse keine Schwierigkeiten bereiten wird.

Analyseoption

Betrachten wir einen einfachen Fall - binäre Regression. Angenommen, im Prozess der Marktforschung wird die Nachfrage nach Absolventen einer bestimmten Universität in einer Metropole ermittelt. Im Fragebogen wurden den Befragten Fragen gestellt, darunter:

  1. Sind Sie berufstätig? (ql).
  2. Abschlussjahr eingeben (q 21).
  3. Was ist der DurchschnittAbschlussnote (Durchschnitt).
  4. Geschlecht (q22).

Die logistische Regression bewertet die Auswirkung der unabhängigen Faktoren aver, q 21 und q 22 auf die Variable ql. Einfach ausgedrückt, der Zweck der Analyse besteht darin, die wahrscheinliche Beschäftigung von Absolventen auf der Grundlage von Informationen über das Fachgebiet, das Jahr des Abschlusses und den Notendurchschnitt zu bestimmen.

Indikator für die logistische Sigmoid-Regression
Indikator für die logistische Sigmoid-Regression

Logistische Regression

Um Parameter mithilfe der binären Regression einzustellen, verwenden Sie das Menü Analysieren►Regression►Binäre Logistik. Wählen Sie im Fenster Logistische Regression den abhängigen Faktor aus der Liste der verfügbaren Variablen auf der linken Seite aus. Es ist ql. Diese Variable muss im Feld Abhängig platziert werden. Danach ist es notwendig, unabhängige Faktoren in das Diagramm der Kovariaten einzuführen - q 21, q 22, aver. Dann müssen Sie auswählen, wie Sie sie in Ihre Analyse einbeziehen möchten. Wenn die Anzahl der unabhängigen Faktoren mehr als 2 beträgt, wird die standardmäßig eingestellte Methode der gleichzeitigen Einführung aller Variablen verwendet, jedoch schrittweise. Die beliebteste Methode ist Backward:LR. Über die Sch altfläche Auswählen können Sie nicht alle Befragten, sondern nur eine bestimmte Zielkategorie in die Studie aufnehmen.

Kategoriale Variablen definieren

Die Sch altfläche „Kategorial“sollte verwendet werden, wenn eine der unabhängigen Variablen nominal ist und mehr als 2 Kategorien aufweist. In dieser Situation wird im Fenster „Kategoriale Variablen definieren“ein solcher Parameter im Abschnitt „Kategoriale Kovariaten“platziert. In diesem Beispiel gibt es keine solche Variable. Danach folgt in der Dropdown-Liste KontrastWählen Sie das Element Abweichung und drücken Sie die Sch altfläche Ändern. Dadurch werden aus jedem Nominalfaktor mehrere abhängige Variablen gebildet. Ihre Anzahl entspricht der Anzahl der Kategorien der Anfangsbedingung.

Neue Variablen speichern

Über die Sch altfläche Speichern im Hauptdialog der Studie wird die Erstellung neuer Parameter eingestellt. Sie enth alten die im Regressionsprozess berechneten Indikatoren. Insbesondere können Sie Variablen erstellen, die Folgendes definieren:

  1. Zugehörigkeit zu einer bestimmten Klassifikationskategorie (Gruppenmitgliedschaft).
  2. Wahrscheinlichkeit der Zuordnung eines Befragten zu jeder Studiengruppe (Wahrscheinlichkeiten).

Wenn Sie die Sch altfläche Optionen verwenden, erhält der Forscher keine wesentlichen Optionen. Dementsprechend kann es vernachlässigt werden. Nachdem Sie auf die Sch altfläche "OK" geklickt haben, werden die Ergebnisse der Analyse im Hauptfenster angezeigt.

Logistischer Regressionskoeffizient
Logistischer Regressionskoeffizient

Qualitätsprüfung auf Angemessenheit und logistische Regression

Betrachten Sie die Tabelle Omnibus-Tests der Modellkoeffizienten. Es zeigt die Ergebnisse der Analyse der Qualität der Approximation des Modells an. Da eine Schritt-für-Schritt-Option eingestellt wurde, müssen Sie sich die Ergebnisse der letzten Stufe (Schritt 2) ansehen. Ein positives Ergebnis wird gewertet, wenn beim Übergang zur nächsten Stufe ein Anstieg des Chi-Quadrat-Indikators mit hoher Signifikanz festgestellt wird (Sig. < 0,05). Die Qualität des Modells wird in der Modellreihe bewertet. Ergibt sich ein negativer Wert, wird dieser bei der insgesamt hohen Materialität des Modells aber als nicht signifikant angesehen, der letzteals praktisch geeignet angesehen werden.

Tabellen

Model Summary ermöglicht es, den Gesamtvarianzindex abzuschätzen, der durch das konstruierte Modell (R-Quadrat-Index) beschrieben wird. Es wird empfohlen, den Nagelker-Wert zu verwenden. Der Parameter Nagelkerke R Square kann als positiver Indikator angesehen werden, wenn er über 0,50 liegt. Danach werden die Ergebnisse der Klassifizierung ausgewertet, bei der die tatsächlichen Indikatoren der Zugehörigkeit zu der einen oder anderen untersuchten Kategorie mit den auf der Grundlage des Regressionsmodells vorhergesagten verglichen werden. Dazu wird die Klassifikationstabelle verwendet. Es erlaubt uns auch, Rückschlüsse auf die Richtigkeit der Differenzierung für jede betrachtete Gruppe zu ziehen.

Logistisches Regressionsmodell
Logistisches Regressionsmodell

Die folgende Tabelle bietet die Möglichkeit, die statistische Signifikanz der in die Analyse eingegebenen unabhängigen Faktoren sowie jedes nicht standardisierten logistischen Regressionskoeffizienten herauszufinden. Basierend auf diesen Indikatoren ist es möglich, die Zugehörigkeit jedes Befragten in der Stichprobe zu einer bestimmten Gruppe vorherzusagen. Über die Sch altfläche Speichern können Sie neue Variablen eingeben. Sie enth alten Informationen über die Zugehörigkeit zu einer bestimmten Klassifikationskategorie (Predictedcategory) und die Wahrscheinlichkeit, in diese Gruppen aufgenommen zu werden (Predicted Probabilities Membership). Nachdem Sie auf "OK" geklickt haben, werden die Berechnungsergebnisse im Hauptfenster der Multinomialen Logistischen Regression angezeigt.

Die erste Tabelle, die für den Forscher wichtige Indikatoren enthält, sind Informationen zur Modellanpassung. Ein hohes Maß an statistischer Signifikanz weist auf eine hohe Qualität hinEignung des Modells zur Lösung praktischer Probleme. Eine weitere wichtige Tabelle ist Pseudo R-Square. Damit können Sie den Anteil der Gesamtvarianz des abhängigen Faktors schätzen, der durch die für die Analyse ausgewählten unabhängigen Variablen bestimmt wird. Anhand der Tabelle Likelihood Ratio Tests können wir Rückschlüsse auf die statistische Signifikanz letzterer ziehen. Parameterschätzungen spiegeln nicht standardisierte Koeffizienten wider. Sie werden beim Aufbau der Gleichung verwendet. Außerdem wurde für jede Kombination von Variablen die statistische Signifikanz ihres Einflusses auf den abhängigen Faktor bestimmt. Mittlerweile ist es in der Marktforschung oft notwendig, Befragte nicht individuell, sondern als Teil der Zielgruppe nach Kategorien zu differenzieren. Dazu wird die Tabelle der beobachteten und vorhergesagten Häufigkeiten verwendet.

Praktische Anwendung

Die betrachtete Analysemethode ist in der Arbeit von Händlern weit verbreitet. 1991 wurde der logistische Sigmoid-Regressionsindikator entwickelt. Es ist ein benutzerfreundliches und effektives Werkzeug, um wahrscheinliche Preise vorherzusagen, bevor sie „überhitzen“. Der Indikator wird auf dem Chart als Kanal dargestellt, der aus zwei parallelen Linien besteht. Sie sind gleich weit vom Trend entfernt. Die Breite des Korridors hängt allein vom Zeitrahmen ab. Der Indikator wird bei der Arbeit mit fast allen Vermögenswerten verwendet - von Währungspaaren bis zu Edelmetallen.

logistische Regression in spss
logistische Regression in spss

In der Praxis haben sich 2 Schlüsselstrategien für den Einsatz des Instruments entwickelt: für Breakout undfür eine Runde. Im letzteren Fall konzentriert sich der Händler auf die Dynamik der Preisänderungen innerhalb des Kanals. Wenn sich der Wert der Unterstützungs- oder Widerstandslinie nähert, wird auf die Wahrscheinlichkeit gesetzt, dass die Bewegung in die entgegengesetzte Richtung beginnt. Nähert sich der Kurs der oberen Grenze, dann können Sie den Vermögenswert loswerden. Liegt es an der unteren Grenze, dann sollten Sie über eine Anschaffung nachdenken. Die Breakout-Strategie beinh altet die Verwendung von Orders. Sie werden in relativ geringem Abstand außerhalb der Grenzen installiert. Berücksichtigt man, dass der Kurs in manchen Fällen kurzzeitig dagegen verstößt, sollte man auf Nummer sicher gehen und Stop-Losses setzen. Gleichzeitig muss der Händler natürlich unabhängig von der gewählten Strategie die auf dem Markt entstandene Situation so gelassen wie möglich wahrnehmen und bewerten.

Schlussfolgerung

Die Verwendung der logistischen Regression ermöglicht es Ihnen also, die Befragten anhand der vorgegebenen Parameter schnell und einfach in Kategorien einzuteilen. Bei der Analyse können Sie eine beliebige Methode verwenden. Insbesondere die multinomiale Regression ist universell. Experten empfehlen jedoch, alle oben beschriebenen Methoden in Kombination anzuwenden. Dies liegt daran, dass in diesem Fall die Qualität des Modells deutlich höher sein wird. Dies wiederum wird den Anwendungsbereich erweitern.

Empfohlen: