Bayessche Netzwerke: Definition, Beispiele und wie sie funktionieren

Inhaltsverzeichnis:

Bayessche Netzwerke: Definition, Beispiele und wie sie funktionieren
Bayessche Netzwerke: Definition, Beispiele und wie sie funktionieren
Anonim

Eine Überzeugung, ein Entscheidungsnetzwerk, ein Bayes'sches (ianisches) Modell oder ein probabilistisch gesteuertes azyklisches Graphenmodell ist ein Variantenschema (eine Art statistisches Modell), das einen Satz von Variablen und ihre bedingten Abhängigkeiten durch einen gerichteten azyklischen Graphen (DAG) darstellt).

Zum Beispiel kann ein Bayes'sches Netzwerk probabilistische Beziehungen zwischen Krankheiten und Symptomen darstellen. Wenn letzteres gegeben ist, kann das Netzwerk verwendet werden, um die Möglichkeit zu berechnen, verschiedene Krankheiten zu haben. Im Video unten sehen Sie ein Beispiel für ein Bayes'sches Glaubensnetz mit Berechnungen.

Image
Image

Effizienz

Effiziente Algorithmen können Inferenz und Lernen in Bayes'schen Netzwerken durchführen. Netzwerke, die Variablen (wie Sprachsignale oder Proteinsequenzen) modellieren, werden als dynamische Netzwerke bezeichnet. Verallgemeinerungen von Bayes'schen Netzwerken, die Probleme unter Unsicherheit darstellen und lösen können, werden Einflussdiagramme genannt.

Essenz

FormellBayessche Netzwerke sind DAGs, deren Knoten Variablen im Bayesschen Sinne darstellen: Sie können beobachtete Werte, verborgene Variablen, unbekannte Parameter oder Hypothesen sein. Weil es sehr interessant ist.

Bayes'sches Netzwerk Beispiel

Zwei Ereignisse können dazu führen, dass Gras nass wird: ein aktiver Sprinkler oder Regen. Regen wirkt sich direkt auf die Verwendung des Sprinklers aus (nämlich, dass der Sprinkler bei Regen normalerweise inaktiv ist). Diese Situation kann mit einem Bayes'schen Netzwerk modelliert werden.

Typische Formel
Typische Formel

Simulation

Da das Bayes'sche Netzwerk ein vollständiges Modell für seine Variablen und ihre Beziehungen ist, kann es verwendet werden, um probabilistische Anfragen zu ihnen zu beantworten. Beispielsweise kann es verwendet werden, um das Wissen über den Zustand einer Teilmenge von Variablen zu aktualisieren, wenn andere Daten (Evidenzvariablen) beobachtet werden. Dieser interessante Prozess wird probabilistische Inferenz genannt.

A posteriori gibt eine universell ausreichende Statistik für Entdeckungsanwendungen, wenn Werte für eine Teilmenge von Variablen ausgewählt werden. Somit kann dieser Algorithmus als ein Mechanismus zum automatischen Anwenden des Satzes von Bayes auf komplexe Probleme betrachtet werden. In den Bildern im Artikel sehen Sie Beispiele für Bayes'sche Glaubensnetzwerke.

Praktisches Bayes'sches Netzwerk
Praktisches Bayes'sches Netzwerk

Ausgabemethoden

Die gebräuchlichsten exakten Inferenzmethoden sind: Variableneliminierung, die (durch Integration oder Summierung) das Unbeobachtbare eliminiertnicht abgefragte Parameter einzeln durch Zuordnung der Menge zum Produkt.

Click-Propagation eines "Baums", der Berechnungen zwischenspeichert, so dass viele Variablen auf einmal abgefragt und neue Beweise schnell propagiert werden können; und rekursives Matching und/oder Suchen, die Kompromisse zwischen Raum und Zeit zulassen und die Effizienz der Variableneliminierung anpassen, wenn genügend Platz verwendet wird.

All diese Methoden haben eine besondere Komplexität, die exponentiell von der Länge des Netzwerks abhängt. Die gebräuchlichsten ungefähren Inferenzalgorithmen sind die Eliminierung von Minisegmenten, die Ausbreitung zyklischer Überzeugungen, die Ausbreitung generalisierter Überzeugungen und Variationsmethoden.

Arten von Netzwerken
Arten von Netzwerken

Networking

Um das Bayes'sche Netz vollständig zu spezifizieren und damit die gemeinsame Wahrscheinlichkeitsverteilung vollständig darzustellen, ist es notwendig, für jeden Knoten X die Wahrscheinlichkeitsverteilung für X aufgrund der Eltern von X anzugeben.

Die bedingte Verteilung von X durch seine Eltern kann jede Form haben. Es ist üblich, mit diskreten oder Gaußschen Verteilungen zu arbeiten, da dies die Berechnungen vereinfacht. Manchmal sind nur Verteilungsbeschränkungen bekannt. Sie können dann die Entropie verwenden, um die einzelne Verteilung zu bestimmen, die angesichts der Einschränkungen die höchste Entropie hat.

In ähnlicher Weise, im spezifischen Kontext eines dynamischen Bayes'schen Netzwerks, die bedingte Verteilung für die zeitliche Entwicklung des LatentDer Zustand wird normalerweise so eingestellt, dass die Entropierate des impliziten Zufallsprozesses maximiert wird.

Bayes'sches Vertrauensnetz
Bayes'sches Vertrauensnetz

Die direkte Maximierung der Wahrscheinlichkeit (oder A-Posteriori-Wahrscheinlichkeit) ist oft schwierig, wenn unbeobachtete Variablen vorhanden sind. Dies gilt insbesondere für ein Bayes'sches Entscheidungsnetzwerk.

Klassischer Ansatz

Der klassische Ansatz für dieses Problem ist der Erwartungsmaximierungsalgorithmus, der die Berechnung der erwarteten Werte von unbeobachteten Variablen in Abhängigkeit von den beobachteten Daten mit der Maximierung der Gesamtwahrscheinlichkeit (oder des späteren Werts) abwechselt, unter der Annahme, dass die zuvor berechneten erwartet werden Werte stimmen. Unter Bedingungen mäßiger Regelmäßigkeit konvergiert dieser Prozess in den maximalen (oder maximalen a posteriori) Werten der Parameter.

Ein vollständigerer Bayes'scher Ansatz für Parameter besteht darin, sie als zusätzliche unbeobachtete Variablen zu behandeln und die vollständige Posterior-Verteilung über alle Knoten anhand der beobachteten Daten zu berechnen und dann die Parameter zu integrieren. Dieser Ansatz kann kostspielig sein und zu großen Modellen führen, wodurch klassische Parameter-Tuning-Ansätze zugänglicher werden.

Im einfachsten Fall wird ein Bayes'sches Netz von einem Experten definiert und dann zur Durchführung von Inferenzen verwendet. Bei anderen Anwendungen ist die Bestimmungsaufgabe für einen Menschen zu schwierig. In diesem Fall müssen die Struktur des Bayesschen neuronalen Netzes und die Parameter lokaler Verteilungen unter den Daten gelernt werden.

Bayessche Netzwerke
Bayessche Netzwerke

Alternative Methode

Eine alternative Methode des strukturierten Lernens verwendet die Optimierungssuche. Dies erfordert die Anwendung einer Bewertungsfunktion und einer Suchstrategie. Ein gängiger Bewertungsalgorithmus ist die A-Posteriori-Wahrscheinlichkeit einer Struktur bei gegebenen Trainingsdaten wie BIC oder BDeu.

Die Zeit, die für eine erschöpfende Suche benötigt wird, die eine Struktur zurückgibt, die die Punktzahl maximiert, ist superexponentiell in der Anzahl der Variablen. Die lokale Suchstrategie nimmt inkrementelle Änderungen vor, um die Strukturschätzung zu verbessern. Friedman und seine Kollegen erwogen, die gegenseitige Information zwischen Variablen zu verwenden, um die gewünschte Struktur zu finden. Sie beschränken die Menge der Elternkandidaten auf k Knoten und durchsuchen sie gründlich.

Eine besonders schnelle Methode, BN genau zu studieren, besteht darin, sich das Problem als Optimierungsproblem vorzustellen und es mit ganzzahliger Programmierung zu lösen. Azyklizitätsbedingungen werden dem ganzzahligen Programm (IP) während der Lösung in Form von Schnittebenen hinzugefügt. Eine solche Methode kann Probleme mit bis zu 100 Variablen handhaben.

Graphen und Netzwerke
Graphen und Netzwerke

Problemlösung

Um Probleme mit Tausenden von Variablen zu lösen, ist ein anderer Ansatz erforderlich. Eine besteht darin, zuerst eine Ordnung auszuwählen und dann die optimale BN-Struktur in Bezug auf diese Ordnung zu finden. Dies impliziert das Arbeiten im Suchraum möglicher Ordnungen, was praktisch ist, weil er kleiner ist als der Raum von Netzwerkstrukturen. Anschließend werden mehrere Aufträge ausgewählt und bewertet. Diese Methode stellte sich herausam besten in der Literatur verfügbar, wenn die Anzahl der Variablen riesig ist.

Eine andere Methode besteht darin, sich auf eine Unterklasse zerlegbarer Modelle zu konzentrieren, für die MLEs geschlossen sind. Dann finden Sie eine konsistente Struktur für Hunderte von Variablen.

Das Studium bayesischer Netzwerke mit einer begrenzten Breite von drei Linien ist notwendig, um eine genaue, interpretierbare Inferenz zu liefern, da die Komplexität des letzteren im schlimmsten Fall exponentiell in der Baumlänge k ist (gemäß der exponentiellen Zeithypothese). Als globale Eigenschaft des Graphen erhöht es jedoch die Komplexität des Lernprozesses erheblich. In diesem Zusammenhang kann K-Tree für effektives Lernen eingesetzt werden.

Kurzes Netzwerk
Kurzes Netzwerk

Entwicklung

Die Entwicklung eines Bayes'schen Web of Trust beginnt oft mit der Erstellung eines DAG G, so dass X eine lokale Markov-Eigenschaft in Bezug auf G erfüllt. Manchmal ist dies ein kausaler DAG. Geschätzt werden die bedingten Wahrscheinlichkeitsverteilungen jeder Variablen über ihre Eltern in G. In vielen Fällen, insbesondere wenn die Variablen diskret sind, wird X ein Bayes'sches Netzwerk in Bezug auf, wenn die gemeinsame Verteilung von X das Produkt dieser bedingten Verteilungen ist G.

Markovs "Knotendecke" ist eine Reihe von Knoten. Der Markov-Quilt macht den Knoten unabhängig vom Rest des Rohlings des gleichnamigen Knotens und ist ausreichend Wissen, um seine Verteilung zu berechnen. X ist ein Bayes'sches Netzwerk in Bezug auf G, wenn jeder Knoten aufgrund seines Markovians bedingt unabhängig von allen anderen Knoten istDecke.

Empfohlen: