Das Konzept der Informationsentropie impliziert den negativen Logarithmus der Wahrscheinlichkeitsmassenfunktion für einen Wert. Wenn also die Datenquelle einen Wert mit einer geringeren Wahrscheinlichkeit hat (d. h. wenn ein Ereignis mit einer geringen Wahrscheinlichkeit eintritt), enthält das Ereignis mehr „Informationen“(„Überraschung“), als wenn die Quelldaten einen Wert mit einer höheren Wahrscheinlichkeit haben.
Die Menge an Information, die jedes so definierte Ereignis vermittelt, wird zu einer Zufallsvariablen, deren Erwartungswert die Informationsentropie ist. Im Allgemeinen bezieht sich Entropie auf Unordnung oder Ungewissheit, und ihre in der Informationstheorie verwendete Definition ist direkt analog zu der in der statistischen Thermodynamik verwendeten. Das Konzept des IE wurde 1948 von Claude Shannon in seiner Arbeit „A Mathematical Theory of Communication“eingeführt. Daher stammt auch der Begriff „Shannons Informationsentropie“.
Definition und System
Das Grundmodell eines Datenübertragungssystems besteht aus drei Elementen: einer Datenquelle, einem Kommunikationskanal und einem Empfänger,und, wie Shannon es ausdrückt, besteht das „grundlegende Kommunikationsproblem“darin, dass der Empfänger anhand des über den Kanal empfangenen Signals erkennen kann, welche Daten von der Quelle generiert wurden. Entropie stellt eine absolute Einschränkung für die kürzestmögliche durchschnittliche verlustfreie Codierungslänge von komprimierten Quelldaten bereit. Wenn die Entropie der Quelle geringer ist als die Bandbreite des Kommunikationskanals, können die von ihr erzeugten Daten zuverlässig an den Empfänger übertragen werden (zumindest theoretisch, vielleicht unter Vernachlässigung einiger praktischer Überlegungen wie der Komplexität des Systems, das zur Übertragung der Daten erforderlich ist und die Dauer der Datenübertragung).
Informationsentropie wird normalerweise in Bits (auch "shannons" genannt) oder manchmal in "natürlichen Einheiten" (nats) oder Dezimalstellen (genannt "dits", "bans" oder "hartleys") gemessen. Die Maßeinheit hängt von der Basis des Logarithmus ab, der zur Bestimmung der Entropie verwendet wird.
Eigenschaften und Logarithmus
Die logarithmische Wahrscheinlichkeitsverteilung ist als Maß für die Entropie nützlich, da sie für unabhängige Quellen additiv ist. Beispielsweise beträgt die Entropie einer fairen Wette auf eine Münze 1 Bit, während die Entropie von m Volumen m Bits beträgt. In einer einfachen Darstellung werden log2(n) Bits benötigt, um eine Variable darzustellen, die einen von n Werten annehmen kann, wenn n eine Potenz von 2 ist. Sind diese Werte gleich wahrscheinlich, ist dies die Entropie (in Bits). gleich dieser Zahl. Wenn einer der Werte wahrscheinlicher ist als die anderen, ist dies die BeobachtungBedeutung auftritt, ist weniger informativ, als wenn ein weniger allgemeines Ergebnis auftreten würde. Umgekehrt liefern seltenere Ereignisse zusätzliche Tracking-Informationen.
Da weniger wahrscheinliche Ereignisse seltener beobachtet werden, gibt es nichts Gemeinsames, dass die Entropie (die als durchschnittliche Information betrachtet wird), die aus ungleich verteilten Daten erh alten wird, immer kleiner oder gleich log2(n) ist. Die Entropie ist null, wenn ein Ergebnis definiert ist.
Shannons Informationsentropie quantifiziert diese Überlegungen, wenn die Wahrscheinlichkeitsverteilung der zugrunde liegenden Daten bekannt ist. Die Bedeutung von beobachteten Ereignissen (die Bedeutung von Nachrichten) ist für die Definition von Entropie irrelevant. Letzteres berücksichtigt nur die Wahrscheinlichkeit, ein bestimmtes Ereignis zu sehen, sodass die darin enth altenen Informationen Daten über die zugrunde liegende Verteilung von Möglichkeiten sind, nicht über die Bedeutung der Ereignisse selbst. Die Eigenschaften der Informationsentropie bleiben die gleichen wie oben beschrieben.
Informationstheorie
Die Grundidee der Informationstheorie ist, dass je mehr man über ein Thema weiß, desto weniger Informationen kann man darüber bekommen. Wenn ein Ereignis sehr wahrscheinlich ist, ist es nicht überraschend, wenn es eintritt, und liefert daher wenig neue Informationen. Umgekehrt, wenn das Ereignis unwahrscheinlich war, war es viel informativer, dass das Ereignis stattgefunden hat. Daher ist die Nutzlast eine zunehmende Funktion der inversen Wahrscheinlichkeit des Ereignisses (1 / p).
Nun, wenn mehr Ereignisse passieren, Entropiemisst den durchschnittlichen Informationsgeh alt, den Sie erwarten können, wenn eines der Ereignisse eintritt. Das bedeutet, dass das Werfen eines Würfels mehr Entropie hat als das Werfen einer Münze, weil jedes Kristallergebnis eine geringere Wahrscheinlichkeit hat als jedes Münzergebnis.
Funktionen
Entropie ist also ein Maß für die Unberechenbarkeit eines Zustands oder, was dasselbe ist, für seinen durchschnittlichen Informationsgeh alt. Betrachten Sie das Beispiel einer politischen Umfrage, um ein intuitives Verständnis dieser Begriffe zu erh alten. Normalerweise finden solche Umfragen statt, weil beispielsweise die Ergebnisse von Wahlen noch nicht bekannt sind.
Mit anderen Worten, die Ergebnisse der Umfrage sind relativ unvorhersehbar, und tatsächlich liefert die Durchführung und Untersuchung der Daten einige neue Informationen; sie sind nur unterschiedliche Arten zu sagen, dass die vorherige Entropie der Umfrageergebnisse groß ist.
Stellen Sie sich nun den Fall vor, in dem dieselbe Umfrage kurz nach der ersten ein zweites Mal durchgeführt wird. Da das Ergebnis der ersten Umfrage bereits bekannt ist, können die Ergebnisse der zweiten Umfrage gut vorhergesagt werden und die Ergebnisse sollten nicht viele neue Informationen enth alten; in diesem Fall ist die A-priori-Entropie des zweiten Umfrageergebnisses klein im Vergleich zum ersten.
Münzwurf
Betrachte nun das Beispiel des Werfens einer Münze. Unter der Annahme, dass die Wahrscheinlichkeit für Zahl gleich der Wahrscheinlichkeit für Kopf ist, ist die Entropie eines Münzwurfs sehr hoch, da dies ein besonderes Beispiel für die Informationsentropie eines Systems ist.
Das liegt darandass es unmöglich ist vorherzusagen, dass das Ergebnis einer Münze im Voraus geworfen wird: Wenn wir uns entscheiden müssen, ist das Beste, was wir tun können, vorherzusagen, dass die Münze auf „Zahl“landen wird, und diese Vorhersage wird mit einer Wahrscheinlichkeit von richtig sein 1 / 2. Ein solcher Münzwurf hat ein Bit Entropie, da es zwei mögliche Ergebnisse gibt, die mit gleicher Wahrscheinlichkeit eintreten, und das Studium des tatsächlichen Ergebnisses ein Bit an Information enthält.
Im Gegensatz dazu hat das Werfen einer Münze auf beiden Seiten mit Zahl und ohne Kopf keine Entropie, da die Münze immer auf diesem Zeichen landet und das Ergebnis perfekt vorhergesagt werden kann.
Schlussfolgerung
Wenn das Komprimierungsschema verlustfrei ist, was bedeutet, dass Sie immer die gesamte ursprüngliche Nachricht durch Dekomprimieren wiederherstellen können, dann hat die komprimierte Nachricht die gleiche Menge an Informationen wie das Original, wird aber mit weniger Zeichen übertragen. Das heißt, es hat mehr Informationen oder eine höhere Entropie pro Zeichen. Das bedeutet, dass die komprimierte Nachricht weniger Redundanz hat.
Grob gesagt besagt Shannons Quellcode-Codierungstheorem, dass ein verlustfreies Komprimierungsschema Nachrichten im Durchschnitt nicht auf mehr als ein Informationsbit pro Nachrichtenbit reduzieren kann, aber jeder Wert von weniger als einem Informationsbit pro Bit kann erreicht werden - Nachrichten, die das geeignete Codierungsschema verwenden. Die Entropie einer Nachricht in Bit mal ihrer Länge ist ein Maß dafür, wie viele allgemeine Informationen sie enthält.