Häufigkeitstextanalyse: Merkmale und Beispiele

Inhaltsverzeichnis:

Häufigkeitstextanalyse: Merkmale und Beispiele
Häufigkeitstextanalyse: Merkmale und Beispiele
Anonim

Du bist diesem Konzept mehr als einmal in deinem Leben begegnet, wenn du mit Texten arbeiten musstest. Insbesondere könnten Sie auf Online-Rechner zurückgreifen, die genau die Häufigkeitsanalyse des Textes durchführen. Diese praktischen Tools zeigen an, wie oft ein bestimmtes Zeichen oder ein bestimmter Buchstabe in einer Textpassage vorkommt. Oft wird auch eine Prozentzahl angezeigt. Warum wird das benötigt? Wie trägt die Häufigkeitsanalyse von Text zum „Knacken“einfacher Chiffren bei? Was ist sein Wesen, wer hat es erfunden? Diese und weitere wichtige Fragen zum Thema beantworten wir im Laufe des Artikels.

Definition

Frequenzanalyse ist eine der Spielarten der Kryptoanalyse. Es basiert auf der Annahme von Wissenschaftlern über die Existenz einer statistisch nicht trivialen Verteilung einzelner Zeichen und ihrer regelmäßigen Folgen sowohl im Klartext als auch im Chiffretext.

Es wird davon ausgegangen, dass eine solche Verteilung bis auf das Ersetzen einzelner Zeichen auch bei den Verschlüsselungs-/Entschlüsselungsvorgängen erh alten bleibt.

Frequenzanalyse von Systemen
Frequenzanalyse von Systemen

Prozessmerkmal

Werfen wir nun einen einfachen Blick auf die Häufigkeitsanalyse. Dies impliziert, dass die Anzahl der Vorkommen desselben alphabetischen Zeichens in Texten ausreichender Länge in verschiedenen Texten derselben Sprache gleich ist.

Und was ist nun mit der monoalphabetischen Verschlüsselung? Es wird davon ausgegangen, dass, wenn ein Zeichen mit einer solchen ähnlichen Wahrscheinlichkeit im Abschnitt mit Chiffretext vorkommt, es realistisch ist anzunehmen, dass es sich um diesen verschlüsselten Buchstaben handelt.

Anhänger der Häufigkeitstextanalyse wenden die gleiche Argumentation auf Digramme (Folgen von zwei Buchstaben) an. Trigramme - dies ist für den Fall von bereits polyalphabetischen Chiffren.

Geschichte der Methode

Frequenzanalyse von Wörtern ist kein Fundstück der Moderne. Es ist der wissenschaftlichen Welt seit dem 9. Jahrhundert bekannt. Seine Entstehung ist mit dem Namen Al-Kindi verbunden.

Aber die bekannten Anwendungsfälle der Methode der Häufigkeitsanalyse gehören einer viel späteren Zeit an. Das markanteste Beispiel ist hier die Entzifferung ägyptischer Hieroglyphen, die 1822 von J.-F. Champollion.

Wenn wir uns der Fiktion zuwenden, finden wir viele interessante Hinweise auf diese Entschlüsselungsmethode:

  • Conan Doyle - "Die tanzenden Männer".
  • Jules Verne - "Kinder von Captain Grant".
  • Edgar Poe - "Goldkäfer".

Aber seit Mitte des letzten Jahrhunderts wurden die meisten der in der Verschlüsselung verwendeten Algorithmen unter Berücksichtigung ihrer Widerstandsfähigkeit gegen eine solche Frequenzkryptanalyse entwickelt. Deshalb esheute werden sie meistens nur zur Ausbildung zukünftiger Kryptographen verwendet.

Texthäufigkeitsanalyse
Texthäufigkeitsanalyse

Grundlegende Methode

Stellen wir uns nun die Frequenzganganalyse im Detail vor. Diese Art der Analyse basiert direkt darauf, dass der Test aus Wörtern und diese wiederum aus Buchstaben besteht. Die Anzahl der Buchstaben, die die nationalen Alphabete füllen, ist begrenzt. Buchstaben können hier einfach aufgelistet werden.

Die wichtigsten Merkmale eines solchen Textes werden sowohl die Wiederholung von Buchstaben, verschiedene Bigramme, Trigramme und N-Gramme, als auch die Kompatibilität verschiedener Buchstaben untereinander, der Wechsel von Konsonanten / Vokalen und anderes sein Varianten dieser Symbole.

Die Hauptidee der Methoden besteht darin, das Vorkommen möglicher n-Gramme (bezeichnet mit nm) in Klartexten lange genug für die Analyse (bezeichnet mit T=t1t2…tl) zu zählen, die aus Buchstaben des nationalen Alphabets bestehen (bezeichnet durch {a1, a2, …, an}). All dies verursacht einige aufeinanderfolgende m-Gramme des Textes:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Wenn dies die Anzahl der Vorkommen des m-Gramms ai1ai2…aim in einem bestimmten Text T ist und L die Gesamtzahl der vom Forscher analysierten m-Gramme ist, dann kann man empirisch feststellen, dass für ausreichend groß L, werden die Frequenzen für ein solches m-Gramm wenig voneinander abweichen.

Frequenzanalyse
Frequenzanalyse

Häufig vorkommende Buchstaben des russischen Alphabets

Aber die Zeit-Frequenz-Analyse hat trotz des ähnlichen Namens nichts mit dem Thema unseres Gesprächs zu tun. Diese Art der Analyse wird durchgeführt fürSignale von schwach beobachtbaren Radarstationen mit einer speziellen Wavelet-Transformation.

Nun kommen wir zurück zum Hauptthema. Wenn Sie eine Häufigkeitsanalyse durchführen, können Sie herausfinden, welche Buchstaben des russischen Alphabets am häufigsten in ziemlich umfangreichen Texten vorkommen (Prozentsatz von 0,062 bis 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Sogar eine spezielle Merkregel wurde eingeführt, die hilft, die häufigsten Buchstaben des russischen Alphabets zu lernen. Dazu reicht es aus, sich nur ein Wort zu merken - "Heuboden".

Im Allgemeinen wird die Häufigkeit der prozentualen Verwendung von Buchstaben einfach festgelegt: Der Spezialist zählt, wie oft der Buchstabe im Text vorkommt, und dividiert dann den resultierenden Wert durch die Gesamtzahl der Zeichen im Text. Und um diesen Wert in Prozent auszudrücken, reicht es aus, ihn mit 100 zu multiplizieren.

Es ist wichtig zu bedenken, dass die Häufigkeit nicht nur vom Umfang des Textes abhängt, sondern auch von seiner Art. Zum Beispiel kommt der Buchstabe „F“in technischen Quellen viel häufiger vor als in der Belletristik. Daher muss ein Spezialist für objektive Ergebnisse Texte unterschiedlicher Art und Stile für die Forschung tippen.

Programme zur Texthäufigkeitsanalyse
Programme zur Texthäufigkeitsanalyse

Bi-, Tri-, Vier-Gramm

In aussagekräftigen Texten findet man auch die häufigsten (bzwwiederholt) Kombinationen aus zwei oder mehr Buchstaben. Spezialisten haben auch mehrere Tabellen zusammengestellt, die die Häufigkeit ähnlicher Digramme verschiedener Alphabete angeben.

Was das Russische betrifft, ermöglichte die Häufigkeitsanalyse von Systemen umfangreicher bedeutungsvoller Texte die Ermittlung der häufigsten Bigramme und Trigramme:

  • DE.
  • ST.
  • ABER.
  • NICHT.
  • EIN.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NEU
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Bevorzugte Beziehungen von Buchstaben zueinander

Und das sind noch nicht alle Möglichkeiten, die die Häufigkeitsanalyse Textforschern bieten kann. Durch die Systematisierung von Informationen aus ähnlichen Tabellen von Bigrammen und Trigrammen ist es möglich, Daten zu den häufigsten Buchstabenkombinationen zu extrahieren. Oder anders gesagt, ihre bevorzugten Beziehungen zueinander.

Eine solche umfangreiche Studie wurde bereits von Experten durchgeführt. Das Ergebnis war eine Tabelle, in der neben jedem Buchstaben des Alphabets auch seine Nachbarn angegeben waren. Außerdem die Zeichen, die häufig sowohl unmittelbar davor als auch danach zu finden sind. Die Buchstaben in der Tabelle sind nicht zufällig geschrieben. Näher am Symbol werden die häufigsten Nachbarn angezeigt, weiter seltener.

Betrachten Sie Beispiele:

  • Buchstabe "A". Dabei werden folgende Vorzugsverbindungen unterschieden: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Von hier aus sehen wir, dass vor dem „A“in den Texten meistens ein „H“(„NA“) steht. Und nach "A" können wir in russischen Texten am häufigsten "L" treffen("AL").
  • Buchstabe "M". Experten haben solche bevorzugten Verbindungen identifiziert: „I-s-a-i-e-o-M-i-e-o-u-a-n-p-s“.
  • Buchstabe "b". Bevorzugte Verbindungen sind wie folgt: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Buchstabe "Sch". Bevorzugte Verbindungen: "e-b-a-i-u-Sch-e-i-a".
  • Buchstabe "P". Bevorzugte Verbindungen mit diesem Symbol des russischen Alphabets: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
Zeit-Frequenz-Analyse
Zeit-Frequenz-Analyse

Was definiert Analyse?

Moderne Häufigkeitstextanalyseprogramme helfen beim Studium großer Mengen verschiedenster Artikel, Aufsätze, Passagen etc. Standardmäßig werden dem Forscher folgende Informationen zur Verfügung gestellt:

  • Gesamtzahl der Zeichen im Text.
  • Anzahl der vom Autor verwendeten Leerzeichen.
  • Anzahl Stellen.
  • Informationen zu verwendeten Satzzeichen - Punkte, Kommas usw.
  • Die Anzahl der Buchstaben in jedem der verfügbaren Alphabete - Kyrillisch, Latein usw.
  • Informationen über die Häufigkeit der Verwendung jedes Buchstabens und Symbols im Text - die Anzahl der Nennungen und Prozent im Vergleich zum gesamten Text.

Kampf gegen Überoptimierung und Übersättigung

Warum wird eine Texthäufigkeitsanalyse durchgeführt? Ist es nur aus reiner Neugier - um herauszufinden, welche Zeichen im geschriebenen Text häufig vorkommen? Nein, die Hauptanwendung der Analyse ist praktisch und liegt woanders.

N-Gramme umfassen nicht nur stabile Bigramme und Trigramme. Zum SelbenKategorien umfassen Schlüsselwörter (Tags), Kollokationen. Das heißt, stabile Kombinationen, die aus zwei oder mehr Wörtern bestehen. Sie zeichnen sich dadurch aus, dass solche Kompositionen gemeinsam im Text vorkommen und gleichzeitig eine gewisse semantische Last tragen.

Das spielt skrupellosen SEO-Spezialisten in die Hände. Bei ihrer Arbeit missbrauchen sie manchmal die Wiederholung von Tags und Schlüsselwörtern im Text, um die Relevanz einer bestimmten Webseite künstlich zu erhöhen. Sie versuchen, das System mit einem solchen "Trick" zu täuschen: Sie verwandeln eine natürliche Kombination mit der üblichen Wortkombination, die für die russische Sprache traditionell ist ("kaufe einen Nerzmantel") in eine inkonsistente. Das heißt, erh alten durch Neuanordnung von Wörtern in einem solchen natürlichen N-Gramm ("kauf einen Nerzmantel").

Aber heute haben Suchalgorithmen gelernt, Überoptimierung genauso effektiv zu erkennen wie Overspam - Übersättigung von Text mit Schlüsselwörtern, Tags, die das Ranking der Ergebnisse auf der Suchseite beeinflussen. Überoptimierte Seiten werden nun hingegen von der Suchanfrage des Nutzers niedriger gerankt. Und die Menschen selbst neigen nicht dazu, bedeutungslosen, mit Tags übersättigten Text zu lesen, sondern nützliche Informationen auf einer anderen Ressource vorzuziehen.

Methode der Frequenzanalyse
Methode der Frequenzanalyse

Hilfe bei privaten Analysen für SEO-Spezialisten

So bevorzugen moderne Suchmaschinen-Textfilter heute jene Internetseiten, deren Informationen nicht nur gut lesbar, sondern auch für den Besucher nützlich sind. SEO-Spezialisten optimieren ihre Arbeit für neue Standardsund wenden Sie sich der Häufigkeitsanalyse des Textes zu. Viele beliebte Dienste bieten es heute an.

Häufigkeitsanalyse hilft, den zur Veröffentlichung vorbereiteten Text auf Aussagekraft zu überprüfen. Beseitigen Sie unnötige Redundanzen von Tags und Schlüsselphrasen. Außerdem können Sie den Autor auf unnatürliche Wortkombinationen aufmerksam machen, die in den Textfiltern von Suchmaschinen Verdacht erregen.

Frequenzganganalyse
Frequenzganganalyse

Die Häufigkeitsanalyse des Textes hilft also, die Häufigkeit der Erwähnung eines bestimmten Zeichens in der Quelle zu bestimmen. Die Methode wird heute verwendet, um die Textüberladung mit Tags und unnatürlichen Permutationen von Wörtern zu bewerten.

Empfohlen: