Vor einigen Jahrzehnten konnten Wissenschaftler nur davon träumen, linguistische Forschung zu automatisieren. Die Arbeit wurde von Hand erledigt, eine große Anzahl von Schülern war daran beteiligt, es gab eine erhebliche Wahrscheinlichkeit eines "Unaufmerksamkeits" -Fehlers, und vor allem hat das alles viel, viel Zeit gekostet.
Mit der Entwicklung der Computertechnologie wurde es möglich, viel schneller zu forschen, und heute ist die Korpuslinguistik eines der vielversprechendsten Gebiete im Studium der Sprache. Sein Hauptmerkmal ist die Verwendung großer Mengen an Textinformationen, die in einer einzigen Datenbank konsolidiert, auf besondere Weise gekennzeichnet und Korpus genannt werden.
Heute gibt es viele Korpora, die für verschiedene Zwecke erstellt wurden, basierend auf unterschiedlichem Sprachmaterial, das Millionen bis zu mehreren Milliarden lexikalischer Einheiten abdeckt. Diese Richtung gilt als vielversprechend und zeigt erhebliche Fortschritte bei der Erreichung von Anwendungs- und Forschungszielen. Profis, auf die eine oder andere Weise damit umzugehennatürlicher Sprache, empfiehlt es sich, sich zumindest auf einem Grundniveau mit Textkorpora vertraut zu machen.
Geschichte der Korpuslinguistik
Die Bildung dieser Richtung ist mit der Gründung des Brown Corps in den USA in den frühen 60er Jahren des letzten Jahrhunderts verbunden. Die Textsammlung bestand nur aus 1 Million Wortformen, und heute wäre ein Korpus von einem solchen Volumen völlig konkurrenzlos. Dies ist hauptsächlich auf das Tempo der Entwicklung der Computertechnologie sowie auf die wachsende Nachfrage nach neuen Forschungsressourcen zurückzuführen.
In den 90er Jahren wurde die Korpuslinguistik zu einer vollwertigen und eigenständigen Disziplin geformt, Textsammlungen für mehrere Dutzend Sprachen angelegt und ausgezeichnet. In dieser Zeit wurde beispielsweise das British National Corpus für 100 Millionen Wortverwendungen erstellt.
Während sich diese Richtung der Linguistik entwickelt, wird das Textvolumen größer (und erreicht Milliarden von Wortschatzeinheiten) und das Markup wird immer vielfältiger. Heute finden Sie im Internet Korpora schriftlicher und mündlicher Rede, mehrsprachig und lehrreich, mit Schwerpunkt auf Belletristik oder akademischer Literatur, sowie viele andere Varianten.
Welche Fälle gibt es
Korpustypen in der Korpuslinguistik können auf verschiedene Weise dargestellt werden. Es ist intuitiv klar, dass die Grundlage für die Klassifizierung die Sprache der Texte (Russisch, Deutsch), der Zugriffsmodus (Open Source, Closed Source, Kommerziell), das Genre des Ausgangsmaterials (BelletristikLiteratur, Dokumentation, Wissenschaft, Journalismus).
Auf interessante Weise wird die Generierung von Materialien durchgeführt, die mündliche Rede darstellen. Da die absichtliche Aufzeichnung solcher Sprache künstliche Bedingungen für die Befragten schaffen würde und das resultierende Material nicht als "spontan" bezeichnet werden konnte, ging die moderne Korpuslinguistik den anderen Weg. Der Freiwillige ist mit einem Mikrofon ausgestattet und tagsüber werden alle Gespräche, an denen er teilnimmt, aufgezeichnet. Die Menschen um sie herum können natürlich nicht wissen, dass sie im Laufe eines alltäglichen Gesprächs zur Entwicklung der Wissenschaft beitragen.
Die empfangenen Audioaufnahmen werden später in der Datenbank gespeichert und wie ein Transkript mit gedrucktem Text versehen. Auf diese Weise wird das zum Erstellen eines Korpus gesprochener Alltagssprache benötigte Markup möglich.
Bewerbung
Wo es möglich ist, Sprache zu verwenden, ist es auch möglich, Textkorpora zu verwenden. Der Zweck der Verwendung von Korpusmethoden in der Linguistik kann sein:
- Erstellen von Stimmungsprogrammen, die in Politik und Wirtschaft weit verbreitet sind, um positives und negatives Feedback von Wählern bzw. Kunden zu verfolgen.
- Verbindung des Informationssystems mit Wörterbüchern und Übersetzern, um deren Leistung zu verbessern.
- Verschiedene Forschungsaufgaben, die zum Verständnis der Struktur der Sprache, ihrer Entwicklungsgeschichte und Vorhersagen ihrer Veränderung in naher Zukunft beitragen.
- Entwicklung von Informationsextraktionssystemen basierend auf morphologischen,syntaktische, semantische und andere Merkmale.
- Optimierung der Arbeit verschiedener Sprachsysteme usw.
Shells verwenden
Die Ressourcenschnittstelle ähnelt einer typischen Suchmaschine und fordert den Benutzer auf, ein Wort oder eine Kombination von Wörtern einzugeben, um die Infobase zu durchsuchen. Neben dem genauen Anfrageformular können Sie die erweiterte Version verwenden, die es Ihnen ermöglicht, Textinformationen nach fast beliebigen sprachlichen Kriterien zu finden.
Die Grundlage für die Suche kann sein:
- Zugehörigkeit zu einer bestimmten Gruppe von Wortarten;
- grammatische Merkmale;
- Semantik;
- stilistische und emotionale Farbgebung.
Außerdem können Sie Suchkriterien für eine Wortfolge kombinieren: Finden Sie beispielsweise alle Vorkommen eines Verbs im Präsens, in der ersten Person, im Singular, gefolgt von der Präposition „in“und einem Nomen im Akkusativ. Das Lösen einer so einfachen Aufgabe dauert wenige Sekunden und erfordert nur wenige Mausklicks in den vorgegebenen Feldern.
Erstellungsprozess
Die Suche selbst kann sowohl in allen Unterkorpussen als auch in einem speziell ausgewählten durchgeführt werden, je nach Bedarf beim Erreichen eines bestimmten Ziels:
- Zunächst wird festgelegt, welche Texte die Grundlage des Korpus bilden. Aus praktischen Gründen werden häufig journalistische Zeitungsmaterialien und Internetkommentare verwendet. Am meisten in Forschungsprojektenverschiedene Arten von Korpora, aber die Texte müssen auf einer gemeinsamen Grundlage ausgewählt werden.
- Die resultierende Textmenge wird vorverarbeitet, eventuelle Fehler werden korrigiert, eine bibliographische und außersprachliche Beschreibung des Textes wird erstellt.
- Alle nicht-textlichen Informationen werden herausgefiltert: Grafiken, Bilder, Tabellen werden gelöscht.
- Tokens, normalerweise Wörter, werden zur weiteren Verarbeitung zugewiesen.
- Schließlich wird eine morphologische, syntaktische und andere Auszeichnung des resultierenden Satzes von Elementen durchgeführt.
Das Ergebnis aller durchgeführten Operationen ist eine syntaktische Struktur mit einer darüber verteilten Menge von Elementen, für die jeweils eine Wortart, grammatikalische und ggf. semantische Merkmale definiert sind.
Schwierigkeiten beim Erstellen von Fällen
Es ist wichtig zu verstehen, dass es nicht ausreicht, viele Wörter oder Sätze zusammenzufügen, um einen Korpus zu erh alten. Einerseits muss eine Textsammlung ausgewogen sein, also unterschiedliche Textsorten in bestimmten Anteilen darstellen. Andererseits muss der Kofferinh alt besonders gekennzeichnet werden.
Das erste Problem wird einvernehmlich gelöst: Beispielsweise umfasst die Sammlung 60% Belletristiktexte, 20% Dokumentarfilme, ein gewisser Anteil entfällt auf die schriftliche Präsentation von mündlichen Reden, Gesetzgebungsakten, wissenschaftlichen Arbeiten usw Das ideale Rezept für einen ausgewogenen Korpus gibt es heute nicht.
Die zweite Frage zum Inh alts-Markup ist schwieriger zu lösen. Es gibt spezielle Programme und Algorithmen, die zum automatischen Markup von Texten verwendet werden, aber sie liefern kein 100%iges Ergebnis, können Fehler verursachen und erfordern eine manuelle Verfeinerung. Möglichkeiten und Probleme bei der Lösung dieses Problems sind ausführlich in der Arbeit von V. P. Zakharov zur Korpuslinguistik beschrieben.
Textauszeichnung erfolgt auf mehreren Ebenen, die wir im Folgenden auflisten.
Morphologisches Markup
Von der Schulbank aus erinnern wir uns, dass es in der russischen Sprache verschiedene Wortarten gibt und jede von ihnen ihre eigenen Merkmale hat. Zum Beispiel hat ein Verb Stimmungs- und Zeitkategorien, die ein Substantiv nicht hat. Ein Muttersprachler lehnt Substantive ab und konjugiert Verben ohne zu zögern, aber Handarbeit ist nicht geeignet, um einen Korpus von 100 Millionen Wortverwendungen zu markieren. Alle notwendigen Operationen kann ein Computer ausführen, dazu muss er jedoch angelernt werden.
Morphologisches Markup ist notwendig, damit der Computer jedes Wort als Wortart mit bestimmten grammatikalischen Merkmalen "verstehen" kann. Da in Russisch (wie in jeder anderen) Sprache eine Reihe regulärer Regeln gelten, ist es möglich, ein automatisches Verfahren zur morphologischen Analyse aufzubauen, indem eine Reihe von Algorithmen in die Maschine eingebaut werden. Es gibt jedoch Ausnahmen von der Regel sowie verschiedene erschwerende Faktoren. Infolgedessen ist eine reine Computeranalyse heute alles andere als ideal, und selbst 4 % Fehler ergeben einen Wert von 4 Millionen Wörtern in einem Korpus von 100 Millionen Einheiten, was eine manuelle Verfeinerung erfordert.
Dieses Problem wird im Buch "Corpus Linguistics" von V. P. Zakharov ausführlich beschrieben.
Syntaktisches Markup
Syntaktische Analyse oder Parsing ist ein Verfahren, das die Beziehung von Wörtern in einem Satz bestimmt. Mit Hilfe einer Reihe von Algorithmen wird es möglich, Subjekt, Prädikat, Zusätze und verschiedene Wendungen im Text zu bestimmen. Indem wir herausfinden, welche Wörter in der Sequenz Haupt- und welche Nebenwörter sind, können wir effizient Informationen aus dem Text extrahieren und die Maschine so trainieren, dass sie als Antwort auf eine Suchanfrage nur die Informationen zurückgibt, an denen wir interessiert sind.
Übrigens nutzen moderne Suchmaschinen dies, um auf relevante Anfragen wie „wie viele Kalorien hat ein Apfel“oder „Entfernung von Moskau nach St. Petersburg“statt langer Texte konkrete Zahlen zu geben. Um jedoch auch nur die Grundlagen des beschriebenen Prozesses zu verstehen, müssen Sie sich mit der "Einführung in die Korpuslinguistik" oder einem anderen grundlegenden Lehrbuch vertraut machen.
Semantisches Markup
Die Semantik eines Wortes ist, vereinfacht gesagt, seine Bedeutung. Ein weit verbreiteter Ansatz in der semantischen Analyse ist die Zuordnung von Tags zu einem Wort, die seine Zugehörigkeit zu einer Reihe von semantischen Kategorien und Unterkategorien widerspiegeln. Solche Informationen sind wertvoll für die Optimierung von Textstimmungsanalysealgorithmen, die automatische Referenzierung und die Durchführung anderer Aufgaben mit korpuslinguistischen Methoden.
Es gibt eine Reihe von "Wurzeln" des Baums, die abstrakte Wörter sind, die habensehr breite Semantik. Wenn sich dieser Baum verzweigt, werden Knoten gebildet, die immer spezifischere lexikalische Elemente enth alten. Beispielsweise kann das Wort „Kreatur“mit Konzepten wie „Mensch“und „Tier“in Verbindung gebracht werden. Das erste Wort wird sich weiterhin in verschiedene Berufe, Verwandtschaftsverhältnisse, Nationalitäten und das zweite in Klassen und Tierarten verzweigen.
Verwendung von Informationsabfragesystemen
Anwendungsgebiete der Korpuslinguistik umfassen eine Vielzahl von Tätigkeitsfeldern. Korpora werden zum Zusammenstellen und Korrigieren von Wörterbüchern, Erstellen automatischer Übersetzungssysteme, Zusammenfassen, Extrahieren von Fakten, Ermitteln von Stimmungen und anderer Textverarbeitung verwendet.
Darüber hinaus werden solche Ressourcen aktiv zum Studium der Sprachen der Welt und der Mechanismen des Funktionierens der Sprache als Ganzes genutzt. Der Zugriff auf große Mengen vorgefertigter Informationen trägt zur schnellen und umfassenden Untersuchung von Trends in der Sprachentwicklung, der Bildung von Neologismen und stabilen Sprachwendungen, Änderungen in der Bedeutung lexikalischer Einheiten usw. bei.
Weil die Arbeit mit so großen Datenmengen eine Automatisierung erfordert, gibt es heute eine enge Wechselwirkung zwischen Computer- und Korpuslinguistik.
Nationales Korpus der russischen Sprache
Dieses Korpus (abgekürzt als NKRC) enthält eine Reihe von Unterkorpussen, die es ermöglichen, die Ressource zur Lösung einer Vielzahl von Aufgaben zu verwenden.
Materialien in der NCRA-Datenbank sind unterteilt in:
- über Veröffentlichungen in den Medien der 90er und 2000er JahreJahre im In- und Ausland;
- Aufnahmen mündlicher Rede;
- akzentologisch markierte Texte (d.h. mit Akzentzeichen);
- Dialektsprache;
- poetische Werke;
- Materialien mit syntaktischer Auszeichnung usw.
Das Informationssystem umfasst auch Unterkorpusse mit parallelen Übersetzungen von Werken aus dem Russischen ins Englische, Deutsche, Französische und viele andere Sprachen (und umgekehrt).
Außerdem verfügt die Datenbank über einen Abschnitt mit historischen Texten, die die schriftliche Sprache in russischer Sprache in verschiedenen Perioden ihrer Entwicklung darstellen. Es gibt auch ein Schulungskorpus, das für ausländische Bürger beim Erlernen der russischen Sprache nützlich sein kann.
Das nationale Korpus der russischen Sprache umfasst 400 Millionen lexikalische Einheiten und ist in vielerlei Hinsicht einem bedeutenden Teil der Korpora europäischer Sprachen voraus.
Aussichten
Eine Tatsache, die dafür spricht, diesen Bereich als vielversprechend anzuerkennen, ist die Präsenz von Korpuslinguistik-Labors an russischen Universitäten, sowie an ausländischen. Mit der Nutzung und Forschung im Rahmen der betrachteten Information-Retrieval-Ressourcen ist die Entwicklung einiger Bereiche im Bereich der Hochtechnologien, Frage-Antwort-Systeme verbunden, dies wurde jedoch oben diskutiert.
Die weitere Entwicklung der Korpuslinguistik wird auf allen Ebenen prognostiziert, von der technischen über die Einführung neuer Algorithmen, die die Prozesse der Suche und Verarbeitung von Informationen optimieren, die Erweiterung der Fähigkeiten von Computern bis hin zur Steigerung der BetriebsfähigkeitGedächtnis, und endend mit denen im Haush alt, da Benutzer immer mehr Möglichkeiten finden, diese Art von Ressourcen im Alltag und bei der Arbeit zu nutzen.
Zum Schluss
Mitte des letzten Jahrhunderts schien 2017 wie eine ferne Zukunft, in der Raumschiffe durch die Weiten des Universums surfen und Roboter die ganze Arbeit für die Menschen erledigen. In Wirklichkeit ist die Wissenschaft jedoch voller "weißer Flecken" und unternimmt verzweifelte Versuche, Fragen zu beantworten, die die Menschheit seit Jahrhunderten beschäftigen. Dabei stehen Fragen der Funktionsweise der Sprache im Vordergrund, bei deren Beantwortung die Korpus- und Computerlinguistik helfen kann.
Durch die Verarbeitung großer Datenmengen können Sie zuvor unzugängliche Muster erkennen, die Entwicklung bestimmter Sprachmerkmale vorhersagen und die Bildung von Wörtern fast in Echtzeit verfolgen.
Auf praktischer globaler Ebene können Korpora beispielsweise als potenzielles Instrument zur Beurteilung der öffentlichen Stimmung betrachtet werden - das Internet ist eine ständig aktualisierte Datenbank mit verschiedenen Texten, die von echten Benutzern erstellt wurden: Dies sind Kommentare, Rezensionen, Artikel, und viele andere Redeformen.
Darüber hinaus trägt die Arbeit mit Korpora zur Entwicklung der gleichen technischen Mittel bei, die an der Informationsbeschaffung beteiligt sind, die wir von Google- oder Yandex-Diensten, maschineller Übersetzung, elektronischen Wörterbüchern kennen.
Man kann mit Sicherheit sagen, dass die Korpuslinguistik erst in den Anfängen steckt und sich in naher Zukunft rasant weiterentwickeln wird.