Data Mining ist Konzept, Algorithmusanalyse, Zweck und Anwendung

Inhaltsverzeichnis:

Data Mining ist Konzept, Algorithmusanalyse, Zweck und Anwendung
Data Mining ist Konzept, Algorithmusanalyse, Zweck und Anwendung
Anonim

Die Entwicklung der Informationstechnologie bringt praktische Ergebnisse. Aufgaben wie das Finden, Analysieren und Verwenden von Informationen haben jedoch noch kein effektives und qualitativ hochwertiges Werkzeug erh alten. Es gibt analytische und quantitative Tools, die funktionieren wirklich. Aber eine qualitative Revolution in der Nutzung von Informationen hat noch nicht stattgefunden.

Lange vor dem Aufkommen der Computertechnologie musste der Mensch große Mengen an Informationen verarbeiten und dies nach bestem Wissen und Gewissen bewältigen.

Die Entwicklung von Wissen und Fähigkeiten entspricht seit jeher realen Bedürfnissen und entspricht aktuellen Aufgaben. Data Mining ist ein Sammelbegriff, der verwendet wird, um sich auf eine Reihe von Methoden zu beziehen, um bisher unbekanntes, nicht triviales, praktisch nützliches und zugängliches Wissen in Daten zu entdecken, das für das Treffen von Entscheidungen in verschiedenen Bereichen menschlicher Aktivitäten erforderlich ist.

Mensch, Intelligenz, Programmierung

Eine Person weiß immer, wie sie sich in jeder Situation zu verh alten hat. Unwissenheit oder eine ungewohnte Situation hindern ihn nicht daran, eine Entscheidung zu treffen. Die Objektivität und Angemessenheit jeder menschlichen Entscheidung kann in Frage gestellt werden, aber sie wird akzeptiert.

Intelligenz basiert auf: erblichem "Mechanismus", erworbenem, aktivem Wissen. Wissen wird angewendet, um Probleme zu lösen, die vor einer Person auftreten.

  1. Intelligenz ist eine einzigartige Sammlung von Wissen und Fähigkeiten: Möglichkeiten und Grundlage für menschliches Leben und Arbeiten.
  2. Intelligenz entwickelt sich ständig weiter und menschliche Handlungen wirken sich auf andere Menschen aus.

Programmierung ist der erste Versuch, die Darstellung von Daten und den Prozess der Erstellung von Algorithmen zu formalisieren.

Mensch, Intelligenz, Programmierung
Mensch, Intelligenz, Programmierung

Künstliche Intelligenz (KI) ist eine Verschwendung von Zeit und Ressourcen, aber die Ergebnisse erfolgloser Versuche des letzten Jahrhunderts auf dem Gebiet der KI blieben in Erinnerung, wurden in verschiedenen Experten- (intelligenten) Systemen verwendet und transformiert, insbesondere in Algorithmen (Regeln) und mathematische (logische) Datenanalyse und Data Mining.

Informationen und die übliche Suche nach einer Lösung

Eine gewöhnliche Bibliothek ist ein Wissensspeicher, und das gedruckte Wort und die gedruckten Grafiken haben der Computertechnologie noch nicht den Rang abgelaufen. Bücher über Physik, Chemie, Theoretische Mechanik, Design, Naturgeschichte, Philosophie, Naturwissenschaften, Botanik, Lehrbücher, Monographien, Arbeiten von Wissenschaftlern, Tagungsmaterialien, Berichte über Entwicklungsarbeiten usw. sind immer relevant und zuverlässig.

Library besteht aus vielen verschiedenen Quellen, die sich unterscheidenPräsentationsform des Materials, Herkunft, Aufbau, Inh alt, Präsentationsstil etc.

Bibliothek: Bücher, Zeitschriften und andere Drucksachen
Bibliothek: Bücher, Zeitschriften und andere Drucksachen

Nach außen hin ist alles sichtbar (lesbar, zugänglich) zum Verstehen und Nutzen. Sie können jedes Problem lösen, die Aufgabe richtig stellen, die Lösung begründen, einen Aufsatz oder eine Hausarbeit schreiben, Materialien für eine Diplomarbeit auswählen, Quellen zum Thema einer Dissertation oder eines wissenschaftlichen und analytischen Berichts analysieren.

Jedes Informationsproblem kann gelöst werden. Mit der gebotenen Ausdauer und Geschicklichkeit wird ein genaues und zuverlässiges Ergebnis erzielt. Data Mining ist in diesem Zusammenhang ein ganz anderer Ansatz.

Zusätzlich zum Ergebnis erhält eine Person „aktive Links“zu allem, was im Prozess der Zielerreichung angeschaut wurde. Auf die Quellen, die er zur Lösung des Problems verwendet hat, kann verwiesen werden, und niemand wird die Tatsache der Existenz der Quelle bestreiten. Dies ist keine Echtheitsgarantie, aber es ist ein sicheres Zeugnis, wem die Verantwortung für die Echtheit "abgemeldet" ist. Aus dieser Sicht bedeutet Data Mining große Zweifel an der Zuverlässigkeit und keine "aktiven" Links.

Durch das Lösen mehrerer Probleme erhält eine Person Ergebnisse und erweitert ihr intellektuelles Potenzial auf viele "aktive Verbindungen". Wenn eine neue Aufgabe eine bereits bestehende Verknüpfung „aktiviert“, weiß die Person, wie sie sie lösen kann: Es muss nicht erneut nach etwas gesucht werden.

„Aktiver Link“ist eine feste Assoziation: wie und was im konkreten Fall zu tun ist. Das menschliche Gehirn erinnert sich automatisch an alles, was ihm potentiell interessant, nützlich erscheint.oder wahrscheinlich in der Zukunft benötigt werden. In vielerlei Hinsicht geschieht dies auf einer unbewussten Ebene, aber sobald eine Aufgabe auftaucht, die mit einem „aktiven Link“verbunden werden kann, taucht sie sofort im Kopf auf und eine Lösung wird ohne zusätzliche Suche nach Informationen erh alten. Data Mining ist immer eine Wiederholung des Suchalgorithmus und dieser Algorithmus ändert sich nicht.

Normale Suche: "künstlerische" Probleme

Mathematikbibliothek und die Suche nach Informationen darin ist eine relativ schwache Aufgabe. Den einen oder anderen Weg zu finden, um ein Integral zu lösen, eine Matrix zu erstellen oder die Operation des Addierens zweier imaginärer Zahlen durchzuführen, ist mühsam, aber einfach. Sie müssen eine Reihe von Büchern durchsuchen, von denen viele in einer bestimmten Sprache geschrieben sind, den richtigen Text finden, ihn studieren und die erforderliche Lösung finden.

Im Laufe der Zeit wird Ihnen das Aufzählen vertraut, und die gesammelte Erfahrung wird es Ihnen ermöglichen, durch die Bibliotheksinformationen und andere mathematische Probleme zu navigieren. Dies ist ein begrenzter Informationsraum von Fragen und Antworten. Ein charakteristisches Merkmal: Eine solche Informationssuche sammelt Wissen zur Lösung ähnlicher Probleme. Die Suche einer Person nach Informationen hinterlässt in ihrem Gedächtnis Spuren ("aktive Verbindungen") zu möglichen Lösungen für andere Probleme.

Finden Sie in Belletristik die Antwort auf die Frage: "Wie lebten die Menschen im Januar 1248?" sehr schwer. Noch schwieriger ist die Frage zu beantworten, was in den Verkaufsregalen stand und wie der Lebensmittelhandel organisiert war. Auch wenn irgendein Schriftsteller in seinem Roman klar und direkt darüber geschrieben hat, wenn der Name dieses Schriftstellers gefunden werden konnte, dann gibt es Zweifeldie Zuverlässigkeit der empfangenen Daten bleibt bestehen. Zuverlässigkeit ist ein entscheidendes Merkmal jeder Menge an Informationen. Wichtig sind die Quelle, der Autor und Beweise, die die Falschheit des Ergebnisses ausschließen.

Objektive Umstände einer bestimmten Situation

Der Mensch sieht, hört, fühlt. Einige Spezialisten beherrschen ein einzigartiges Gefühl – die Intuition. Die Problemstellung erfordert Informationen, der Prozess der Problemlösung wird meistens von einer Verfeinerung der Problemstellung begleitet. Dies ist das kleinere Problem, das mit dem Verschieben von Informationen in die Eingeweide eines Computersystems einhergeht.

Informationen im virtuellen Raum
Informationen im virtuellen Raum

Die Bibliothek und die Arbeitskollegen sind indirekt am Entscheidungsprozess beteiligt. Die Gest altung des Buches (Quelle), die Grafiken im Text, die Merkmale der Aufteilung von Informationen in Überschriften, Fußnoten nach Phrasen, das Schlagwortverzeichnis, das Verzeichnis der Primärquellen – alles weckt Assoziationen in einer Person, die indirekt den Lösungsprozess beeinflussen das Problem.

Zeit und Ort der Lösung des Problems sind entscheidend. Eine Person ist so arrangiert, dass sie bei der Lösung eines Problems unwillkürlich auf alles achtet, was sie umgibt. Es kann ablenken oder anregend sein. Data Mining wird niemals "verstehen".

Informationen im virtuellen Raum

Eine Person war schon immer nur an zuverlässigen Informationen über ein Ereignis, ein Phänomen, ein Objekt oder einen Algorithmus zur Lösung eines Problems interessiert. Der Mensch hat sich immer genau vorgestellt, wie er das gewünschte Ziel erreichen kann.

Das Erscheinen von Computern und Informationssystemen hätte das Leben eines Menschen erleichtern sollen, aber alles ist nur komplizierter geworden. Informationen wanderten in die Eingeweide von Computersystemen und verschwanden aus dem Blickfeld. Um die erforderlichen Daten auszuwählen, müssen Sie einen korrekten Algorithmus erstellen oder eine Abfrage an die Datenbank formulieren.

Daten innerhalb des Informationssystems
Daten innerhalb des Informationssystems

Die Frage muss richtig sein. Nur dann bekommt man eine Antwort. Doch Zweifel an der Echtheit bleiben. In diesem Sinne ist Data Mining wirklich "Ausgrabungen", es ist "Informationsextraktion". So ist es modisch, diesen Satz zu übersetzen. Die russische Version ist Data-Mining oder Data-Mining-Technologie.

In den Werken maßgeblicher Spezialisten werden die Aufgaben des Data Mining wie folgt angegeben:

  • klassifizierung;
  • Clustering;
  • Verein;
  • Sequenz;
  • Prognose.

Aus Sicht der Praxis, die eine Person bei der manuellen Verarbeitung von Informationen anleitet, sind alle diese Positionen umstritten. In jedem Fall verarbeitet ein Mensch Informationen automatisch und denkt nicht daran, Daten zu klassifizieren, thematische Gruppen von Objekten zusammenzustellen (Clustering), nach zeitlichen Mustern zu suchen (Sequenz) oder das Ergebnis vorherzusagen.

Alle diese Positionen im menschlichen Verstand werden durch aktives Wissen repräsentiert, das mehr Positionen abdeckt und dynamisch die Logik der Verarbeitung der Ausgangsdaten verwendet. Das Unterbewusstsein eines Menschen spielt eine wichtige Rolle, besonders wenn er ein Spezialist auf einem bestimmten Wissensgebiet ist.

Beispiel: Großhandel mit EDV-Anlagen

Die Aufgabe ist einfach. Es gibt einigeDutzende von Anbietern von Computerausrüstung und Peripheriegeräten. Jeder hat eine Preisliste im XLS-Format (Excel-Datei), die von der offiziellen Website des Anbieters heruntergeladen werden kann. Es ist erforderlich, eine Webressource zu erstellen, die Excel-Dateien liest, sie in Datenbanktabellen umwandelt und es Kunden ermöglicht, die gewünschten Produkte zu den niedrigsten Preisen auszuwählen.

Probleme treten sofort auf. Jeder Anbieter bietet seine eigene Version der Struktur und des Inh alts der xls-Datei an. Sie können die Datei erh alten, indem Sie sie von der Website des Anbieters herunterladen, per E-Mail bestellen oder einen Download-Link über Ihr persönliches Konto erh alten, d. h. indem Sie sich offiziell beim Anbieter registrieren.

Virtueller Computerspeicher
Virtueller Computerspeicher

Die Lösung des Problems (ganz am Anfang) ist technologisch einfach. Beim Laden von Dateien (Anfangsdaten) wird für jeden Lieferanten ein Dateierkennungsalgorithmus geschrieben und die Daten werden in einer großen Tabelle mit Anfangsdaten abgelegt. Nachdem alle Daten empfangen wurden, nachdem der Mechanismus des kontinuierlichen Austauschs (täglich, wöchentlich oder bei Änderung) neuer Daten eingerichtet wurde:

  • Sortiment wechseln;
  • Preisänderungen;
  • Abklärung der Lagermenge;
  • Anpassung von Garantiebedingungen, Spezifikationen etc.

Hier beginnen die wirklichen Probleme. Die Sache ist, dass der Lieferant schreiben kann:

  • Notebook Acer;
  • Notebook Asus;
  • Dell-Laptop.

Wir sprechen vom selben Produkt, aber von unterschiedlichen Herstellern. Wie passt man Notebook=Laptop an oder wie entfernt man Acer, Asus und Dell aus einer Produktlinie?

FürMensch ist kein Problem, aber wie soll der Algorithmus "verstehen", dass Acer, Asus, Dell, Samsung, LG, HP, Sony Marken oder Lieferanten sind? Wie kann man "Drucker" und Drucker, "Scanner" und "MFP", "Kopierer" und "MFP", "Kopfhörer" mit "Kopfhörer", "Zubehör" mit "Zubehör" abgleichen?

Das Erstellen eines Kategoriebaums basierend auf Quelldaten (Quelldateien) ist bereits ein Problem, wenn Sie alles auf automatisch einstellen müssen.

Datenerhebung: Ausgrabungen der "frisch gegossenen"

Die Aufgabe, eine Datenbank von Anbietern von Computerausrüstung zu erstellen, wurde gelöst. Ein Kategorienbaum wurde aufgebaut, eine gemeinsame Tabelle mit Angeboten aller Anbieter funktioniert.

Typische Data-Mining-Aufgaben im Kontext dieses Beispiels:

  • finde ein Produkt zum niedrigsten Preis;
  • Wählen Sie den Artikel mit den niedrigsten Versandkosten und dem niedrigsten Preis;
  • Produktanalyse: Eigenschaften und Preise nach Kriterien.

In der realen Arbeit eines Managers, der Daten von mehreren Dutzend Lieferanten verwendet, gibt es viele Variationen dieser Aufgaben und noch realere Situationen.

Zum Beispiel gibt es einen Anbieter "A", der ASUS VivoBook S15 verkauft: Vorkasse, Lieferung 5 Tage nach tatsächlichem Geldeingang. Es gibt einen Anbieter "B" des gleichen Produkts des gleichen Modells: Zahlung bei Erh alt, Lieferung nach Vertragsschluss innerhalb eines Tages, der Preis ist anderthalbmal höher.

Data Mining beginnt - "Ausgrabungen". Bildliche Ausdrücke: "Ausgrabungen" oder "Data Mining" sind Synonyme. Es geht darum, einen Grund für eine Entscheidung zu finden.

Lieferanten "A" und "B" haben eine Lieferhistorie. KlasseVorauskasse im ersten Fall gegen Zahlung per Nachnahme im zweiten Fall, wobei zu berücksichtigen ist, dass der Lieferausfall im zweiten Fall um 65 % höher ist. Das Risiko von Vertragsstrafen durch den Kunden ist höher/niedriger. Wie und was zu bestimmen und welche Entscheidung zu treffen?

Andererseits: Die Datenbank wurde von einem Programmierer und einem Manager erstellt. Wenn der Programmierer und der Manager gewechselt haben, wie kann man den aktuellen Zustand der Datenbank ermitteln und lernen, wie man sie richtig verwendet? Sie müssen auch Data Mining betreiben. Data Mining bietet eine Vielzahl von mathematischen und logischen Methoden, denen es egal ist, welche Art von Daten erforscht werden. Dies gibt in einigen Fällen die richtige Lösung, aber nicht in allen.

Bewegen in die Virtualität und Sinn finden

Data-Mining-Methoden werden sinnvoll, sobald die Informationen in die Datenbank geschrieben werden und aus dem „Sichtfeld“verschwinden. Der Handel mit Computerausrüstung ist eine interessante Aufgabe, aber es ist nur ein Geschäft. Wie gut er im Unternehmen organisiert ist, hängt von dessen Erfolg ab.

Klimaveränderungen auf dem Planeten und das Wetter in einer bestimmten Stadt interessieren jeden, nicht nur professionelle Klimaexperten. Tausende von Sensoren messen Wind, Feuchtigkeit, Druck, Daten von künstlichen Erdsatelliten und es gibt eine Datenhistorie über Jahre und Jahrhunderte.

Bei Wetterdaten geht es nicht nur darum zu entscheiden, ob man einen Regenschirm mit zur Arbeit nimmt oder nicht. Data-Mining-Technologien sind der sichere Flug eines Verkehrsflugzeugs, der stabile Betrieb einer Autobahn und die zuverlässige Versorgung mit Erdölprodukten auf dem Seeweg.

"Raw"-Daten werden an die Information gesendetSystem. Die Aufgaben des Data Mining bestehen darin, sie in ein systematisiertes Tabellensystem zu verwandeln, Verknüpfungen herzustellen, Gruppen homogener Daten hervorzuheben und Muster zu erkennen.

Klima, Wetter und Rohdaten
Klima, Wetter und Rohdaten

Mathematische und logische Methoden haben seit den Tagen der quantitativen Analytik OLAP (On-line Analytical Processing) ihre Praxistauglichkeit bewiesen. Hier ermöglicht Ihnen die Technologie, Sinn zu finden und ihn nicht zu verlieren, wie im Beispiel des Verkaufs von Computerausrüstung.

Außerdem in globalen Aufgaben:

  • transnationales Geschäft;
  • Luftverkehrsmanagement;
  • Untersuchung der Eingeweide der Erde oder sozialer Probleme (auf Landesebene);
  • Untersuchung der Wirkung von Arzneimitteln auf einen lebenden Organismus;
  • Vorhersage der Folgen des Baus eines Industrieunternehmens usw.

Data-Mine-Technologien und die Umwandlung „bedeutungsloser“Daten in echte Daten, die es Ihnen ermöglichen, objektive Entscheidungen zu treffen, ist die einzige Option.

Menschliche Möglichkeiten enden dort, wo es eine große Menge an Rohinformationen gibt. Data-Mining-Systeme verlieren ihren Nutzen, wenn es darum geht, Informationen zu sehen, zu verstehen und zu fühlen.

Angemessene Funktionsverteilung und Objektivität

Mensch und Computer sollten sich ergänzen - das ist ein Axiom. Das Schreiben einer Dissertation ist eine Priorität für eine Person, und ein Informationssystem ist eine Hilfe. Hier sind die Daten, die die Data-Mining-Technologie hat, Heuristiken, Regeln, Algorithmen.

Die Erstellung einer wöchentlichen Wettervorhersage ist die Priorität des Informationssystems. Der Mensch verw altet die Daten, stützt seine Entscheidungen aber auf die Ergebnisse der Berechnungen des Systems. Es kombiniert Data-Mining-Methoden, fachliche Datenklassifikation, manuelle Kontrolle der Anwendung von Algorithmen, automatischer Vergleich vergangener Daten, mathematische Prognosen und viel Wissen und Können echter Menschen, die an der Anwendung des Informationssystems beteiligt sind.

Mensch und Computer
Mensch und Computer

Wahrscheinlichkeitstheorie und mathematische Statistik sind nicht die "beliebtesten" und verständlichsten Wissensgebiete. Viele Spezialisten sind sehr weit davon entfernt, aber die in diesen Bereichen entwickelten Methoden liefern fast 100% korrekte Ergebnisse. Durch die Anwendung von Systemen, die auf den Ideen, Methoden und Algorithmen des Data Mining basieren, können Lösungen objektiv und zuverlässig gewonnen werden. Andernfalls ist es einfach unmöglich, eine Lösung zu finden.

Pharaonen und Mysterien vergangener Jahrhunderte

Verlauf wurde regelmäßig neu geschrieben:

  • Staaten - wegen ihrer strategischen Interessen;
  • autoritative Wissenschaftler - um ihrer subjektiven Überzeugung willen.

Es ist schwer zu sagen, was wahr und was falsch ist. Der Einsatz von Data Mining ermöglicht es uns, dieses Problem zu lösen. Zum Beispiel wurde die Technologie des Pyramidenbaus von Chronisten beschrieben und von Wissenschaftlern in verschiedenen Jahrhunderten untersucht. Nicht alle Materialien sind ins Internet gelangt, nicht alles ist hier einzigartig, und viele Daten haben möglicherweise nicht:

  • beschriebener Zeitpunkt;
  • Zeitpunkt des Schreibens der Beschreibung;
  • Daten, auf denen die Beschreibung basiert;
  • Autor(en), Meinungen (Links) berücksichtigt;
  • Bestätigung der Objektivität.

BBibliotheken, Tempeln und "unerwarteten Orten" finden Sie Manuskripte aus verschiedenen Jahrhunderten und materielle Zeugnisse der Vergangenheit.

Interessantes Ziel: alles zusammenfügen und die "Wahrheit" ans Licht bringen. Merkmal des Problems: Informationen können von der Erstbeschreibung durch einen Chronisten zu Lebzeiten der Pharaonen bis zum gegenwärtigen Jahrhundert gewonnen werden, in dem dieses Problem von vielen Wissenschaftlern mit modernen Methoden gelöst wird.

Begründung für den Einsatz von Data Mining: Handarbeit ist nicht möglich. Zu viele Mengen:

  • Informationsquellen;
  • Repräsentationssprachen;
  • Forscher, die dasselbe auf unterschiedliche Weise beschreiben;
  • Daten, Ereignisse und Bedingungen;
  • Begriffskorrelationsprobleme;
  • Analyse von Statistiken nach Datengruppen im Zeitverlauf kann unterschiedlich sein usw.

Am Ende des letzten Jahrhunderts, als ein weiteres Fiasko der Idee der künstlichen Intelligenz nicht nur für den Laien, sondern auch für einen versierten Fachmann offensichtlich wurde, tauchte die Idee auf: „die Persönlichkeit neu zu erschaffen“.

Zum Beispiel wird nach den Werken von Puschkin, Gogol, Tschechow ein bestimmtes System von Regeln, Verh altenslogiken gebildet und ein Informationssystem geschaffen, das bestimmte Fragen so beantworten kann, wie es ein Mensch tun würde: Puschkin, Gogol oder Tschechow. Theoretisch ist eine solche Aufgabe interessant, in der Praxis jedoch äußerst schwierig umzusetzen.

Die Idee einer solchen Aufgabe legt jedoch eine sehr praktische Idee nahe: "Wie man eine intelligente Informationssuche erstellt." Das Internet ist eine Menge Entwicklungsressourcen, eine riesige Datenbank und dies ist eine großartige Gelegenheit, Data Mining in Kombination mit Menschen anzuwendenLogik im Format gemeinsamer Entwicklung.

Maschine und Mensch zusammen
Maschine und Mensch zusammen

Eine Maschine und ein Mensch gepaart ist eine hervorragende Aufgabe und ein unbestrittener Erfolg im Bereich "Informationsarchäologie", hochwertige Ausgrabungen in Daten und Ergebnissen, die etwas in Frage stellen, aber ohne Zweifel ermöglichen neues Wissen zu erwerben und in der Gesellschaft gefragt zu sein.

Empfohlen: