Verbrecherjagd mit Data-Mining
Aktuelle Verfahren der innerbetrieblichen Betrugsaufdeckung
Neuronale Netze in der Aufdeckung wirtschaftskrimineller Handlungen
Jürgen Hirsch// Qyte GmbH, Eschborn
Ein Jeder kennt die Redewendung „Da ist uns ein dicker Fisch ins Netz gegangen“. Nur sehr selten bezeichnet sie heute noch den Fangerfolg in der Fischerei, sondern wird metaphorisch als Umschreibung des Jagderfolges in der Bekämpfung doloser Handlungen gebraucht. So liegt es schon sprachlich auf der Hand, für die Aufdeckung von Betrugsvorgängen tatsächlich Netze zu benutzen, sehr spezielle zwar, aber eben doch Netze in denen sich Betrüger leicht verfangen.
Dieser kurze Beitrag gibt Ihnen eine Einführung in die Nutzung neuronaler Netze für die Untersuchung von Daten und soll Ihnen eine Anregung sein sich vielleicht doch mal etwas intensiver mit dem Thema zu beschäftigen.
Was sind neuronale Netze?
Zunächst einmal sind neuronale Netze nichts Neues. Der finnische Mathematiker Kohonen hatte bereits 1982 die Idee, eine sehr wesentliche Funktion des menschlichen Gehirns in einem Algorithmus nachzubilden. Es handelte sich dabei um die sogenannten sensorischen Karten, welche im menschlichen Gehirn dafür zuständig sind, uns ein Gefühl von Distanz und Nähe verschiedener Körperreize zu geben. Sie ermöglichen es uns, nach einer frühkindlichen Lernphase, unseren Körper koordiniert in der Umwelt zu bewegen.
Bei unserer Geburt sind diese sensorischen Karten ein relativ schwach belichteter Bereich. Die tapsigen Versuche kleiner Kinder sich koordiniert und kontrolliert zu bewegen sind ein Beleg dafür. Doch durch permanentes Training lernt das Kleinkind einen Reiz an der Hand dem Reiz an der Handwurzel räumlich näher zu verorten als einen solchen an einem Fuß. Durch die permanente Verarbeitung dieser Reize bilden sich die sensorischen Karten als Koordinatenschema aus, dessen Handhabung es uns nach einer Zeit ermöglicht gezielt nach einem Glas Wasser zu greifen und dieses ohne Malheur an den Mund zu führen.
Nun stellen Sie sich bitte ein neuronales Netz ebenso vor, wie diese leeren sensorischen Karten. Nur statt Körperreize lernen Sie nun diese Karten mit Daten an, ebenfalls mit der Intention, ähnliche Reize nah beieinander zu verorten und von unähnlichen Reizen zu separieren.
Wichtig ist dabei, dass die Reize, ebenso wie bei der Verarbeitung von Körperwahrnehmungen nicht unikausal oder linear sein müssen. Auf unseren Vergleich mit der Anatomie unseres Gehirns bezogen, bedeutet dies, eine Sinneswahrnehmung, die sich während einer Bewegung aus vielen unterschiedlichen Sinnesreizen zusammensetzt, die alle gleichzeitig und parallel zu einem Bedeutungsmuster verarbeitet werden. Der Vorteil der Nutzung neuronaler Netze für die Datenanalyse liegt eben genau darin: Wir können eine Vielzahl verschiedener Kriterien, die einen Zustand mittels Daten beschreiben anlernen und damit Effekte beobachten, die vielleicht nur in der Wechselwirkung von 5 oder 7 Dimensionen in den Daten zu Tage treten.
Ein Beispiel aus der Praxis
Wenn Sie der Meinung sind, dies sei alles sehr esoterisch und abstrakt, dann haben Sie für den Moment sicher Recht. Die Skepsis ist auch angebracht, denn in der Anfangs-Euphorie der Nutzung dieses wirklich genialen Verfahrens wurde und wird leider immer noch eine Menge Humbug getrieben. Denn genauso wenig wie wir lebensfähig wären, wenn wir nur und ausschließlich über funktionierende sensorische Karten verfügen würden, nutzen neuronale Netze nichts, wenn sie nicht in einen Analyseaufbau integriert sind und für den Anwender handhabbar werden.
An dieser Stelle soll Ihnen ein einfaches Beispiel die Funktionsweise dieses Verfahren illustrieren.
Stellen Sie sich vor, Sie untersuchen die Bestellvorgänge in einem Unternehmen. Mehrere Mitarbeiter verkaufen unter-schiedliche Produkte in unterschiedlichen Mengen zu verschiedenen Konditionen an verschiedene Kunden. Das ist in den meisten Unternehmen sicher eine Standardsituation.
Für den Anfang genügt eine einfache Liste mit Verkaufsvorgängen, in denen alle wesentlichen Informationen über die Bestellvorgänge enthalten sind. Diese Ebene der Daten sollte immer am Anfang einer Analyse stehen, da wir später hier auf den einzelnen Geschäftsvorfall zurückgreifen können.
Im nächsten Schritt bereiten wir die Daten in einer Aggregation für die weitere Analyse vor. Das bedeutet, wir verdichten die Daten hier in diesem Beispiel auf den einzelnen Kunden.
Zugleich transformieren wie die einzelnen Spalten auf einen einheitlichen Wertebereich zwischen 0 und 1, wobei die Zwischenwerte die Verteilung in den Daten wiederspiegeln und die 0 den kleinsten und die 1 den höchsten Ausgangswert repräsentieren. Das ist wichtig, um die Werte untereinander vergleichbar zu machen. Schließlich lernt das Kleinkind seine sensorischen Karten auch besser nicht in der Nähe eines Großbrandes.
Diese Werte werden nun in das neuronale Netz überführt, um in den Daten nach Zusammenhängen und Auffälligkeiten zu suchen. Und diese gibt es tatsächlich:
Würfelfarbe: rot = viele Bestellungen, grün = einige Bestellungen, blau = wenige Bestellungen
Blau auf der Ebene = je blauer, desto mehr unterschiedliche Kundenbetreuer bedienen die Kunden
Rot auf der Ebene = je roter, desto größer die Anzahl der bestellten Stücke
Grün auf der Ebene = je grüner, desto höher der eingeräumte Rabatt für die Kundenbestellungen
Als Ergebnis des Trainings repräsentiert Ihnen das Netz Ihre Kunden als Würfel in einer Landschaft. Große Würfel sind mehrere Kunden, kleine Würfel einzelne Kunden. Die Landschaft hat die Aufgabe ähnliche Kunden nahe beieinander und von unähnlichen räumlich distanziert zu verorten. Die Ähnlichkeit bestimmt sich hierbei aus allen angelernten Faktoren. Über die Farben werden Ausprägungen in den Daten abgebildet:
Mischfarben wie Violett oder Türkis ergeben sich aus der Überlagerung der Eigenschaften. Mit roter Linie umrandet sehen Sie einen Bereich der relativ auffällig ist. Hier stimmt etwas nicht, weil es einfach unlogisch erscheint:
Hier liegt ein Anfangsverdacht für die Überprüfung dieser Geschäftsvorfälle. Ist der Rabatt beim Kundenbetreuer vielleicht erkauft? Durch einen Mausklick auf die suspekten Würfel kann man nun alle dazugehörigen Einzeldatensätze anzeigen und aus den Daten herausfiltern, um sie einer Einzeluntersuchung zuzuführen.
Ebenso bedenklich ist es das die Topbesteller im Verhältnis kleine bis keine Rabatte eingeräumt bekommen, was für das Unternehmen mittelfristig ebenfalls einen großen Schaden verursachen kann.
Nun ist das Beispiel einfach gewählt um hier illustrativ zu sein. In der Auswahl der beschreibenden Datendimensionen sind Sie jedoch nicht limitiert. Wichtig ist es mittels neuronaler Netze ein multidimensionale Analyseverfahren an der Hand zu haben, dass es erlaubt auf die Suche nach verborgenen Zusammenhängen in den Daten zu gehen, da Sie weitestgehend frei von Hypothesen eine Untersuchung mehrere Zusammenhänge gleichzeitig nachgehen zu können.
Risiken und Nebenwirkungen
Wie jedes gutes Werkzeug lädt auch die Funktion des Kohonen Netzes dazu ein, vielerlei Dinge damit auszuprobieren. Das ist auch durchaus so gewollt. Schließlich werden nur durch praktische Erfahrungen Erkenntnisse gesammelt, die zum sicheren Umgang mit diesem Analyseverfahren führen. Dennoch seien Sie gewiss, einige Dinge machen dabei einfach keinen Sinn.
So ist es sicher möglich, aber unnötig streng kausale oder exakt korrelierende Dimensionen innerhalb eines Datenbestandes für ein neuronales Training vorzusehen. Hierdurch werden Datenreize an das Netz lediglich verdoppelt und in der Analyse übergewichtet. Dadurch werden schwächere Effekte überlagert und es entstehend vermeintlich klare Ausprägungen, die aber lediglich durch die starke Korrelation der Lerndimensionen zu erklären sind.
Die grafische Repräsentation des Netzes ist eine „Mensch-Maschine-Schnittstelle“. Die Bedeutung, die in der Grafik steckt, müssen Sie in der Interaktion mit dem Graphen selbst herstellen. Das Wissen, das Ihnen hier angeboten wird, müssen Sie sich darum erst aneignen. Das Netz als solches wird Ihnen die Antwort auf die Frage Warum stets schuldig bleiben. Darum eigenen sich neuronale Netze eigentlich viel mehr interessante Fragestellungen herauszufinden, die einen neuen Blick auf die zu untersuchenden Daten erlauben.
Zusammenfassung und Ausblick
Auch wenn neuronale Netze in der Datenanalyse schon lange existieren, war und ist ihr Einsatz bislang eher verhalten. Lediglich in der Analyse von Daten im Banking- und Finance-Sektor fristen Sie ein behütetes Nischen-Dasein. Gerade die anfängliche Euphorie des Gebrauchs zum Beispiel im Wertpapierhandel führte zu mancher Unvorsichtigkeit. Das Verfahren als solches kann aber nichts für diesen schlechten Leumund. Insbesondere in der Betrugsaufdeckung leistet diese Methode wirklich Hervorragendes!
Weitere Informationen zu diesem Thema erhalten Sie beim Autor des Artikels:
Jürgen Hirsch
Qyte GmbH
Steinbacher Str. 8
65760 Eschborn
Tel: +49 (0)6173-323706