Dieses Zitat aus den „Urschleimtagen“ der Computerentwicklung hat heute weder an Gültigkeit noch an Tragweite verloren. Ganz im Gegenteil. Es gewinnt in einer Zeit, die nicht nur mit Daten lebt, sondern geradezu von diesen, immer mehr an Bedeutung. Die Erkenntnis, dass am Ende eines Verarbeitungsprozesses Müll herauskommt, wenn man diesen zu Beginn hineinwirft, gilt vor allem in der inflationären Welt der Algorithmen. In immer mehr Anwendungen genutzt – und basierend auf künstlicher Intelligenz – übernehmen sie immer komplexere Aufgaben: Von der Kreditentscheidung bis hin zum Fahren eines Autos. Mülldaten können dabei großen Schaden anrichten. Wir stehen dabei drei Herausforderungen gegenüber.

Wenige Daten verderben den Brei

Künstliche Intelligenz lebt von großen Mengen an Daten. Diese werden benötigt, um die Systeme zu trainieren, um Muster zu erkennen und „der Maschine“ zu lernen, welche Schlüsse gezogen werden können. Dies steht im Gegensatz zum menschlichen Lernen, das mit teilweise wenigen, einzelnen Datenpunkten auskommt, um Lernergebnisse zu erzielen. Je weniger Daten vorliegen, um so mehr gerät das Lernen künstlicher Intelligenz an Grenzen. Besonders fatal ist es aber, wenn sich falsche Daten in die Trainingsmenge einschleichen. Die Auswirkungen sind oft schwer messbar und in vielen Fällen auch nicht erkennbar. Oder erst dann, wenn sie sich ausreichend oft negativ ausgewirkt haben. Je weniger Daten insgesamt vorliegen, um schlimmer sind im Zweifel die Effekte des „Garbage in“.

Semistrukturierte und unstrukturierte Daten

Zudem existieren viele Daten, die nur wenig oder gar nicht strukturiert vorliegen. Zwar nimmt deren Menge immer weiter zu, nicht aber deren Strukturiertheit. Dazu tragen viele Marketingabteilungen bei, die sich für die Gestaltung von z.B. Versicherungspolicen oder Schriftstücken ein neues Aussehen oder neue Texte einfallen lassen. Während das menschliche Gehirn ein Dokument – z.B. einen Brief – mit einem Blick einordnet und auch die Inhalte schnell erschließt, ist dies für Maschinen schwierig. Gerade auch die Mehrdeutigkeiten, die sich tagtäglich in der Sprache ergeben, stellen Hürden dar, die erst einmal überwunden werden müssen. Je mehr Daten mit geringer Strukturierung entstehen, z.B. durch E-Mail-Kommunikation oder Messenger-Chats, um so größer wird die Gefahr, dass Mehrdeutigkeiten zu Verwirrungen bei der Analyse führen.

Pseudo-Standards

Eigentlich dienen Standards der Vereinfachung, indem eine Einigung auf verbindliche Regeln stattfindet. In vielen Fällen funktioniert dies. In manchen nicht. Die Gefahr, dass sich Pseudo-Standards entwickeln, ist dann groß. Dies bedeutet, dass zwar nach außen hin ein verlässlicher Rahmen zu bestehen scheint. Im Detail sich aber keine wirkliche Einigung in vielen Punkten erzielen lässt und damit eine große Bandbreite in der Anwendung entsteht. In der Versicherungswirtschaft kennen wir diesen Umstand unter dem Namen „Bipro“. Zwar gibt es ein sehr komplexes und umfangreiches Regelwerk. Doch gerade was die Strukturierung von Daten angeht (und deren Aufbereitung zur Nutzung in weiteren Analysen) gibt es zwischen den einzelnen Anwendern große Abweichungen. Damit reduziert sich die Nutzungsmöglichkeit, jede Datenlieferung muss im schlimmsten Fall einzeln betrachtet werden. Und mit jeder dieser Interpretationen besteht die Gefahr einer Falschbeurteilung und damit von Fehlern in den Daten.

Lösungsansätze – drei unterschiedliche Wege

Wenn es um eine Lösung für das „Garbage-in-garbage-out-Problem“ geht, dann stehen grundsätzlich drei Wege offen – alle mit Vor- und Nachteilen und jeweils ganz eigenen Herausforderungen.

Das Schaffen „echter“ Standards würde das Problem auf einen Schlag lösen. Nur je umfangreicher der Datenumfang ist und je mehr Marktteilnehmer zu diesem beitragen, um so komplexer wird die Aufgabe. Der Umfang potenziert sich durch unterschiedliche Anbieter, Sparten und Produkte mit ihren jeweiligen Besonderheiten und den teilweise sehr detaillierten Anforderungen an die Datenlieferung. Sofern und solange es kein Normierungsinstitut gibt, das alle Regeln festlegt, ein praktisch nicht umsetzbarer Lösungsansatz.

Aus diesem Grund entstehen vielfach Dienstleister, die an die Stelle von Normierungsinstituten treten und sich der Vereinheitlichung der Daten annehmen. Unter dem schönen Begriff „Datenclearing“ werden die verschiedenen eingehenden Formate so verarbeitet, dass ein einheitlicher, ausgehender Datenstrom entsteht. Der Aufwand ist dabei nicht zu unterschätzen, denn dieser Prozess ist anfällig für Änderungen in den Strukturen der Datenlieferungen. Gleichzeitig fällt damit den Clearing-Dienstleistern die Aufgabe zu, eine Interpretation der Daten vorzunehmen und einen Standard zu schaffen.

Während die ersten beiden Varianten auf der Absender-Seite eingreifen, besteht alternativ die Möglichkeit, auf der Empfänger-Seite anzusetzen und sich jeweils auf die Daten zu konzentrieren, die für den jeweiligen Anwendungsfall relevant sind. Denn Standards und auch das Datenclearing nehmen sich aller Daten an. Unabhängig davon, ob das für den jeweiligen Anwendungsfall notwendig oder überhaupt sinnvoll ist. Mit unseren Analyseanasätzen rund um die sales.engine betrachten wir den jeweiligen Einsatzzweck am „Point-of-sale“, also beim jeweiligen Empfänger.

Vor allem mit Ansätzen wie dem Wissensorganisationssystem seKOS® schaffen wir Kontext und Strukturen für den jeweiligen Anwendungsfall. Während zwar alle Daten – ob strukturiert oder nicht – gespeichert werden, konzentriert sich deren Analyse nur auf die Bereiche, die in dem bestimmten Moment relevant sind. Dies reduziert zum einen den Strukturierungsbedarf im Vorfeld, da für diese Art der oft semantischen Analyse eine allgemeingültige Ordnung in den Daten nicht unbedingt erforderlich ist. Zum anderen kann das notwendige Wissen für die Analyse zielgerichtet und nachvollziehbar eingebracht und über die Zeit gezielt weiterentwickelt und ausgebaut werden.

Damit wird zwar nicht das grundsätzliche Problem der fehlenden Strukturierung und Standards gelöst, es entspricht aber deutlich mehr dem menschlichen Lernen und Erfassen und hilft damit deutlich mehr bei der Verwendung der Daten.