
Eine der größten Herausforderungen in der Computerwissenschaft ist heute, die ungeheuren Datenmengen zu verwalten und miteinander zu verbinden. Eine normales Smartphone kann heute bereits Millionen von Datensätzen in kurzer Zeit generieren. Rechenzentren arbeiten in Größenordnungen, die nicht einmal mehr im Petabytebereich sind.
Mit der Datenfusion werden Methoden entwickelt, digitale Informationen sinnvoll aufzubereiten. Dazu zählen Datenbanken, die aufeinander abgestimmt werden müssen. Meistens werden in der Datenfusion Rohdaten eingesetzt, die wiederum zu einer neuen Datenquelle zusammengefasst werden.
Unvollständige Datensätze verbessern
Ein weiterer, wenn nicht der wichtigste Bereich der Datenfusion ist das Zusammenfügen von unvollständigen Informationen. Hierbei wird einem Computersystem die Aufgabe gegeben, einen Datensatz selbständig weiterzuführen und dabei einem bestimmten Muster zu folgen. In einer Verfeinerung werden Daten auf Duplikate überprüft und diese entsprechend aussortiert.
Datenfusionen finden überall und ständig statt. Eine bedeutende Anwendung ist die künstliche Intelligenz, Hier werden große Mengen an Informationen benötigt, damit Maschinen daraus lernen können. Diese Quellen haben aber unterschiedliche Formate und müssen zuvor so angepasst werden, dass sie im Lernprozess benutzt werden können.
Datenbanken, die miteinander fusioniert werden, finden sich zum Beispiel bei Firmenübernahmen. Hier hat Firma A Buchhaltungsinformationen in einem Format A1, das andere Unternehmen B aber im Format B1. In der Datenfusion müssen diese Daten auf einen gemeinsamen Stand gebracht werden, zum Beispiel A2, B2 oder C1 als neuer Standard. Konkret ist das zum Beispiel der Fall, wenn in einer Datenbank Vorname und Nachname in unterschiedlicher Reihenfolge stehen oder es in einer Version kein Feld für einen Mittelnamen gibt.
Da es nicht immer gemeinsame Standards für Datenbankformate gibt, sind Datenfusionen heute eine große Herausforderung. Diese wird noch größer durch die Zahl der Quellen, zum Beispiel bei der industriellen Automatisierung oder beim Internet of Things (IoT). So müssen die Informationen, die ein Temperatursensor weitergibt, sowohl von einem Heizungssystem als auch von einem Wartungsdienst und einem Smartphone verstanden werden. Datenfusion findet deshalb heute auch von künstlicher Intelligenz gesteuert statt. Die KI-Rechner sind in der Lage, Muster zu erkennen und ein optimales Datenformat zu errechnen, auf das dann die unterschiedlichen Quellinformationen angepasst werden.