Trotz zunehmender Digitalisierung werden Dokumente wie Rechnungen, Geschäftsberichte, Beschwerden, Formulare und Verträge weiterhin häufig genutzt und laufen als Massendaten in Banken, Versicherungen und Behörden auf. Für die Effizienz vieler Geschäftsprozesse, wie die Weiterleitung von Anfragen, die Extraktion und Speicherung von Daten sowie die Unterstützung bei Suchanfragen, ist die Verarbeitung solcher – in der Informatik als unstrukturiert bezeichneten – Dokumente von großer Bedeutung. Wie Künstliche Intelligenz (KI) zur automatisierten Dokumentenauswertung eingesetzt werden kann, untersuchen Forschende der Hochschule RheinMain (HSRM) im Projekt SLIMDOC (Synergetic LIghtweight Multimodal DOCument Analysis).
Automatisierte Analyse multimodaler Dokumente
Für die Interpretation von Dokumenten stellt die KI-basierte Dokumentanalyse eine Schlüsseltechnologie dar, die sich etwa mit Informationsextraktion (beispielsweise von Produktpreisen), Entitätserkennung (wie von Orten oder Rechnungspositionen), der Klassifikation von Dokumenten oder mit der automatischen Beantwortung von Fragen zum Dokumentinhalt beschäftigt. Besonders herausfordernd ist es, multimodale Dokumente zu verstehen: Diese beinhalten neben Text auch Bilder wie Grafiken oder Fotos. Die KI muss folglich nicht nur textliche Informationen, sondern auch visuelle Signale und die räumliche Anordnung der Layoutelemente berücksichtigen. Bei der Schadenregulierung in Versicherungen müssen KI-Modelle etwa prüfen, ob Schadendokumente in sich kompatibel und plausibel sind.
Verkleinerung von KI-Modellen
„Mit dem Projekt SLIMDOC möchten wir KI-Modelle entwickeln, die solche Dokumente zuverlässig analysieren, und zwar leichtgewichtig“, erklärt Projektleiter Prof. Dr. Adrian Ulges. Bisherige KI-Modelle lassen sich in zwei Arten unterteilen: einerseits Large Language Models (LLMs) wie die Modelle der GPT-Reihe, die als generelle Problemlöser überzeugen, aber einen enormen Ressourcenverbrauch mit sich bringen und nur eingeschränkt lokal betrieben werden können. Daneben gibt es auf die Verarbeitung von Dokumenten spezialisierte Modelle, die Bildinhalt, Text und Layout in Kombination interpretieren, dafür jedoch händisch annotierte Daten benötigen, was mit einem Mehraufwand für die Kunden einhergeht, die diese Annotationen liefern müssen.
Das Ziel von SLIMDOC ist es, beide Modelltypen synergetisch zu verbinden. Mittels eines als Distillation bezeichneten Verfahrens sollen die Fähigkeiten von LLMs auf sehr kleine, task-spezifische Modelle zur Dokumentenanalyse übertragen werden. So soll ein effektiveres Modell entstehen, das dieselbe Aufgabe im Sinne von Nachhaltigkeit und digitaler Souveränität ressourcenschonend löst. Die KI-Modelle sollen außerdem in der Lage sein, die benötigten Trainingsdaten mittels Dokumentengenerierung selbstständig zu erstellen, sodass teures Datensammeln und die händische Annotation überflüssig werden.
Zusammenarbeit mit Praxispartnern
Das Projekt bearbeitet zwei Anwendungsfälle mit drei Praxispartnern. Gemeinsam mit der Insiders Technologies GmbH als mittelständischem Anbieter von Softwarelösungen für die Automatisierung dokumentenzentrierter Geschäftsprozesse werden neue hocheffiziente KI-Modelle für Spezialtasks in der Dokumentanalyse entwickelt. Der Dokumentanalyse als multimodalem Problem widmet sich die Zusammenarbeit mit der R+V Versicherung als Verarbeiter von Massendaten und der Doxis GmbH als Anbieter im Bereich Enterprise Content Management. Geplant ist der Einsatz von neu entwickelten KI-Modellen in der Informationsgewinnung aus mit Grafiken versehenen Geschäftsberichten sowie in der Plausibilitätsprüfung von Versicherungsfällen.