Automatische Klassifikation elektronischer Dokumente für die Dossierbildung

Im Rahmen des grundfinanzierten Projektes Automatische Klassifikation elektronischer Dokumente für die Dossierbildung wurde untersucht, wie eine automatische Klassifikation von Dokumenten die Nutzer von ECM (Electronic Content Management)-Systemen bei der Dossierbildung unterstützen kann. In Zusammenarbeit mit einem schweizer ECM-Anbieter wurde eine KTI-Beitragsgesuch ausgearbeitet.

User Interface
Prototyp einer Outlook-Integration der automatischen Klassifikation

Ausgangssituation und Problemstellung

Eine Mindestanforderung an ein systematisches Records Management ist die Bildung von Dossiers, welche alle zu einem Geschäftsvorfall relevanten Dokumente enthalten. Dies erlaubt es, nachzuvollziehen, was wann in einem Geschäft getan worden ist resp. wie wann entschieden worden ist. Die Dossierbildung ist für die tägliche Arbeit, noch viel mehr aber für die Rechtfertigung im Streitfall von entscheidender Bedeutung. Daher ist es entscheidend, dass die relevanten Dokumente tatsächlich erfasst werden. Vermehrt werden elektronische Dossiers geführt, in welche elektronische Dokumente (Mails, Textverarbeitungsdokumente, usw.) direkt, konventionelle Dokumente (Briefe, usw.) in gescannter Form abgelegt werden.

 

Gemäss Theorie des Records Management ist es die Aufgabe jedes einzelnen Sachbearbeiters, die relevanten Dokumente des Geschäftsvorfalls, den er gerade bearbeitet, dem Dossier zuzuweisen. Eine für das Geschäft zuständige Person kontrolliert und vervollständigt das Dossier.

Resultate

Im Projekt wurde der aktuelle Stand der Forschung im Bereich automatische Klassifikation von Dokumenten erarbeitet. Fokussiert wurde hierbei auf die Klassifkation von Mails, da die Dossierzuteilung der ständig wachsenden Zahl vom Mails ein Problem darstellt.

Folgende Ansätze zur automatischen Klassifikation von Mails wurden untersucht:

  • Klassifikation anhand des Diskussionsfadens
  • Klassifikation durch Methoden der Textklassifikation aus dem Gebiet des maschinellen Lernens

Typischerweise sind ECM-Systeme stark (hierarchisch) strukturiert. Der zweite Ansatz zur Klassifkation kann deshalb durch einen vorgängigen Abgleich mit den vorhandenen Strukturierungselementen (Named Entity Recognition) verbessert werden.

Arbeitspakete
Arbeitspakete des KTI-Projektes

In Zusammenarbeit mit einem Schweizer Hersteller von ECM-Systemen wurde ein KTI-Beitragsgesuch erarbeitet.

Projektdauer

Januar 2013 - November 2013

 

Projektpartner

Ansprechpartner

Studer Martin, Prof., Dipl. Informatik-Ingenieur ETH
Tel. +41 81 286 24 43
martin.studer@htwchur.ch
Einzelansicht