directEXTRACT
Datenextraktion in der Archivierungsvorstufe
directEXTRACT ist eine intelligente Archivierungsvorstufe, die
Dokumente abhängig von Ihrem Typ (Rechnung, Quittung, Nachricht, ...)
behandeln kann. Dokumentenabhängige Meta-Informationen wie Kundennummer
und Adressen können neben einem Tiff-Dokument an die Archivierung
übergeben werden.
Dem Anwender kann mit directEXTRACT eine einheitliche
Archivierungsschnittstelle wie z.B. ein Druckertreiber angeboten werden.
Weitere Informationen zur Archivierung wie z.B. eine Kundennummer werden direkt
aus dem gedruckten Dokument bezogen und können auch in einer externen
Archivierungssoftware angegeben werden. Parallel können die Dokumente auch
mit Logos und Wasserzeichen archiviert und ausgedruckt werden.
Die Dokumente für directEXTRACT werden deshalb typischerweise durch
einen virtuellen Druckertreiber wie directCONVERT gewonnen. Sie
können also Dokumente einfach durch Ausdrucken auf directCONVERT
archivieren. Dies funktioniert zuverlässig mit allen Windows Anwendungen,
wie z.B. Microsoft Office.
Aus der Sicht des Anwenders wird einfach anstatt eines Ausdrucks auf dem
eigenen Drucker auf dem virtuellen Drucker directCONVERT gedruckt. Es sind
anwenderseitig keine Einstellungen oder Eingaben notwendig, denn diese
Informationen werden automatisch aus den Dokumenten bezogen. Für jeden
Dokumententyp wird vorher definiert, welche Informationen zu extrahieren sind
und in welcher Form diese an die Archivierung zu übergeben ist.
Was macht directEXTRACT ?
Die durch directCONVERT erstellten Dokumente werden als neutrales Tiff
Rasterbild erstellt. Parallel werden von directCONVERT aber auch Metatext -
Informationen zum Dokument erstellt, mit denen jeder gedruckte Buchstabe und
seine Position identifizierbar ist. Die Textinhalte des Dokumentes können
auf diese Weise exakt verarbeitet werden, und zwar ohne dass eine
fehlerbehaftete Texterkennung (OCR) eingesetzt werden muss.
Der RulServer (siehe in Bild 1 oben rechts) nimmt die vom Druckertreiber
erstellten Dokumente auf und verarbeitet sie. Das Dokument kann mit
Wasserzeichen, Briefköpfen, Formularen und dynamischen Text-Stempeln
versehen werden. Danach kann das Dokument gleichzeitig ausgedruckt und
archiviert werden. Zur Archivierung werden zusätzlich automatisch
Indexierungsdaten erstellt und in einer XML-Datei dem Archiv (in Bild 1 unten
rechts) angeboten.

Bild 1: directEXTRACT Ablaufschema
Der RulServer
Der RulServer von directEXTRACT ist ein echter Windows Dienst und arbeitet
auch wenn kein Anwender auf dem Rechner angemeldet ist. Er wird in der Regel
auf dem Archivierungs-Server oder bei größeren Workgroups zusammen
mit directCONVERT auf einem vorgeschalteten Server installiert. Er greift die
gedruckten Dokumente automatisch auf und wendet darauf Befehle eine Skript -
Sprache, des sogenannte RUL-Skripts, an.
Im RulServer können beliebig viele Warteschlangen (Queues) definiert
werden, siehe Bild 2. Mit Hilfe unterschiedlicher Warteschlangen können
Regeln für einzelne Abteilungen wie Einkauf, Verkauf oder Produktion
definiert werden.

Bild 2: Die Queue - Liste des RulServers
Jede Queue arbeitet für jedes Dokument ein RUL - Skript ab. Dieses
Skript enthält die Regeln nach denen der Dokumenttyp bestimmt wird und
welche Informationen aus dem Dokument extrahiert werden sollen. Als
Dokumenttypen werden oft Rechnungen, Quittungen, Mahnungen oder
Kundenmitteilungen verwendet.
Für jeden Dokumenttyp können unterschiedliche Informationen zum
Extrahieren festgelegt werden, denn oft unterscheiden sich die zu
archivierenden Informationen je nach Dokumententyp erheblich. Typischerweise
werden Informationen wie Bestellnummer, Kundennummer, Datum, Adressen oder z.B.
die Rechnungssumme extrahiert.
Der RulEditor
Das RUL-Skript enthält die zentralen Anweisungen für die
Datenextraktion. Da es sich um eine Programmiersprache handelt, können Sie
in komplexen Situationen diese RUL-Skripte selbst erstellen.
Viele Aufgaben lassen sich aber mit dem RulEditor viel einfacher lösen.
Dieser grafische Editor erlaubt es Rul-Skripte ganz einfach und ohne Kenntnisse
der Programmiersprache zu erstellen. Sie können jederzeit neue Regeln
durch Klicken hinzufügen oder bestehende verändern.
Um ein neuen Dokumenttyp zu definieren:
Dazu drucken Sie erst einmal ein typisches Dokument mit directCONVERT aus.
Dieses wird als Vorlage verwendet, um die Textpositionen zu ermitteln.
Danach öffnen Sie das Dokument im RulEditor und legen ein neues Projekt
und darin einen neuen Projekttyp an. In Bild 3 sehen Sie bereits die
Selektionsregel eines mitgelieferten Demo-Projektes.
Diese Selektionsregel eines Dokumententyps sucht in einem Bereich (siehe die
blaue Markierung in Bild 3) nach einem bestimmten Text (siehe Eingabebox
"Suchtext" ganz unten rechts in Bild 3).
Bild 3: Der RulEditor mit Selektionsregel
Einen neuen Dokumenttyp zu definieren ist also gar nicht schwer:
Vorlage-Dokument laden, Textbereich zu Suche markieren und den zu suchenden
Text eingeben.
Dem RulServer ist es übrigens egal ob Sie nur einen Dokumenttyp oder
hunderte definieren.
Um einen Textbereich zu extrahieren
Ein typischer Anwendungsfall ist es, ein- oder mehrzeiligen Text aus einem
definierten Bereich zu extrahieren. Hier kann es sich z.B. um eine
Lieferanschrift handeln.
Dies ist im RulEditor denkbar einfach: Definieren Sie eine neue Eigenschaft
und legen Sie den Suchbereich mit der Maus fest, aus dem der Text extrahiert
werden soll.
Eine entsprechende Regel ist in Bild 4 dargestellt, hier wird das gesamte
Anschriftenfeld extrahiert.

Bild 4: Text extrahieren
Um einen Text zu suchen und zu extrahieren
Manchmal ist die Position des gesuchten Textes variabel. In diesen
Fällen findet man aber oft einen anderen Text in der Nähe, diesen
Text nennen wir Anker. Zum Beispiel findet sich oft der Text
"Kundennr.:" links oder über der eigentlichen Kundennummer.
Ähnlich verhält es sich z.B. mit der Rechnungssumme.
In Bild 5 ist der Bereich markiert, in dem der Textanker
"Rechnungswert" gesucht wird. Extrahiert wird dann der Text, der sich
rechts vom Textanker befindet, in diesem Fall der Wert "209,44 EUR".

Bild 5: Textextraktion über Anker
Die besondere Schwierigkeit hier ist es, dass die Position des Ankers vorher
nicht bekannt ist. Denn abhängig von der Anzahl der bestellten Waren
befindet sich die Rechnungssumme an unterschiedlichen Positionen. Bei der Suche
über den Anker "Rechnungswert" ist allerdings eine eindeutige
Identifizierung des Datums sichergestellt.
Konfiguration einer Queue
Im RulServer können beliebig viele Queues definiert werden. Jede Queue
kann eigene Abarbeitungsregeln verwenden. In Bild 6 sehen Sie die allgemeinen
Einstellungen einer Queue. Hier definieren Sie den angezeigten Namen und
welches Rul-Skript verwendet werden soll.

Bild 6: Allgemeine Einstellungen einer Queue
In Bild 7 sehen Sie wie Wasserzeichen, Formulare und dynamische Stempel
einer Queue zugeordnet werden. Dies geschieht ganz einfach über den
Dokumententyp. Hier sind 2 unterschiedliche Verarbeitungen für den Raster
Image Prozessor (RIP) definiert worden: Ein Aufdruck "Nicht Scannen"
und ein Briefbogen für Rechnungen. Während der Aufdruck "Nicht
Scannen" für alle Dokumentenklassen wie LIEFERSCHEINE und
VERSANDBELEGE verwendet werden soll, wird der Briefbogen für Rechnungen
auf alle Dokumentenklassen RECHNUNGEN angewendet.
Praktischerweise können Sie bei der Zuordnung der Formulare zu den
Dokumenttypen auch Wildcards benutzen. Sollten Sie also einmal eine neue
Dokumentklasse wie RECHNUNGAUSLAND erstellen müssen, brauchen Sie sich
nicht weiter um das richtige Formular zu kümmern.

Bild 7: Formulare definieren
In Bild 8 ist die Druckweiterleitung dargestellt. In jeder Queue kann
separat ein eigener Ausgabedrucker verwendet werden. Natürlich können
Sie auch Queues definieren, in denen die Druckweiterleitung nicht verwendet
wird.
Da einige Drucker die Druckausgaben unterschiedlich behandeln, können
Sie bei Bedarf das Dokument noch einmal exakt auf der Papierfläche
positionieren. Falls Sie zur Ausgabe günstige Desktop-Drucker verwenden,
kann die Ausgabequalität noch einmal durch ein spezielles Anti-Aliasing
verbessert werden.

Bild 8: Die Druckweiterleitung
Auf einen Blick
- Klassifiziert beliebige Dokumententypen wie Rechnungen, Quittungen und
Kundenmitteilungen.
- Separat konfigurierbare Behandlung der einzelnen Dokumententypen.
- Integrierter Raster Image Prozessor (RIP) für Wasserzeichen, Formulare
und Briefköpfe.
- Separate Briefköpfe für jeden Dokumententyp einstellbar.
- Paralleles Drucken und Archivieren
- Stellt auch bei Firmenpapier sicher, dass der Ausdruck exakt mit dem
Archivierten Inhalt übereinstimmt.
- Entspricht den Bestimmungen zur deutschen Archivierungspflicht.
- Extrahiert Indexierungsinformationen unterschiedlicher Dokumententypen
- Sinnvoll im Bundle mit directCONVERT
- Sie benötigen ein elektronisches Dokumentenarchiv für TIFF
Dateien
- TIFF ist das ideale Format für Langzeitarchivierungen.
- Meta-Informationen können im TIFF gespeichert werden. Doppelte
Datensicherheit: Bei Verlust der Archiv-Datenbank können die
Meta-Informationen wieder hergestellt werden.
- Für Windows 2000, XP, Windows Vista, Windows 7, Windows Server 2000,
Server 2003, Server 2008.
|