Kontakt Download Shop Schrift Drucken
Kontakt Download Shop Schrift Drucken

directEXTRACT

Datenextraktion in der Archivierungsvorstufe

directEXTRACT ist eine intelligente Archivierungsvorstufe, die Dokumente abhängig von Ihrem Typ (Rechnung, Quittung, Nachricht, ...) behandeln kann. Dokumentenabhängige Meta-Informationen wie Kundennummer und Adressen können neben einem Tiff-Dokument an die Archivierung übergeben werden.

Dem Anwender kann mit directEXTRACT eine einheitliche Archivierungsschnittstelle wie z.B. ein Druckertreiber angeboten werden. Weitere Informationen zur Archivierung wie z.B. eine Kundennummer werden direkt aus dem gedruckten Dokument bezogen und können auch in einer externen Archivierungssoftware angegeben werden. Parallel können die Dokumente auch mit Logos und Wasserzeichen archiviert und ausgedruckt werden.

Die Dokumente für directEXTRACT werden deshalb typischerweise durch einen virtuellen Druckertreiber wie directCONVERT gewonnen. Sie können also Dokumente einfach durch Ausdrucken auf directCONVERT archivieren. Dies funktioniert zuverlässig mit allen Windows Anwendungen, wie z.B. Microsoft Office.

Aus der Sicht des Anwenders wird einfach anstatt eines Ausdrucks auf dem eigenen Drucker auf dem virtuellen Drucker directCONVERT gedruckt. Es sind anwenderseitig keine Einstellungen oder Eingaben notwendig, denn diese Informationen werden automatisch aus den Dokumenten bezogen. Für jeden Dokumententyp wird vorher definiert, welche Informationen zu extrahieren sind und in welcher Form diese an die Archivierung zu übergeben ist.

Was macht directEXTRACT ?

Die durch directCONVERT erstellten Dokumente werden als neutrales Tiff Rasterbild erstellt. Parallel werden von directCONVERT aber auch Metatext - Informationen zum Dokument erstellt, mit denen jeder gedruckte Buchstabe und seine Position identifizierbar ist. Die Textinhalte des Dokumentes können auf diese Weise exakt verarbeitet werden, und zwar ohne dass eine fehlerbehaftete Texterkennung (OCR) eingesetzt werden muss.

Der RulServer (siehe in Bild 1 oben rechts) nimmt die vom Druckertreiber erstellten Dokumente auf und verarbeitet sie. Das Dokument kann mit Wasserzeichen, Briefköpfen, Formularen und dynamischen Text-Stempeln versehen werden. Danach kann das Dokument gleichzeitig ausgedruckt und archiviert werden. Zur Archivierung werden zusätzlich automatisch Indexierungsdaten erstellt und in einer XML-Datei dem Archiv (in Bild 1 unten rechts) angeboten.

directEXTRACT Ablaufschema
Bild 1: directEXTRACT Ablaufschema

Der RulServer

Der RulServer von directEXTRACT ist ein echter Windows Dienst und arbeitet auch wenn kein Anwender auf dem Rechner angemeldet ist. Er wird in der Regel auf dem Archivierungs-Server oder bei größeren Workgroups zusammen mit directCONVERT auf einem vorgeschalteten Server installiert. Er greift die gedruckten Dokumente automatisch auf und wendet darauf Befehle eine Skript - Sprache, des sogenannte RUL-Skripts, an.

Im RulServer können beliebig viele Warteschlangen (Queues) definiert werden, siehe Bild 2. Mit Hilfe unterschiedlicher Warteschlangen können Regeln für einzelne Abteilungen wie Einkauf, Verkauf oder Produktion definiert werden.


Bild 2: Die Queue - Liste des RulServers

Jede Queue arbeitet für jedes Dokument ein RUL - Skript ab. Dieses Skript enthält die Regeln nach denen der Dokumenttyp bestimmt wird und welche Informationen aus dem Dokument extrahiert werden sollen. Als Dokumenttypen werden oft Rechnungen, Quittungen, Mahnungen oder Kundenmitteilungen verwendet.

Für jeden Dokumenttyp können unterschiedliche Informationen zum Extrahieren festgelegt werden, denn oft unterscheiden sich die zu archivierenden Informationen je nach Dokumententyp erheblich. Typischerweise werden Informationen wie Bestellnummer, Kundennummer, Datum, Adressen oder z.B. die Rechnungssumme extrahiert.

Der RulEditor

Das RUL-Skript enthält die zentralen Anweisungen für die Datenextraktion. Da es sich um eine Programmiersprache handelt, können Sie in komplexen Situationen diese RUL-Skripte selbst erstellen.

Viele Aufgaben lassen sich aber mit dem RulEditor viel einfacher lösen. Dieser grafische Editor erlaubt es Rul-Skripte ganz einfach und ohne Kenntnisse der Programmiersprache zu erstellen. Sie können jederzeit neue Regeln durch Klicken hinzufügen oder bestehende verändern.

Um ein neuen Dokumenttyp zu definieren:

Dazu drucken Sie erst einmal ein typisches Dokument mit directCONVERT aus. Dieses wird als Vorlage verwendet, um die Textpositionen zu ermitteln.

Danach öffnen Sie das Dokument im RulEditor und legen ein neues Projekt und darin einen neuen Projekttyp an. In Bild 3 sehen Sie bereits die Selektionsregel eines mitgelieferten Demo-Projektes.

Diese Selektionsregel eines Dokumententyps sucht in einem Bereich (siehe die blaue Markierung in Bild 3) nach einem bestimmten Text (siehe Eingabebox "Suchtext" ganz unten rechts in Bild 3).


Bild 3: Der RulEditor mit Selektionsregel

Einen neuen Dokumenttyp zu definieren ist also gar nicht schwer: Vorlage-Dokument laden, Textbereich zu Suche markieren und den zu suchenden Text eingeben.

Dem RulServer ist es übrigens egal ob Sie nur einen Dokumenttyp oder hunderte definieren.

Um einen Textbereich zu extrahieren

Ein typischer Anwendungsfall ist es, ein- oder mehrzeiligen Text aus einem definierten Bereich zu extrahieren. Hier kann es sich z.B. um eine Lieferanschrift handeln.

Dies ist im RulEditor denkbar einfach: Definieren Sie eine neue Eigenschaft und legen Sie den Suchbereich mit der Maus fest, aus dem der Text extrahiert werden soll.

Eine entsprechende Regel ist in Bild 4 dargestellt, hier wird das gesamte Anschriftenfeld extrahiert.


Bild 4: Text extrahieren

Um einen Text zu suchen und zu extrahieren

Manchmal ist die Position des gesuchten Textes variabel. In diesen Fällen findet man aber oft einen anderen Text in der Nähe, diesen Text nennen wir Anker. Zum Beispiel findet sich oft der Text "Kundennr.:" links oder über der eigentlichen Kundennummer. Ähnlich verhält es sich z.B. mit der Rechnungssumme.

In Bild 5 ist der Bereich markiert, in dem der Textanker "Rechnungswert" gesucht wird. Extrahiert wird dann der Text, der sich rechts vom Textanker befindet, in diesem Fall der Wert "209,44 EUR".


Bild 5: Textextraktion über Anker

Die besondere Schwierigkeit hier ist es, dass die Position des Ankers vorher nicht bekannt ist. Denn abhängig von der Anzahl der bestellten Waren befindet sich die Rechnungssumme an unterschiedlichen Positionen. Bei der Suche über den Anker "Rechnungswert" ist allerdings eine eindeutige Identifizierung des Datums sichergestellt.

Konfiguration einer Queue

Im RulServer können beliebig viele Queues definiert werden. Jede Queue kann eigene Abarbeitungsregeln verwenden. In Bild 6 sehen Sie die allgemeinen Einstellungen einer Queue. Hier definieren Sie den angezeigten Namen und welches Rul-Skript verwendet werden soll.


Bild 6: Allgemeine Einstellungen einer Queue

In Bild 7 sehen Sie wie Wasserzeichen, Formulare und dynamische Stempel einer Queue zugeordnet werden. Dies geschieht ganz einfach über den Dokumententyp. Hier sind 2 unterschiedliche Verarbeitungen für den Raster Image Prozessor (RIP) definiert worden: Ein Aufdruck "Nicht Scannen" und ein Briefbogen für Rechnungen. Während der Aufdruck "Nicht Scannen" für alle Dokumentenklassen wie LIEFERSCHEINE und VERSANDBELEGE verwendet werden soll, wird der Briefbogen für Rechnungen auf alle Dokumentenklassen RECHNUNGEN angewendet.

Praktischerweise können Sie bei der Zuordnung der Formulare zu den Dokumenttypen auch Wildcards benutzen. Sollten Sie also einmal eine neue Dokumentklasse wie RECHNUNGAUSLAND erstellen müssen, brauchen Sie sich nicht weiter um das richtige Formular zu kümmern.


Bild 7: Formulare definieren

In Bild 8 ist die Druckweiterleitung dargestellt. In jeder Queue kann separat ein eigener Ausgabedrucker verwendet werden. Natürlich können Sie auch Queues definieren, in denen die Druckweiterleitung nicht verwendet wird.

Da einige Drucker die Druckausgaben unterschiedlich behandeln, können Sie bei Bedarf das Dokument noch einmal exakt auf der Papierfläche positionieren. Falls Sie zur Ausgabe günstige Desktop-Drucker verwenden, kann die Ausgabequalität noch einmal durch ein spezielles Anti-Aliasing verbessert werden.


Bild 8: Die Druckweiterleitung

Auf einen Blick

  • Klassifiziert beliebige Dokumententypen wie Rechnungen, Quittungen und Kundenmitteilungen.
  • Separat konfigurierbare Behandlung der einzelnen Dokumententypen.
  • Integrierter Raster Image Prozessor (RIP) für Wasserzeichen, Formulare und Briefköpfe.
  • Separate Briefköpfe für jeden Dokumententyp einstellbar.
  • Paralleles Drucken und Archivieren
  • Stellt auch bei Firmenpapier sicher, dass der Ausdruck exakt mit dem Archivierten Inhalt übereinstimmt.
  • Entspricht den Bestimmungen zur deutschen Archivierungspflicht.
  • Extrahiert Indexierungsinformationen unterschiedlicher Dokumententypen
  • Sinnvoll im Bundle mit directCONVERT
  • Sie benötigen ein elektronisches Dokumentenarchiv für TIFF Dateien
  • TIFF ist das ideale Format für Langzeitarchivierungen.
  • Meta-Informationen können im TIFF gespeichert werden. Doppelte Datensicherheit: Bei Verlust der Archiv-Datenbank können die Meta-Informationen wieder hergestellt werden.
  • Für Windows 2000, XP, Windows Vista, Windows 7, Windows Server 2000, Server 2003, Server 2008.
Mit DOS Programmen drucken?
Ältere MS-DOS Programme sind an vielen Stellen immer noch nicht wegzudenken. Allerdings sind kaum noch Drucker erhältlich, die die älteren Druckformate richtig unterstützen. Mit directESC können Sie die Druckdaten von Programmen die z.B. Epson ESC/P und IBM ProPrinter unterstützen auf modernen USB-Druckern ausgeben. Mehr...
Neu: directCONVERT 4.0
Mit directCONVERT 4 setzen wir neue Maßstäbe. Das Konvertieren beliebiger Dokumente nach TIFF, PCX, BMP, JPEG und GIF ist mit dem integrierten Ausgangskorb noch einfacher geworden. Unterstützt werden Microsoft Windows 2000, Windows XP, Windows Vista und Windows 7. Mehr...
Barcodes im Griff
Mit directBAR haben Sie alle Standard Barcodes fest im Griff. Mit nur wenigen Klicks haben Sie Ihren Barcode erstellt und können ihn z.B. sofort über die Zwischenablage in Ihr Word-Dokument importiert. Mehr...
Bilder per Mail senden?
Mit directVIEW können Sie nun ganz leicht Bilder per E-Mail versenden. Dabei achtet directVIEW immer auf das richtige Bildformat und wählt für Sie die optimale Komprimierung aus. Richtig praktisch sind die druckbaren HTML E-Mails. Dabei sieht der Empfänger das Bild sofort in seinem E-Mail Programm, ohne dass er die Datei öffnen muss. Mehr...
powered by m-sys.de
Keywords: TIFF, Windows, Grafiken, Druckertreiber, directCONVERT, directVIEW, directCAPTURE, directPRINT, Microsoft, Printer, BMP, directMON, Document, Drucker, GIF, Image, JPEG, directJOB, Driver tiff windows