Archivierung mit Meta-Informationen und durchsuchbaren PDFs

Diese Lösung kann im ganzen Unternehmen eingesetzt werden. Damit können durchsuchbare PDF-Archive mit verschiedenen attributierten Dokumenten erstellt werden.

Aufbau von Archiven mit hohem Dokumentenaufkommen sowie multiattributiver Suche oder Inhaltssuche

Diese Lösung ist für Archive unterschiedlicher Größe mit Funktionen zur Attribut- oder Inhaltssuche gedacht. In diesen Fallen ist üblicherweise die Verwendung von Enterprise-Datenbanken wie beispielsweise Oracle oder Microsoft SQL erforderlich.

Hier wird ein Hochleistungsscanner (Multifunktionsgerät) als Quelle fur digitalisierte Dokumentabbildungen eingesetzt. Der Scanner legt die gescannten Abbilder eines Dokuments (in einem Bild- oder PDF-Format) in einem lokalen oder Netzwerk-Datenspeicher ab.

Um im Scanprozess eine gleichzeitige Attributvergabe bei den digitalisierten Dokumenten vornehmen zu konnen, mussen die Quelldokumente hierfür vorbereitet werden. Die Vorbereitung schließt die Verwendung von sogenannten „Split Sheets“ ein. Das sind spezielle Seiten, auf denen Barcodes aufgebracht sind. Der Barcode zeigt den Anfang eines neuen Dokuments und enthält unterschiedliche weitere Informationen wie zum Beispiel den Dokumenttyp, den Namen des Verfassers oder das Erstellungsdatum. Dabei wird unterstellt, dass die Erkennung der Barcodes und die Separierung der Dokumente durch eine externe OCR-Software erfolgen.

In diesem Fall können mithilfe der OCR-Integration durch PDF Render Center die folgenden Aufgaben durchgeführt werden:

  • Separierung bestimmter Dokumente vom allgemeinen Scandurchlauf (auf Basis der Separierung der Split Sheets und ihrer folgenden Weiterverarbeitung)
  • Attributvergabe an die PDF-Dokumente durch die Identifikation der Informationen auf den Split Sheets und Erstellung eines separaten Dokuments, das Meta-Informationen (in der Regel im XML-Format) fur die Weiterverarbeitung enthält
  • Texterkennung in den Quell- beziehungsweise Bilddateien

Als Ergebnis erstellt PDF Render Center ein Multilayer-PDF, das aus zwei Ebenen besteht: eine untere Ebene, die Kopie des digitalisierten Dokuments (als Bild), und darüber eine Textebene (unsichtbar) mit den Ergebnissen der Erkennung. Diese Dateistruktur erlaubt in dem PDF-Dokument die Suche nach Inhalten und ermöglicht gleichzeitig, das Quelldokument (digitalisiertes Bild) zu erhalten.

Die Übernahme von Meta-Daten erfolgt entweder als separate Datei (XML) oder als integrierter, unsichtbarer Datenstrom innerhalb des PDF-Dokuments. Darüber hinaus besteht die Möglichkeit, Attribute direkt mithilfe der Integrationswerkzeuge von Render Center (Webdienste) in das Archiv zu übernehmen.

Die wichtigsten Vorteile:

  • Schnelle Implementierung
  • Verschiedene Wege für den Empfang von Input-Dokumenten
  • Einfache Verwaltung
  • Vielzahl an unterstützten elektronischen Formaten
  • Geringe Konvertierungskosten
Berechnen Sie die Kosten für mich

Interessiert an einer solchen Lösung?

Lassen Sie uns ein unverbindliches Angebot für Sie erstellen! Keine Verpflichtungen, Sie beschreiben uns kurz Ihre Aufgabe, und wir berechnen für Sie die voraussichtlichen Kosten.

Berechnen Sie die Kosten für mich