

In größeren IT-Landschaften finden sich verschiedenste Rohdaten und Datenformate. Office-Dokumente, Mails, PDF-Dateien oder HTML-Dokumente verteilen sich auf Web-, Mail- und File-Server und können wichtige Informationen zu einem einzigen Thema enthalten. Mit CRIA 4, Lucene und Solr können diese verteilten, unstrukturierten Informationen einfach und schnell zurückgewonnen werden. Wie geschieht das? Über einen Konnektor werden die Rohdaten eingesammelt und den Komponenten zugeführt. Mit Lucene und Solr, der Indexverwaltung und Suchverarbeitung, werden einen Suchindex erstellt, die Ergebnisse verschlagwortet und klassifiziert. Zusätzliche Komponenten wie z.B. eine LingPipe, die verschiedene linguistische Verfahren zur Texterschließung wie Cluster, Collocations oder Phrase detection bereit stellt, können hinzugezogen werden, um eine weitere, differenziertere Erschließung der Daten zu erreichen. Die Ergebnisse werden im Browser dargestellt. Die Lösung wird über einen einfachen webbasierten Zugriff mit optionaler Zugangskontrolle bedient. Im letzten Schritt können die ermittelten Daten in einem organisierten Ablagesystem sicher und gesetzeskonform archiviert oder nachweisbar vernichtet werden.

CRIA 4 nutzt etablierte Open Source-Komponenten und stellt modernste Techniken der linguistschen Suche und des Information Management zur Verfügung. Alle Komponenten sind offen, können problemlos erweitert und optimal in bestehende Umgebungen integriert werden. CRIA 4 ist keine zusätzliche Anwendung, sondern integriert Einzelkomponenten zu einer Enterprise-Anwendung.