Jan 12, 2010 von Nils
DocFetcher – Schnelle Dokumentsuche für Windows und Linux
Für das schnelle Durchsuchen von NTFS Partitionen unter Windows sind weiterhin Everything oder UltraSearch meine erste Wahl. DocFetcher hingegen hat sich das Indexieren und die Volltextsuche innerhalb unterschiedlicher Dokumenttypen zur Aufgabe gemacht.
Hier werden also nicht alle Daten, sondern nur bestimmte Formate wie Word, PDF oder HTML auf der Festplatte durchsucht. Hierfür muss lediglich zuvor ein Index von einer Datenquelle erstellt werden.
Ich habe zum Testen einfach mal eine gesamte Partition indexieren lassen. Je nach Umfang der Daten kann dieser Vorgang ein paar Minuten beanspruchen. Anschließend steht allerdings eine exzellente Volltextsuche für alle gängigen Dateiformate innerhalb der zuvor indexierten Quelle zur Verfügung.
Als Beispiel habe ich als Suchanfrage einen kleinen Teil eines PDF Dokumentes verwendet. Dieses tauchte umgehend als erster Treffer in der Ergebnisliste auf. Wird dieses nun angeklickt, kann im unteren Teil des DocFetchers eine abgespeckte Vorschau betrachtet werden, welche vermutlich beim Indexieren entstanden ist. Dort sind dann auch nochmals alle Treffer farblich hervorgehoben.
Folgende Dateitypen werden unterstützt:
- HTML- und einfacher Text (beide anpassbar)
- Portables Dokument-Format (pdf)
- Microsoft Office (doc, xls, ppt)
- Microsoft Office 2007 (docx, xlsx, pptx)
- OpenOffice.org Writer, Calc, Draw und Impress (odt, ods, odg, odp)
- Rich-Text-Format (rtf)
- AbiWord (abw, abw.gz, zabw)
- Microsoft Compiled HTML Help (chm)
- Microsoft Visio (vsd)
- Scalable Vector Graphics (svg)
Zunächst habe ich keinen richtigen Sinn in der Software sehen können und diese lediglich aus Neugier/Langeweile getestet. Allerdings fand ich die Ergebnisse wirklich sehr überzeugend und sehe die Software als gute Ergänzung zur normalen Desktop Suche. Gerade wer viele Dokumente sein Eigene nennt und sich im Chaos nicht mehr zurecht findet, sollte sich den DocFetcher einmal näher ansehen. [via]
Die OpenSource Software ist unter Windows und Linux lauffähig. Zusätzlich zur installierbaren Variante, wird sogar noch eine portable Version zum Download angeboten.
Ähnliche Beiträge:

Interessant für mich wg. Linux. Wie groß ist der erstellte Index?
Kann leider nicht direkt nachvollzogen werden.
Wird aber nicht nennenswert sein
Ich such garnicht soo oft mit Tools – weil ich versuche ´ne gewisse Grundordnung einzuhalten. Da ich ja meine Comps alleine benutze, kann ich ja nur selber Unordnung schaffen. Und das versuche ich zu vermeiden.
Wenn, dann nehme ich meist Everything. Ultrasurf hab ich glaub ich auch.
Wieso kann der SVG-Dateien indexieren?
Eventuell ist die Software in der Lage, in einer SVG-Dateien eingebetteten Text zu erkennen. Wobei Text meines Wissens nach innerhalb einer SVG-Datei immer in Pfade umgewandelt wird, welche wiederum via XML beschrieben werden. XML zu lesen ist natürlich kein Problem – ob aber auch der richtige Text indexiert wird, kann ich leider grad schwer testen
anfrage!
Werden auch e-mails erfasst?
@Tester: Kann ich nicht genau sagen. Steht zumindest nicht mit bei den unterstützten Formaten