Schritt 4: Organisation und Strukturierung der digitalen Dokumente.

Wir haben nun also alle Grundlagen, um Dokumente zu digitalisieren. Es fehlt aber noch eine Struktur. Wie viele Dokumente kommen in ein PDF? Wie werden die PDFs benannt? Wie werden die PDFs abgelegt?

Die Dateistruktur und -benennung

Massenabfertigung

Aller Anfang ist schwer ... Es haben sich zig Ordner mit alten Rechnungen, Kontoauszügen und sonstigen Unterlagen angesammelt, die man seit Jahren nicht mehr angeschaut hat. Vermutlich geht es jedem so. Wahrscheinlich wird man diese Dokumente auch nie wieder brauchen. Aber einfach ungesehen vernichten? Einzelne wichtige Dokumente aussortieren und nur diese scannen? Was ist wichtig? Was ist unwichtig? Diese Entscheidung für Dokumente zu treffen ist schwer.

Also musste eine andere praktikable Lösung her. Das Zeitaufwendige beim Scannen der Dokumente ist ja mittlerweile nur noch das Vorbereiten der Dokumente und das Abspeichern mit einem prägnanten Dateinamen. Der Scan selbst dauert durch den automatischen Dokumenteneinzug nicht besonders lange. Aber jede 5 oder 10 Jahre alte Rechnung und jeden alten Kontoauszug einzelnen benennen?

Nein. Hier machen wir uns zu Nutzen, dass die Dokumente grob vorsortiert in den Ordnern sind, wir sie vermutlich nie wieder brauchen und wir OCR haben. Die Strategie:

Alle Dokumente werden, so wie sie in den Ordnern sind, eingescannt und je Aktenordner in einer einzelnen Datei gespeichert. Mittels OCR können wir später z. B. nach "Canyon" suchen, wenn wir die Rechnung für das 5 Jahre alte Canyon Rennrad suchen.

Die Datei wird dann z. B. 2012-2014 Rechnungen.pdf genannt. Oder 2010-2015 Kontoauszüge.pdf.

Nur Dokumente die uns sehr wichtig erscheinen, werden einzeln eingescannt und abgespeichert.

Man sollte sich noch immer das ein oder andere November-Wochenende mit schlechtem Wetter hierfür reservieren. Große Mengen zu digitalisieren ist schon eine zähe Aufgabe. Große Motivation: Man kann langsam aber sicher beobachten, wie sich das Büroregal leert.

Die Erfassung von alten unwichtigen Dokumenten, wie die 5 Jahre alten Rechnungen und Kontoauszüge, ist bei mir nun mittlerweile gut 2 Jahre her. Und ich muss sagen... Ich hab sie kein einziges mal mehr gebraucht. Sich hier so wenig wie möglich Arbeit machen, ist also ein guter Weg.

Wichtige Dokumente & Alltag

Für wichtige Dokumente und die Dokumente, die wir nun jede Woche per Post bekommen, sollten wir nicht mehr einfach alles in eine einzelne Datei schieben. Hier ist es angebracht, jedes Dokument einzeln zu scannen und zu benennen. Also z. B.: 2020-09-03 Nebenkostenabrechnung 2019.pdf.

Vor den eigentlichen Namen wird immer das Datum des Dokuments (welches auf dem Dokument steht; nicht der Zeitpunkt der Erfassung) in ISO 8601 Schreibweise gestellt.

Der Vorteil der ISO-Schreibweise: Bei alphabetischer Sortierung im Dateibrowser oder auf der Commandline, stimmt die Reihenfolge.

Somit haben wir nun also zwei Möglichkeiten nach einer Datei zu suchen. Entweder über den Inhalt oder über den Dateinamen.

Zum Thema "Finden von Dokumenten" wird es einen eigenen Artikel geben.


Randnotiz: Sonderzeichen, Umlaute und Leerzeichen in Dateinamen sind nicht bei jedem beliebt. Ich sehe da kein Problem. UTF-8 wird mittlerweile von jeder halbwegs vernünftigen Applikation und Betriebssystem unterstützt. Selbes gilt für die Länge des Dateinamens.


Dateiablage / Dokumentenmanagement / Ordnerstruktur

Damit ist nun klar, wie Dokumente selbst strukturiert und benannt werden. Aber noch nicht, wie die Dokumente denn abgelegt werden. In einem Dokumentenmanagementsystem? Alle Dokumente nur in einem Verzeichnis und wir arbeiten über die Suche? Oder ganz klassisch in einer Ordnerstruktur?

Dokumentenmanagementsystem

Ein Dokumentenmanagementsystem ist meist eine geschlossene Applikation mit einer Datenbank, welche Dateien vollständig in einer Datenbank indiziert, somit diese also schnell durchsuchbar macht und versucht automatisch oder über manuelle Zuordnung Dokumente zu sortieren und zu taggen. Häufig findet auch eine Versionsverwaltung statt, sodass man jederzeit auf alte Versionen zurückgreifen kann.

Meist läuft ein Dokumentenmanagementsystem nicht lokal auf einem Client, sondern auf einem zentralen Server. Viele DMS werden dann über den Webbrowser gesteuert und bedient.

Keine Frage. Ein DMS ist mächtig und erfüllt viele Aufgaben. Aber ich bin ein Freund des KISS-Prinzips: Keep it small an simple.

In einem Büro mit mehreren Mitarbeitern ist ein DMS unerlässlich. Aber in einem privaten Büro? Ich möchte keinen Server pflegen, der 24/7 im Dauerbetrieb läuft. Ich möchte meine Daten nicht in ein ggf. proprietäres System stecken, bei dem diese ggf. nicht mehr direkt zugreifbar sind. Meine Daten als Blob in einer Datenbank? Meine Daten gespeichert in einem Blockfilesystem, welches ohne zusätzliche Tools nicht lesbar ist?

Das ist für den Privathaushalt übertrieben und zum Teil sogar riskant. Ich will ja nicht zum Vollzeit-Admin werden.

Eine Übersicht mit einer Auswahl an freien Dokumentenmanagementsystemen ist bei Wikipedia zu finden: Link

Keine Lust auf Admin-Tätigkeiten? Also ab in die Cloud... Es gibt viele DMS, die als Cloud-Dienst angeboten werden. Für ein paar wenige Euro im Monat, erkauft man sich so den maximalen Komfort. Aber alle Dokumente bei einem unbekannten Dritten speichern? Wie sieht es dann mit Datenschutz und Datensicherheit aus? Da ich keine Unterscheidung zwischen sensiblen und nicht sensiblen Daten machen möchte, kommt dies nicht in Frage.

Tagspaces

Tagspaces bezeichnet sich als offline Lösung, um Dateien und Ordner mit Farben und Tags zu organisieren. Tagspaces ist Open Source und steht als Community Edition frei zur Verfügung.

Das Interessante an Tagspaces: Die Tags werden nicht in einer zentralen Datenbank verwaltet oder gar alle Dateien in einer zentralen Datenbank abgelegt, sondern die Tags werden im jeweiligen Dateinamen hinterlegt.

Tagspaces

Wenn die Datei also 2020-02-22 Rechnung O2.pdf heißt und mit den Tags "bezahlt" und "Steuer2020" versehen werden soll, heißt die Datei hinterher 2020-02-22 Rechnung O2[bezahlt Steuer2020].pdf.


Randnotiz: Man kann in Tagspaces auch die "Sidecar"-Option aktivieren. Dann werden Dateien nicht umbenannt, sondern es wird in jedem Verzeichnis ein Ordner .ts angelegt, welcher die Tagging-Informationen enthält. Dies kann bei der Verwendung einer Versionsverwaltung wie Git, interessant sein, führt aber zu einer Abhängigkeit zur Applikation. Gibt es Tagspaces nicht mehr, sind die Tags verloren.


Auch wenn ich die Grundidee von Tagspaces gut finde, besonders weil die Daten lokal bleiben und nicht in irgendeiner Datenbank verschwinden, konnte ich mich an die Bedienung von Tagspaces nicht wirklich gewöhnen.

Paperwork

Nicht unerwähnt bleiben darf Paperwork. Paperwork versucht ein minimales Dokumentenmangementsystem für den Heimgebrauch zu sein. Neben der reinen Verwaltung der Dokumente kann Paperwork auch das Scannen und OCR innerhalb der Applikation übernehmen.

Paperwork ist Open Source, läuft direkt auf dem Client, es ist also keine Server-Installation notwendig und speichert die Dokumente direkt in Standardformaten, also z. B. PDF. Es wird also kein Server mit Datenbank benötigt und die Daten sind auch nicht in der Cloud.

Damit erfüllt Paperwork schon mal viele der Anforderungen.

Organisiert werden die Dokumente über Tags. Zur Suche kann auch der Inhalt herangezogen werden.

Im Test von DMS-Sytemen des Linux-Magazins wird auch Paperwork vorgestellt: Link

Was soll ich sagen. Mir ging es hier ähnlich wie bei Tagspaces. Die Grundidee verstehe ich; mit der Bedienung konnte ich mich allerdings leider nicht anfreunden. Prinzipiell ist Paperwork definitiv einen Blick wert, da es beinahe den kompletten Workflow der Dokumentenerfassung, OCR, Organisation und Suche abbildet.

Es hapert jedoch auch ein wenig am Funktionsumfang: Paperwork speichert PDFs nicht als PDF/A. Ein Schritt fehlt uns also, welcher manuell nachgeholt werden müsste.

Während meiner Tests habe ich die Version 1.3.1 verwendet. Diese stürzte leider ziemlich regelmäßig beim Versuch des Scannens ab. Das zeigt einen großen Nachteil der hohen Integration des gesamten Workflows: Funktioniert die Applikation nicht mehr, kann ich weder neue Dokumente erfassen noch geregelt auf meine Dokumente zugreifen.

Flache Ablage

Im Blog von Dr. Joachim Schlosser bin ich auf den interessanten Ansatz gestoßen, dass man ja auch alle Dokumente flach in einem Ordner ablegen könnte. Sortiert wird über das Datum und ansonsten wird nur mit Tags innerhalb des Dateinamens gearbeitet. Also z.B.

2020-02-22 Sparkasse Jahressteuerbescheinigung Steuer2019.pdf

Der große Vorteil: Die Ablage geht schnell. Scannen, Datei benennen, OCR, in einen einzelnen Ordner verschieben und fertig. Kein mühevolles Sortieren.

Der Nachteil: Je nach Anzahl der Dokumente kann dies meiner Meinung nach unübersichtlich werden. Damit man z. B. zusammenhängende Dokumente einer Behördenkommunikation wieder findet, müssen die Tags sehr konsistent sein, sonst geht das Prinzip in die Hose.

Beispiel:

2020-01-05 KVR Anfrage Passwort Personalausweis.pdf
[100 andere Dokumente]
2020-02-22 KVR Neues Passwort Personalausweis.pdf
2020-02-23 KVR Fehlerhaftes Passwort Personalausweis.pdf
[100 andere Dokumente]
2020-04-23 Kreisverwaltung Reset Passwort Personalausweis.pdf
2020-04-24 Kreisverwaltung Bestätigung Reset Passwort Personalausweis.pdf

Ich habe also aus Versehen beim Scannen das Dokument nicht mehr mit dem Tag "KVR" versehen, sondern mit Kreisverwaltung, weil ich nicht in Erinnerung hatte, dass ich eigentlich KVR verwende. Will ich nun den gesamten Verlauf wieder zusammen suchen, habe ich ein Problem.

Tagspaces und Paperwork würde das Problem lösen, da es die Tags konsistent hält bzw. immer entsprechend vorschlägt. Aber kommt damit auch jemand Außenstehendes klar? Interessant ist der Ansatz aber allemal.

Ordnerstruktur

Aber was spricht eigentlich gegen den Klassiker? Warum nicht einfach eine Ordnerstruktur aufbauen?

Wir müssen die Dokumente wieder händisch einsortieren, wie bei nicht digitalen Ordnern, was uns Zeit kostet. Aber dies lässt sich technisch lösen. Dazu wird es ein eigenes Kapitel zum Thema Automatisierung geben.

Ich lege also meine Dokumente in einer einfachen Ordnerstruktur ab. Diese ist natürlich für jeden individuell. Aber vom Prinzip sieht es bei mir so aus:

01 Banken:
    --> HVB
    --> Sparkasse
        --> 2018
        --> 2019
        --> 2020
            --> Kontoauszüge
            --> Verträge
                --> 2020-03-03 Sparbuch.pdf
02 Krankenkasse
    --> 2018
    --> 2019
    --> 2020
        --> 2020-02-02 Rechnung.pdf 

Mit dieser Struktur lässt sich auch ohne weitere Tools arbeiten. Dokumente sind schnell wiederzufinden. Und die Ordnung ist auch für jemand Außenstehendes verständlich.

Tagging

Was aber nun, wenn wir z. B. eine Jahressteuerbescheinigung von der HVB bekommen haben? Erst mal ganz einfach. Die kommt in den "HVB" Ordner für das Jahr "2020" mit dem Unterordner "Sonstiges". Also

/home/ich/Dokumente/01_Banken/01_HVB/2020/Sonstiges/2020-02-02 HVB Jahressteuerbescheinigung 2019.pdf

Beim Erstellen der Steuererklärung müssen wir dann aber alle relevanten Dokumente wieder händisch zusammen suchen. Also müssen wir einzeln in den Ordner der HVB, der Sparkasse, der LBS usw. gehen und dort die Jahressteuerbescheinigungen für das Jahr 2019 heraussuchen. Dies kann ziemlich umständlich werden und führt am Ende dazu, dass wir beim Erstellen einer Steuererklärung ähnlich frustriert sind wie mit unseren Papierdokumenten.

Alternativ könnten wir auch eine Kopie des Dokuments in den HVB Ordner legen und eine andere Kopie des Dokuments in den Ordner "09 Steuererklärung/2020". Doppelte Datenhaltung ist aber auch nicht schön. Wir hätten dann also:

/home/ich/Dokumente/01_Banken/01_HVB/2020/Sonstiges/2020-02-02 HVB Jahressteuerbescheinigung 2019.pdf

und

/home/ich/Dokumente/09_Steuererklärung/2020/Jahressteuerbescheinigungen/2020-02-02 HVB Jahressteuerbescheinigung 2019.pdf

Hierfür haben wir die Lösung auch schon in der Hand: Tags. Das Dokument wird also 2020-08-05 HVB Jahressteuerbescheinigung [Steuer2019] benannt.

So können wir schnell den Tag "Steuer2019" im Dateinamen suchen und finden alle Dokumente, die für die Steuer 2019 relevant sind.

Mit Tags in Dateinamen für Querverweise sollte man sparsam sein. Also zum Beispiel nur für die Dokumente der Steuererklärung verwenden. Alle anderen Dokumente sind immer nur einem Thema zugeordnet. Kommt man in die Situation, dass viele Querverweise gebraucht werden, ist man mit einem Tool wie Tagspaces vielleicht doch besser bedient.

Fazit

Ich habe nun einige unterschiedliche Möglichkeiten und auch Kombinationen vorgestellt, wie man seine Dokumente verwalten kann. Ich folge hier wieder dem KISS-Prinzip (keep it small and simple):

Die flache Ablage hört sich reizvoll an, ist mir aber bei der Menge an Dokumenten zu unübersichtlich. Vielleicht probiere ich dies Mal in Zukunft aus.

Ich verwende die klassische Ordnerstruktur. Die Struktur ist schnell und einfach aufgebaut, man kann eigentlich nichts falsch machen und für das private Büro ist dies absolut ausreichend. Zudem wird dies auch in vielen vielen Jahren so noch lesbar sein. Außer einen PDF-Reader und ein Betriebssystem, welches das Filesystem unterstützt, braucht man nichts. Es gibt keine Abhängigkeit zu einer einzelnen Applikation, welche eventuell in ein paar Jahren nicht mehr weiter entwickelt wird oder irgendwann Probleme verursacht.

Der Klassiker ist für mich also der richtige Weg.