Re: einfaches dokumentanarchiv

Top Page
Attachments:
Message as email
+ (text/plain)
Delete this message
Reply to this message
Author: Sven Velt
Date:  
To: list
Subject: Re: einfaches dokumentanarchiv
Jow!

On 05.01.21 11:58, Norman Zimmer wrote:
> ich suche was kleines-schickes um privaten Rechnungen/Dokumente
> abzulegen.
> Leider hab ich nur komplette DMS-Lösungen gefunden, die völlig überdimensioniert sind.
> Ich will wirklich nur ein Archiv...


Kenn ich 😉

> Was ich so an Anforderungen hätte:
>
> 1) Server soll auf Linux (raspi?) laufen, Datenablage auf ${NAS}


Welche Aufgabe soll der Server denn übernehmen? Ernstgemeinte Frage, so
wie ich Dich verstehe, brauchst Du ja keinen Server im eigentlichen
Sinne sondern a) eine Dateiablage und b) einen durchsuchbaren Index.

> 2) Neue Dokumente werden per Scanner in eine Inbox gelegt
> (vielleicht ganz simpel über Laufwerksshare?)


Hier macht das meine Multifunktionsgerät mit Kurzwahl auf FTP-Upload.

Mit Hilfe von "incron" ("cron-like daemon which handles filesystem
events") wird dann ein Shell-Script aufgerufen, wenn ein Datei-Handle
bei Schreibzugriff geschlossen wird.

In dem Script rufe ich "tesseract" (ein OCR-Toolkit) auf, welches mir
aus dem Scan-TIFF ein Sandwich-PDF macht: Das TIFF im Hintergrund und
darüber gelegt ein Layer mit der unsichtbaren, erkannten Schrift - so
kann man z.B. mit Copy&Paste was aus der Datei rauskopieren.

> 3) Dokumente sollen mit mehreren Stichwörtern, Datum, Ablagekiste versehen werden können.


Wann willst Du das wo machen? Nachträglich? Beim Scannen geht's ja eher
schlecht... ich verschiebe aktuell die Dateien (meist Rechnungen) in
Verzeichnisse je Monat - geht bei mir NICHT automatisiert, weil der
Geldein-/-ausgang zählt, nicht das Rechnungsdatum.

Sollen die Stichwörter als Extended-Attributes an der Datei hängen? Oder
willst Du sie in das PDF reinschreiben?

> 4) Zugriff über Weboberfäche auf das Zeug.


Warum reicht File-Zugriff nicht?

> 5) Suche nach Tags und Datum


Das ist die Stelle, an der ich auch mal weiter machen wollte 🙈 Und hier
könnte (siehe 4.) dann auch eine Web-Oberfläche interessant werden.
Allerdings hat mir der Schritt automatisches OCR echt so viel
erleichtert, dass der Leidensdruck bisher nicht groß genug war.

Solr anyone? 😎

> 6) Falls möglich: Durchsuchbare PDFs sollen mit durchsucht werden.


Das wäre durch das OCR vorbereitet - siehe 5)

> Hat da jemand was bei sich am Start?


Ich hab mal die zwei Sachen nach https://git.velt.biz/svelt/Scan2PDF
hochgeladen. Gerne können wir da auch weiter dran daddeln, nur wie
gesagt war bisher mein Leidensdruck nicht hoch genung.

Bye

Sven

-- 
Leukämie    → http://de.wikipedia.org/wiki/Leuk%C3%A4mie
Heilung     → http://de.wikipedia.org/wiki/Knochenmark#Knochenmarkspende
Typisierung → https://akb.de/online-registrierung/
https://zkrd.de/de/adressen/
Fragen?     → sven@???
-- 
Mailing-Liste der Linux User Schwabach (LUSC) e.V.
Vor und beim Posten bitte
        => http://lusc.de/List-Netiquette <=    und
        => http://lusc.de/List-Howto      <=    beachten. Danke!