Hio!

On 05.01.21 12:58, Ralph Lindner wrote:
> Am Di.. 05.01.2021 um 12:32 schrieb Sven Velt:
>> In wie fern kann Nextcloud bei OCR, Tagging und dann danach suchen
>> helfen? Da ist mein Nextcloud-Wissen einfach zu gering...
> 
> Meiner Meinung nach gehören sowohl Textinformationen (Content) als auch
> Beschreibung und andere Metadaten in das Dokument und nicht in eine
> externe Datenbank (zumindest nicht als Ursprung der Daten).

100% bei Dir! Daher auch die Frage nach den Extended-Attributes, weil
man damit eben auch Meta-Daten an die Datei anhängen kann, ohne die
Datei selbst zu ändern - bei signierten PDF(/A)s kommt es dann nämlich
AFAIK zu Problemen. Und im Regelfall MUSST Du immer irgendwas an
Meta-Daten an eine PDF anhängen.

Ich gehe allerdings nicht davon aus, dass NextCloud wiederum mit den
ExtAttr des Dateisystems was anfangen kann, selbst wenn man diese direkt
auf dem NextCloud-Server im FS dranklebt...

> Dafür gibt
> es ja auch den PDF Archivstandard PDF/A
> (https://de.wikipedia.org/wiki/PDF/A). Was man bräuchte ist eine
> Funktionalität der Nextcloud, welche die Metadaten der PDF/A ausliest
> und für eine schnelle Suche aufbereitet. Keine Ahnung, ob es so was gibt
> - würde mich aber brennend interessieren.

Nicht nur die Metadaten, sondern (siehe meine erste Mail) auch den
Inhalt (ggf. durch OCR durchsuchbar) der PDFs.

> Und dann bräuchte man - bei professionellem Einsatz und höherem
> Dokumentanfall - noch eine Möglichkeit automatisisert die PDF-Metadaten
> zu generieren - aber das ist eine andere Baustelle.

Step by Step 😁

> [...]
> Ich wundere mich, dass ihr anscheinend noch so viel Papier in eurem
> Dokumenteingang habt. Ich erhalte Rechnungen fast ausschließlich als PDF
> mit Textcontent. Mehr als 2mal scanne ich keine Dokumente mehr im Monat,
> so dass sich das Einschalten des Scanners dafür kaum lohnt. (Mache ich
> mit CamScanner am Handy).

Inzwischen ist es weniger, aber immer noch genug, dass sich der Aufbau
meiner "Lösung" immer noch rentieren würde...

Bye

Sven

PS: Meine "Lösung" wäre also wenn dann überhaupt der erste Schritt, das
Papier ins PDF mit OCR-Content zu bringen. Den Upload in die NextCloud
könnte man dann aber auch noch automatisieren und dann von da aus
weitermachen.

-- 
Leukämie    → http://de.wikipedia.org/wiki/Leuk%C3%A4mie
Heilung     → http://de.wikipedia.org/wiki/Knochenmark#Knochenmarkspende
Typisierung → https://akb.de/online-registrierung/
https://zkrd.de/de/adressen/
Fragen?     → sven@velt.de
-- 
Mailing-Liste der Linux User Schwabach (LUSC) e.V.
Vor und beim Posten bitte
        => http://lusc.de/List-Netiquette <=    und
        => http://lusc.de/List-Howto      <=    beachten. Danke!