Hio! On 05.01.21 12:58, Ralph Lindner wrote: > Am Di.. 05.01.2021 um 12:32 schrieb Sven Velt: >> In wie fern kann Nextcloud bei OCR, Tagging und dann danach suchen >> helfen? Da ist mein Nextcloud-Wissen einfach zu gering... > > Meiner Meinung nach gehören sowohl Textinformationen (Content) als auch > Beschreibung und andere Metadaten in das Dokument und nicht in eine > externe Datenbank (zumindest nicht als Ursprung der Daten). 100% bei Dir! Daher auch die Frage nach den Extended-Attributes, weil man damit eben auch Meta-Daten an die Datei anhängen kann, ohne die Datei selbst zu ändern - bei signierten PDF(/A)s kommt es dann nämlich AFAIK zu Problemen. Und im Regelfall MUSST Du immer irgendwas an Meta-Daten an eine PDF anhängen. Ich gehe allerdings nicht davon aus, dass NextCloud wiederum mit den ExtAttr des Dateisystems was anfangen kann, selbst wenn man diese direkt auf dem NextCloud-Server im FS dranklebt... > Dafür gibt > es ja auch den PDF Archivstandard PDF/A > (https://de.wikipedia.org/wiki/PDF/A). Was man bräuchte ist eine > Funktionalität der Nextcloud, welche die Metadaten der PDF/A ausliest > und für eine schnelle Suche aufbereitet. Keine Ahnung, ob es so was gibt > - würde mich aber brennend interessieren. Nicht nur die Metadaten, sondern (siehe meine erste Mail) auch den Inhalt (ggf. durch OCR durchsuchbar) der PDFs. > Und dann bräuchte man - bei professionellem Einsatz und höherem > Dokumentanfall - noch eine Möglichkeit automatisisert die PDF-Metadaten > zu generieren - aber das ist eine andere Baustelle. Step by Step 😁 > [...] > Ich wundere mich, dass ihr anscheinend noch so viel Papier in eurem > Dokumenteingang habt. Ich erhalte Rechnungen fast ausschließlich als PDF > mit Textcontent. Mehr als 2mal scanne ich keine Dokumente mehr im Monat, > so dass sich das Einschalten des Scanners dafür kaum lohnt. (Mache ich > mit CamScanner am Handy). Inzwischen ist es weniger, aber immer noch genug, dass sich der Aufbau meiner "Lösung" immer noch rentieren würde... Bye Sven PS: Meine "Lösung" wäre also wenn dann überhaupt der erste Schritt, das Papier ins PDF mit OCR-Content zu bringen. Den Upload in die NextCloud könnte man dann aber auch noch automatisieren und dann von da aus weitermachen. -- Leukämie → http://de.wikipedia.org/wiki/Leuk%C3%A4mie Heilung → http://de.wikipedia.org/wiki/Knochenmark#Knochenmarkspende Typisierung → https://akb.de/online-registrierung/ https://zkrd.de/de/adressen/ Fragen? → sven@velt.de -- Mailing-Liste der Linux User Schwabach (LUSC) e.V. Vor und beim Posten bitte => http://lusc.de/List-Netiquette <= und => http://lusc.de/List-Howto <= beachten. Danke!