Bestimmte Textstellen aus einer PDF sortiert nach Calc übertragen?

Hallo ihr Lieben,

ich habe über 150 PDF-Dokumente und muss bestimmte Stellen zusammenzählen.

Beispiel:

Tag | Projekt | Tätigkeit | Zeit
Mo | P1184 | Hospital02 | E-Installation | 8,5 Std.
Di | P1184 | Hospital02 | E-Installation | 8,5 Std.
Mi | P1184 | Hospital02 | E-Installation | 8,5 Std.
Do | P1184 | Hospital02 | E-Installation | 8,5 Std.
Fr | P1184 | Hospital02 | E-Installation | 8,5 Std.

Die P*-Zahlen sind unterschiedlich, ebenso wie die Stundenangaben. Außerdem sind in den PDFs noch andere Daten enthalten, die irrelevant sind.

Ich habe zunächst alle PDFs in eine Datei zusammengeführt und überlege jetzt, wie ich am besten vorgehe. Gibt es eine Möglichkeit, die einzelnen Einträge automatisiert nach Calc zu übertragen und sie gleichzeitig nach P*, Kalenderwoche und Stundenanzahl zu sortieren?

Nach WELCHER Kalenderwoche bitteschön, ausser Wochentagskürzeln sehe ich da nix in deinen relevanten Daten?

Ich würde die …pdfs zunächst mal in …csv umwandeln ( zb. mit https://github.com/ghodsizadeh/pdf2csv?tab=readme-ov-file

und danach die …csv’s zusammenführen und dabei die Daten mit vollständigen Datumsangaben ergänzen ( ebenfalls mit python )

Die daraus resultierende …csv Datei lässt sich dann auch mit Calc öffnen, und nach den gegebenen Kriterien sortieren.

1 Like

Oh, den KalenderWochen Teil hatte ich leider nicht mit kopiert.
Sieht so aus:

Zeiterfassung im Detail: (2021 - KW49)
Tag Projekt Tätigkeit Zeit
MoP1184 Hospital02 | E-Installation8.5 Std.

Werde mich mal mit pdf2csv auseinander setzen…