Stimmen per OCR zuordnen
Ab Rolle Archivar
Die OCR-Stimmenverarbeitung ist ab der Rolle Archivar verfügbar.
Überblick
Die OCR-Funktion automatisiert das Zuordnen von Stimmenblättern aus einem eingescannten PDF. Statt jede Seite manuell zu benennen und hochzuladen, erledigt die App das in wenigen Klicks:
- PDF hochladen mit allen eingescannten Stimmenblättern
- Automatische Erkennung: OCR liest den Text, KI ordnet die Stimmen zu
- Vorschau prüfen: Jede Seite mit Zuordnung und Konfidenz anzeigen
- Speichern: Jede Seite wird als einzelnes PDF der richtigen Stimme zugeordnet
Schritt für Schritt
1. PDF auswählen
Im Stück-Formular (Neues Stück oder Bearbeiten) findest du den Abschnitt Stimmen aus PDF zuordnen. Wähle ein PDF aus, das alle eingescannten Stimmenblätter enthält.
Scan-Tipps
- Eine Seite pro Stimmenblatt — Scanne jede Stimme einzeln
- Titel sichtbar — Der Instrumentname sollte am oberen Rand lesbar sein
- Gute Qualität — Je schärfer der Scan, desto besser die Erkennung
Fotos statt Scans
Du kannst auch Fotos von Notenblättern verwenden. Die App erkennt das Dokument automatisch und schneidet den Hintergrund (Tisch, Schreibtisch) per Kantenerkennung weg. Für einzelne Blätter ist der QuickScan in der Suche noch einfacher.
2. Verarbeitung
Nach dem Upload startet die Verarbeitung automatisch. Du siehst einen Fortschrittsbalken:
- Rendering — Jede PDF-Seite wird gerendert (3× Auflösung für OCR, 4× für Vorschau)
- Binarisierung — Das Bild wird auf Schwarz-Weiß reduziert (bessere OCR-Erkennung)
- OCR — Tesseract liest den Text von jeder Seite (auf Deutsch konfiguriert)
- Instrumenterkennung — Aus dem Text werden Instrumentbezeichnungen extrahiert
- Fingerprinting — Jede Seite bekommt einen Fingerabdruck für die Duplikatserkennung
- KI-Zuordnung — Gemini analysiert alle Seiten und ordnet Stimmen zu
3. Ergebnisse prüfen
Nach der Verarbeitung siehst du eine Liste aller Seiten mit:
- Vorschaubild der Seite
- Zugeordnete Stimme (Dropdown zum Ändern)
- Konfidenz — Wie sicher die KI sich ist (Prozent + Farbcode)
- Duplikat-Warnungen — Falls eine Seite einer anderen sehr ähnlich sieht
Konfidenz-Farben
| Farbe | Bedeutung |
|---|---|
| 🟢 Grün | Hohe Sicherheit (>80 %) — Stimme ist sehr wahrscheinlich korrekt |
| 🟡 Gelb | Mittlere Sicherheit (50–80 %) — Bitte kurz prüfen |
| 🔴 Rot | Niedrige Sicherheit (<50 %) — Manuelle Zuordnung empfohlen |
4. Vorschau-Modal
Klicke auf eine Seite, um sie im Vollbild zu sehen. Im Modal kannst du:
- Thumbnail-Sidebar — Links siehst du eine Miniaturansicht aller Seiten. Klicke auf ein Thumbnail, um direkt zu dieser Seite zu springen. Die aktuelle Seite wird automatisch markiert und ins Blickfeld gescrollt. Duplikat-Seiten zeigen ein ⚠️-Badge.
- Stimme ändern — Über das Dropdown eine andere Stimme auswählen
- Nochmal KI fragen — Die KI prüft die Seite erneut und gibt eine Begründung
- OCR-Text einsehen — Den erkannten Rohtext anzeigen lassen
- Seite entfernen — Falls die Seite nicht zu den Stimmen gehört (z.B. Deckblatt)
- Speichern — Direkt aus dem Modal heraus alle zugeordneten Stimmen speichern
5. Duplikate
Die App erkennt automatisch Seiten, die einander sehr ähnlich sehen. Das hilft, versehentlich doppelt eingescannte Seiten zu finden.
Duplikate werden mit einem orangenen Badge markiert: "Mögliches Duplikat von Seite X (94 % Ähnlichkeit)".
Du kannst das Duplikat über den Löschen-Button entfernen, bevor du speicherst.
Wie funktioniert die Duplikatserkennung?
Jede Seite wird auf ein 64×64 Pixel-Thumbnail verkleinert. Daraus wird ein Projektionsprofil berechnet (Anteil schwarzer Pixel pro Zeile/Spalte). Zwei Profile werden per Kreuzkorrelation verglichen. Ab 72 % Übereinstimmung (gleiche Stimme) bzw. 78 % (verschiedene Stimme) gilt eine Seite als Duplikat.
6. Speichern
Klicke auf Stimmen speichern. Für jede zugeordnete Seite passiert:
- Die einzelne PDF-Seite wird aus dem Gesamt-PDF extrahiert
- Ein neuer Eintrag in der Stimmen-Tabelle wird erstellt
- Die Einzel-PDF wird als Datei hochgeladen
Die Stimmen erscheinen danach in der Detailansicht des Stücks.
Fallback ohne KI
Wenn kein Gemini-API-Key konfiguriert ist, verwendet die App einen Offline-Fallback: Die per OCR erkannten Instrumentbezeichnungen werden per Fuzzy-Matching mit den verfügbaren Stimmen verglichen. Das funktioniert in den meisten Fällen, ist aber weniger genau als die KI-Zuordnung.
