Stimmen per OCR zuordnen

Ab Rolle Archivar

Die OCR-Stimmenverarbeitung ist ab der Rolle Archivar verfügbar.

Überblick

Die OCR-Funktion automatisiert das Zuordnen von Stimmenblättern aus einem eingescannten PDF. Statt jede Seite manuell zu benennen und hochzuladen, erledigt die App das in wenigen Klicks:

PDF hochladen mit allen eingescannten Stimmenblättern
Automatische Erkennung: OCR liest den Text, KI ordnet die Stimmen zu
Vorschau prüfen: Jede Seite mit Zuordnung und Konfidenz anzeigen
Speichern: Jede Seite wird als einzelnes PDF der richtigen Stimme zugeordnet

Schritt für Schritt

1. PDF auswählen

Im Stück-Formular (Neues Stück oder Bearbeiten) findest du den Abschnitt Stimmen aus PDF zuordnen. Wähle ein PDF aus, das alle eingescannten Stimmenblätter enthält.

Scan-Tipps

Eine Seite pro Stimmenblatt — Scanne jede Stimme einzeln
Titel sichtbar — Der Instrumentname sollte am oberen Rand lesbar sein
Gute Qualität — Je schärfer der Scan, desto besser die Erkennung

Fotos statt Scans

Du kannst auch Fotos von Notenblättern verwenden. Die App erkennt das Dokument automatisch und schneidet den Hintergrund (Tisch, Schreibtisch) per Kantenerkennung weg. Für einzelne Blätter ist der QuickScan in der Suche noch einfacher.

2. Verarbeitung

Nach dem Upload startet die Verarbeitung automatisch. Du siehst einen Fortschrittsbalken:

Rendering — Jede PDF-Seite wird gerendert (3× Auflösung für OCR, 4× für Vorschau)
Binarisierung — Das Bild wird auf Schwarz-Weiß reduziert (bessere OCR-Erkennung)
OCR — Tesseract liest den Text von jeder Seite (auf Deutsch konfiguriert)
Instrumenterkennung — Aus dem Text werden Instrumentbezeichnungen extrahiert
Fingerprinting — Jede Seite bekommt einen Fingerabdruck für die Duplikatserkennung
KI-Zuordnung — Gemini analysiert alle Seiten und ordnet Stimmen zu

3. Ergebnisse prüfen

Nach der Verarbeitung siehst du eine Liste aller Seiten mit:

Vorschaubild der Seite
Zugeordnete Stimme (Dropdown zum Ändern)
Konfidenz — Wie sicher die KI sich ist (Prozent + Farbcode)
Duplikat-Warnungen — Falls eine Seite einer anderen sehr ähnlich sieht

Konfidenz-Farben

Farbe	Bedeutung
🟢 Grün	Hohe Sicherheit (>80 %) — Stimme ist sehr wahrscheinlich korrekt
🟡 Gelb	Mittlere Sicherheit (50–80 %) — Bitte kurz prüfen
🔴 Rot	Niedrige Sicherheit (<50 %) — Manuelle Zuordnung empfohlen

Klicke auf eine Seite, um sie im Vollbild zu sehen. Im Modal kannst du:

Thumbnail-Sidebar — Links siehst du eine Miniaturansicht aller Seiten. Klicke auf ein Thumbnail, um direkt zu dieser Seite zu springen. Die aktuelle Seite wird automatisch markiert und ins Blickfeld gescrollt. Duplikat-Seiten zeigen ein ⚠️-Badge.
Stimme ändern — Über das Dropdown eine andere Stimme auswählen
Nochmal KI fragen — Die KI prüft die Seite erneut und gibt eine Begründung
OCR-Text einsehen — Den erkannten Rohtext anzeigen lassen
Seite entfernen — Falls die Seite nicht zu den Stimmen gehört (z.B. Deckblatt)
Speichern — Direkt aus dem Modal heraus alle zugeordneten Stimmen speichern

5. Duplikate

Die App erkennt automatisch Seiten, die einander sehr ähnlich sehen. Das hilft, versehentlich doppelt eingescannte Seiten zu finden.

Duplikate werden mit einem orangenen Badge markiert: "Mögliches Duplikat von Seite X (94 % Ähnlichkeit)".

Du kannst das Duplikat über den Löschen-Button entfernen, bevor du speicherst.

Wie funktioniert die Duplikatserkennung?

Jede Seite wird auf ein 64×64 Pixel-Thumbnail verkleinert. Daraus wird ein Projektionsprofil berechnet (Anteil schwarzer Pixel pro Zeile/Spalte). Zwei Profile werden per Kreuzkorrelation verglichen. Ab 72 % Übereinstimmung (gleiche Stimme) bzw. 78 % (verschiedene Stimme) gilt eine Seite als Duplikat.

6. Speichern

Klicke auf Stimmen speichern. Für jede zugeordnete Seite passiert:

Die einzelne PDF-Seite wird aus dem Gesamt-PDF extrahiert
Ein neuer Eintrag in der Stimmen-Tabelle wird erstellt
Die Einzel-PDF wird als Datei hochgeladen

Die Stimmen erscheinen danach in der Detailansicht des Stücks.

Fallback ohne KI

Wenn kein Gemini-API-Key konfiguriert ist, verwendet die App einen Offline-Fallback: Die per OCR erkannten Instrumentbezeichnungen werden per Fuzzy-Matching mit den verfügbaren Stimmen verglichen. Das funktioniert in den meisten Fällen, ist aber weniger genau als die KI-Zuordnung.

Stimmen per OCR zuordnen ​

Überblick ​

Schritt für Schritt ​

1. PDF auswählen ​

2. Verarbeitung ​

3. Ergebnisse prüfen ​

Konfidenz-Farben ​

4. Vorschau-Modal ​

5. Duplikate ​

6. Speichern ​

Fallback ohne KI ​