Praxistreffen 2022 | 20.-21.10. | Braunschweig
Das Praxistreffen konnte in diesem Jahr wieder "physisch" stattfinden! Die Eckdaten in Kürze:
- Wo? BRICS an der TU Braunschweig, Rebenring 56, unweit der Universitätsbibliothek, https://www.openstreetmap.org/way/264963239
- Wann? 20.10.2022, 12 Uhr bis 21.10.2022, 13:30 Uhr
- Was? Das Programm finden Sie unten. Kurzfristige Änderungen sind möglich.
- Für wen? Das Praxistreffen ist offen für alle, die Kitodo anwenden oder anwenden wollen. Eine Mitgliedschaft im Verein Kitodo e. V. ist nicht nötig.
- Wo anmelden? Wir bitten um formlose Anmeldung bei der Geschäftsstelle unter contact@kitodo.org bis zum 10.10.2022. Bitte geben Sie an, ob Sie am gemeinsamen Abendessen (auf Selbstzahlerbasis) teilnehmen möchten. Themenvorschläge für das Barcamp nehmen wir ebenfalls gern schon entgegen!
- Was kostet es? Nichts. Die Teilnahme am Kitodo-Praxistreffen ist kostenfrei.
Programm 20.10.2022
12:00-13:00 Anreise und Imbiss
13:00-13:30 Begrüßung und Vortrag "10 Jahre Kitodo e. V." (Robert Strötgen, Vorstandsvorsitzender Kitodo e.V.)
→ Folien
13:30-15:30 Vortragsblock Kitodo.Production
- Migration auf Production 3.x − Eine Erfolgsgeschichte (Frank-Ulrich Weber, Zeutschel & Matthias Ronge, MIK-Center)
Beim Baubüro der Gemeinde Den Haag wurde eine Kitodo-Instanz mit über 400.000 Vorgängen von 2.x auf 3.x migriert. Dabei wurde Production um eine Möglichkeit für projektspezifische Regelsätze erweitert. Es wurden zusätzliche Hierarchiefunktionen ergänzt. Eine kundenspezifische Datenbank wurde anstelle eines Katalogs eingebunden. Während der Migration wurden 40 TB TIFF-Bilder nach JPEG konvertiert. Das Vorgehen und die neuen Möglichkeiten möchten wir in diesem Beitrag vorstellen.
→ Folien
- Geplanter Einsatz von Kitodo.Production im Hessischen Landesarchiv (Nils Reichert, Hessisches Landesarchiv & Jörg Bieszczak, Hochschulrechenzentrum der Philipps-Universität Marburg)
Der Beitrag skizziert die Vorhaben zum Einsatz von Kitodo als – in der Architektur zentraler – Komponente in der Digitalisierungsinfrastruktur des Hessischen Landesarchivs. Zunächst wird dabei beleuchtet, wie die Entscheidung für Kitodo gefallen und mit welchen Erwartungen diese verbunden ist. Im Fokus sind dabei die jüngeren Entwicklungen zur Verbesserung der Nutzbarkeit im Archiv (d.h. der aktuelle Stand zur Verwendung von XML-EAD) und die diesbezüglich noch fehlenden oder unklaren Anpassungsschritte, um einen Ablauf, der dem vorhandenen Workflow und Datenbestand entspricht, zu gewährleisten. Unverzichtbar ist dabei der Abgleich mit den fachlichen Erschließungsdaten aus dem Archivinformationssystem Arcinsys. Da stets eine Massendigitalisierung vorliegt und einzelne Akten bzw. Bände geschweige denn einzelne Seiten nicht in gesonderten Vorgängen verarbeitet werden können, müssen hierzu entsprechen Wege der über Gliederungsebenen hinweg strukturierten Datenübernahme gefunden und implementiert werden.
→ Folien
- Realisierung eines Kitodo.Production-Workflows auf Basis einfacher Shellscripte (Roland Roth-Steiner, ULB Darmstadt)
In der ULB Darmstadt soll mittelfristig Kitodo als Digitalisierungsplattform eingesetzt werden und das bisherige System (dwork, UB Heidelberg) ablösen. Dazu wurden ein Kitodo.Production- und ein Kitodo.Presentation-Server aufgesetzt und - mit Unterstützung durch die Kitodo-Community und Dienstleister - grund-eingerichtet.Da Kitodo.Production - Stand jetzt - aber keine Implementierung vieler Standard-Prozesse einer Digitalisierungsplattform mitbringt (außer dre Konvertierung Master -> Derivate), andererseits eine sehr solide Nutzer- und Prozessverwaltung etc. umfasst, mussten etliche Prozesse selbst realisiert werden, so z.B. die Validierung der Master-Bilder, die Erzeugung und Speicherung der URN und die Platzierung einer Fussleiste mit PURL, URN und Logo unter die JPG-Derivate.
Entwicklungs-Projekt waren die Hessischen Parlamentsprotokolle.
Verwendet wird Version 3.3 von Kitodo.Production und Kitodo.Presentation mit Typo3 mit Templates von Zeutschel.
→ Folien
- Cloutodo (Stefan von der Heide, CCS)
Schon beim virtuellen Anwendertreffen 2021 hat die Firma CCS als Kitodo-Dienstleister ihr cloudbasiertes Angebot für Kitodo.Production "Cloutodo" vorgestellt. Nun präsentiert sie den aktuellen Stand.
→ Folien
- Erfolgreich abgeschlossen: Das Projekt Vecteur am Schweizerischen Bundesarchiv (Peter Junger, Schweizerisches Bundesarchiv)
→ Folien
15:30-16:00 Kaffeepause
16:00-18:00 Vortragsblock OCR
- OCR-D vor dem Hintergrund der DFG-Praxisregeln Digitalisierung (Lena Hinrichsen, Herzog August Bibliothek Wolfenbüttel & Matthias Boenig, Berlin-Brandenburgische Akademie der Wissenschaften)
Um die Volltexttransformation des über 400-jährigen deutschsprachigen gedruckten Kulturerbes in Bibliotheken und Gedächtniseinrichtungen konzeptionell vorzubereiten und technisch zu realisieren, bedarf es nicht nur Softwaretools, sondern auch Spezifikationen, die Rahmenbedingungen und Empfehlungen zu deren Anwendung beschreiben.
Das seit 2015 DFG-geförderte Projekt OCR-D1 hat sich die konzeptionelle und technische Vorbereitung der Volltexttransformation des deutschsprachigen gedruckten Kulturerbes zum Ziel gesetzt. In zwei vorherigen Phasen wurden prototypische Lösungen entwickelt, die in der aktuellen, dritten Phase in einen Produktivbetrieb überführt werden sollen. Die erste Phase diente der konzeptionellen Vorbereitung und Planung, in der anschließenden zweiten Phase wurden die softwaretechnischen Voraussetzungen zur Massendigitalisierung geschaffen. In der nun laufenden dritten Phase wird der Prototyp an die individuellen institutionellen Gegebenheiten angepasst und im Gesamtsystem der Digitalisierung der jeweiligen Einrichtung implementiert.
Im Vortrag gibt das Projekt einen Impuls für die kooperative Zusammenarbeit an der Weiterentwicklung der DFG-Praxisregeln. Dazu hat das Koordinierungsprojekt in den letzten Jahren umfangreiche Vorschläge für eine Überarbeitung der Praxisregeln aus Perspektive der OCR(-D)-Community entwickelt. Neben der Vorstellung der konkreten Anpassungen der Praxisregeln geben wir einen Einblick in die Arbeiten der dritten Projektphase von OCR-D.
→ Folien
- Integration von OCR-D in Kitodo: die ersten Implementierungsschritte und praktische Anwendung (Katja Rykhlinskaya, Michael Kotzyba, Robert Strötgen & Sven Markus, UB Braunschweig)
Eine steigende Anzahl von Digitalisierungsprojekten verschiedener Kulturgüter erfordert kombinierte Lösungen der damit verbundenen Herausforderungen. Insbesondere bei der Texterkennung digitalisierter historischer Drucke erlaubt erst ein automatisierter und beschleunigter Ansatz eine praxistaugliche Umsetzung. Eine solche Lösung ist die im Projekt erzielte Integration von Kitodo und OCR-D. Gefördert durch die DFG, entwickelt sich dieses Projekt in der Zusammenarbeit zwischen der SLUB Dresden, der UB Mannheim und der UB Braunschweig. Die aktiven Praxiskontakte haben es ermöglicht, den Bedarf und die Wünsche potenzieller AnwenderInnen in Bezug auf Materialien, Infrastruktur, Geschäftsmodell usw. bei der Projektentwicklung zu berücksichtigen.
Im Vortrag werden die Infrastruktur des Projektes, die bereits erledigten und geplanten Implementierungsschritte sowie die Praxisbeispiele vorgestellt.
→ Folien
- DFG-Viewer und Kitodo.Presentation mit OCR On-Demand (Stefan Weil, UB Mannheim)
Darf man sich für Digitalisate, die schon vor einiger Zeit ohne OCR erstellt wurden, Volltexte wünschen – für leichtere Durchsuchbarkeit, Weiterverarbeitung oder einfach, damit man den Text leichter lesen kann, vielleicht auch barrierefrei? Und gibt es den Zauberknopf, mit dem man diese Volltexte in brauchbarer Qualität erstellen kann?
Im von der DFG geförderten Project "OCR-D: Integration von Kitodo und OCR-D zur produktiven Massendigitalisierung" arbeitet die UB Mannheim gemeinsam mit den Projektpartnern SLUB Dresden und UB Braunschweig an der Integration von OCR-Technologie und Kitodo. Dabei implementiert Mannheim die OCR On-Demand, also den Knopf für Kitodo.Presentation und den DFG-Viewer, mit dem man spontan Volltexte für die aktuelle Seite oder ein ganzes Werk erzeugen kann. Ihre Rückmeldung zu dieser Funktionalität ist für unsere Arbeit sehr wichtig und hilfreich.
→ Folien
- Ground Truth erstellen, OCR-Modelle verbessern (Stefan Weil, UB Mannheim)
Gute OCR-Modelle sind wichtig für gute Ergebnisse der Volltexterkennung. Aber wo finde ich gute Modelle, und wie kann ich sie selbst verbessern, wenn die Qualität für ein bestimmtes Werk nicht ausreicht?
Die UB Mannheim hat im Projekt "OCR-D: Workflow für werkspezifisches Training" neue Modelle für Tesseract, Kraken und Calamari trainiert.
Bewährte vorhandene und neu erstellte Sammlungen von Ground Truth für ein breites Spektrum von Druckschriften mit einem Schwerpunkt auf Zeitungen flossen in dieses Training ein.
Einfache Workflows erlauben jeder Einrichtung, auf Basis dieser Modelle eigene werkspezifische Modelle zu trainieren und anzuwenden, um so optimierte OCR-Ergebnisse zu erzielen. Zum Einsatz kommt dabei die Open-Source-Transkriptionsplattform eScriptorium.
→ Folien
Abends: Gemeinsames Abendessen auf Selbstzahlerbasis
Das Abendessen findet im Braunschweiger Restaurant El Mundo statt: https://elmundo-bs.de/
Essensbestellungen werden bis zur Kaffeepause entgegengenommen und zur besseren Planung dem Restaurant gebündelt übermittelt.
Programm 21.10.2022
09:00-10:30 Barcamp (offene Themen)
Hier gibt es Raum für Ihre Themen! Bringen Sie für das Barcamp gerne Ihre Fragen und Ideen mit und schlagen Sie vor Ort ein Thema vor, zu dem sich eine Gruppe von Kolleg*innen zusammenfinden und untereinander austauschen kann.
10:30-11:00 Kaffeepause
11:00-13:00 Kitodo.Presentation und andere Präsentationsschichten
Welche Möglichkeiten gibt es, fertige Digitalisate übersichtlich, funktional und ansprechend online zu präsentieren? In der Kitodo-Community gibt es dafür verschiedenste Lösungen, die hier vorgestellt und diskutiert werden.
Folien:
13:00 Zusammenfassung und Abschied
anschließend: Imbiss und Abreise