NS-Dokumente: Online-Archive gegen das Vergessen

„Ihr habt keine Schuld an dieser Zeit. Aber ihr macht euch schuldig, wenn ihr nichts über diese Zeit wissen wollt.“ Mit diesen Worten hatte sich die jüdische KZ-Überlebende Esther Bejarano an das jugendliche Publikum einer Schule gerichtet. Für Bejarano ist es eine gesellschaftliche Aufgabe, die Nazi-Gewalttaten an Millionen Juden, Sinti und Roma, Homosexuellen, politischen Gegner:innen sowie rassifizierten und behinderten Menschen im kollektiven Gedächtnis zu behalten. Die im letzten Jahr Verstorbene gilt als berühmte Mahnerin gegen Antisemitismus.

Die Erinnerung und Dokumentation des Nationalsozialismus wird immer digitaler. Solche digitalen Angebote können einen möglichst niedrigschwelligen Zugang schaffen, um sich an die Gewalttaten des Holocaust zu erinnern. Einige Projekte von Gedenkstätten und NS-Dokumentationszentren nutzen bereits VR-Technologien, um historische Orte wie das Versteck von Anne Frank zu visualisieren. Andere Initiativen schaffen Online-Archive gegen das Vergessen, in dem sie Millionen historische Dokumente digitalisieren, aufbereiten und gesammelt im Netz bereitstellen. Dazu setzen Forscher:innen unter anderem automatische Text- und Mustererkennung ein, also eine Form der Künstlichen Intelligenz (KI), mit der sie die Dokumente schneller erfassen können.

Das Internationale Zentrum für NS-Verfolgung in Bad Arolsen arbeitet derzeit am weltweit größten Online-Archiv über die Opfer und Überlebenden des Nationalsozialismus. Die sogenannten Arolsen Archives, die aus dem Internationalen Suchdienst (ITS) hervorgingen, umfassen rund 30 Millionen historische Dokumente und weitere Informationen zu Holocaust-Opfern, KZ-Häftlingen und Zwangsarbeiter:innen. Neben den Unterlagen von Behörden und Firmen der NS-Bürokratie beinhalten die Bestände auch Dokumente der Alliierten zur Versorgung und Betreuung der Displaced Persons nach 1945. Die Arolsen Archives zählen mit dieser umfassenden Sammlung zum UNESCO Welt-Dokumentenerbe.

Archiv- und Sucharbeit in den Siebziger Jahren im ITS. - CC-BY-NC-SA 4.0 Gzwilling

#everynamecounts

„Nur zugängliche Archive sind relevante Archive“, schreibt Floriane Azoulay, Direktorin der Arolsen Archives, auf der Website zu dem Projekt. Aus diesem Gedanken heraus entstand das Ziel ein „großes digitales Denkmal“ zu erschaffen. Bis 2025 möchte das Zentrum für NS-Verfolgung alle Namen in die digitale Datenbank einlesen, die in ihren historischen Archivbeständen vermerkt sind. Das Crowdsourcing-Projekt #everynamecounts, auf Deutsch „Jeder Name zählt“, realisiert dieses Vorhaben.

Im Januar 2020 hat die Kampagne mit einem Pilotprojekt von tausenden Schüler:innen begonnen – inzwischen waren über 25.000 Freiwillige beteiligt. Die Freiwilligen erfassen manuell die Namen und Verfolgungswege von Opfern des Nationalsozialismus, indem sie die gescannten Dokumente auf ihrem Bildschirm angezeigt bekommen und die darauf abgebildeten Informationen abtippen. Um Fehler zu vermeiden, erfassen drei verschiedene Personen die Daten einer Datei. Die Ergebnisse werden dann automatisch miteinander verglichen und können, wenn nötig, korrigiert werden.

Antonia Hornig ist eine dieser Freiwilligen. Sie hat für etwa zwei Monate bei diesem Projekt mitgewirkt, indem sie sich immer mal wieder zu Hause an ihren Laptop gesetzt hat und für ein paar Stunden Dokumente erfasst hat. „Ich finde es eine sinnvolle Art, sich so mit der NS-Geschichte auseinanderzusetzen – sie wird dadurch greifbarer“, sagt sie gegenüber netzpolitik.org. Antonia begreift ihre Freiwilligenarbeit als Lernerfahrung. Sie habe durch diese Arbeit immer wieder neue Impulse bekommen und manchmal sogar die Geschichten der Menschen, deren Daten sie erfasste, nachrecherchiert. „Mich hat es überrascht, wie viele Kriegsgefangene aus osteuropäischen Ländern als Zwangsarbeiter:innen in Konzentrationslagern waren“, so Antonia. „Da habe ich auf jeden Fall etwas dazu gelernt.“

Antonia betont, dass sich jede Person an dem Crowdsourcing-Projekt beteiligen und sich so mit der NS-Vergangenheit auseinandersetzen könne, ohne erst ins Museum gehen zu müssen. Sie sagt: „Ich kann es auf jeden Fall empfehlen, das ist ein guter Anstoß.“ Für Interessierte stellt das Projekt eine digitale Einführung in die Arbeit bereit.

Neben den Namen sollen auch andere relevante Daten zur Person, etwa Geburtsdatum, Haftkategorie, Adresse, und Beruf erfasst werden. Die Datenbank soll ermöglichen, dass jede Person von überall auf diese Daten zugreifen kann. Das Online-Archiv schafft damit einen möglichst niedrigschwelligen Zugang zu historischen Informationen über die NS-Zeit. Interessierte Personen müssen nicht mehr haufenweise Aktenmaterial wälzen, um Menschen ausfindig zu machen, sondern können die Suchfunktion der Online-Archive nutzen und so zu jeder Tages- und Nachtzeit die gefragten Daten erhalten.

Das Online-Archiv des Zentrums für NS-Verfolgung in Bad Arolsen hat im Jahr 2020 den European Heritage Award erhalten – die wichtigste Auszeichung Europas für den Erhalt des kulturellen Erbes. Inzwischen hat das Projekt #everynamecounts 30 Prozent vom selbstgesetzten Ziel geschafft. Ein Sprecher der Arolsen Archives teilt gegenüber netzpolitik.org mit:

Viele Millionen Namen und Informationen lassen sich bereits einfach online recherchieren. Doch längst noch nicht alle. Vor uns liegt noch eine Herkules-Aufgabe.

Frau schaut Dokument an Laptop an — Freiwillige überprüfen die gescannten Dokumente. - Alle Rechte vorbehalten Johanna Groß / Arolsen Archives

Der Erfolg von KI-gestützter Technologie

So wichtig die Arbeit der Freiwilligen auch ist, allein kann sie das Projekt nicht stemmen. Das Digitalisierungsprojekt ist auch auf OCR-Technologie angewiesen. OCR steht für Optical Character Recognition und bezeichnet computergestützte Text- und Musterkennung. Die Technologie übersetzt grafische Informationen in textliche Informationen, indem sie Muster und Zeichen der Schriften auf den Dokumenten inhaltlich erschließt und in einen binären Code übersetzt. Das bedeutet, die OCR-Technologie erkennt das Geschriebene automatisch – ohne dass ein Mensch das Dokument mühsam entziffern und abtippen muss.

Eine wichtige Voraussetzung dafür ist, dass die Akten nach Dokumententyp strukturiert sind. Ein sogenanntes Dokumenten-Clustering ist notwendig, da sich das OCR-Layout je nach Aktentyp unterscheidet. Die Arolsen Archives nutzen die automatische Texterkennung bei rund 50 Prozent der Dokumente in der Sammlung.

Die Arolsen Archives haben bereits zwischen 2002 und 2005 erste Versuche mit OCR-Technologien gestartet – die Erkennungsrate lag allerdings bei schwachen 25 Prozent. „Dieses frühe OCR-Projekt hat diese Kategorie von Dokumenten jedoch schnell durchsuchbar gemacht“, so Michael Hoffmann gegenüber netzpolitik.org. Er beschäftigt sich maßgeblich mit den technischen Prozessen und computergesteuerten Verfahren, die helfen, das Online-Archiv aufzubauen. Seit 2015 setzt er und sein Team sich mit moderner OCR-Technologie auseinander. Während die optische Zeichenerkennung sich über das letzte Jahrzehnt kaum verändert habe, seien die Fehlererkennung und Trainingsmodelle besser geworden, so Hoffmann. „Es gibt noch immer einige Herausforderungen, aber wir haben deutliche Fortschritte gemacht.“

Eine dieser Herausforderungen besteht zum Beispiel darin, Listen von KZ-Häftlingen sinnvoll zu erfassen. In diesen Listen sind unter anderem die Namen, Geburtsdaten, Häftlingsnummern und Adressen vermerkt. Es ergebe wenig Sinn, eine Volltexterfassung dieser Listen vorzunehmen. Vielmehr müssten die Daten extrahiert und direkt in Tabellen strukturiert werden, um sie schnell und ohne viel manuelle Zuarbeit nutzbar zu machen, erklärt Hoffmann. Seit April diesen Jahres gibt es dafür nun eine Lösung: Thomas Werkmeister hat im Rahmen der Open Knowledge Foundation eine Künstliche Intelligenz (KI) entwickelt, mit der die digitalisierte Liste per OCR in eine Tabelle eingelesen werden kann. Die Erkennungsrate der KI liegt nach Angaben der Arolsen Archives bei 98 Prozent und beschleunigt den Arbeitsprozess enorm.

Themenportal zur Wiedergutmachung

Das Bundesarchiv arbeitet an einem ähnlich ambitionierten Projekt: Es möchte alle Akten zur Wiedergutmachung von NS-Unrecht digitalisieren und an einem gemeinsamen Ort im Netz zusammenführen. Die Wiedergutmachungsakten sind Verwaltungsunterlagen der Wiedergutmachungsprozesse für Opfer des Naziterrors. Diese Karteien, Berichte und Statistiken helfen dabei, die Schicksale der Opfer von nationalsozialistischer Verfolgung zu erfassen. In den kommenden Jahren sollen alle Wiedergutmachungsakten in einem eigens dafür angelegten Themenportal im Rahmen des Projekts Archivportal-D der Deutschen Digitalen Bibliothek bereitgestellt werden. Das Archivportal-D ist eine Plattform, die eine umfassende bundesweite Archivsuche ermöglicht.

Das Konzept der Wiedergutmachung basiert auf dem Bundesentschädigungsgesetz, das vor fast 70 Jahren in Kraft getreten ist. Bis heute soll das dafür zuständige Bundesministerium der Finanzen (BMF) etwa 80 Milliarden Euro an Wiedergutmachungsleistungen an Opfer des Holocausts ausgezahlt haben, um diese materiell zu entschädigen. Nastasja Pilz, Sprecherin des Landesarchives Baden-Württemberg, sagt gegenüber netzpolitik.org: „Weder die Täter noch ihre Verbrechen stehen im Vordergrund, sondern die Opfer und wie sie entschädigt werden können.“

Der Begriff der Wiedergutmachung sei dabei nicht wertend gemeint, sondern diene als rein rechtlicher Begriff. Schließlich könne erlittenes Leid dadurch nicht aufgewogen werden, so Pilz. Sie nutzt stattdessen den Begriff „Transitional Justice“ um zu erklären, wie gesellschaftliche Transformationsprozesse von einem Unrechtssystem in eine Demokratie aussehen können. Nach dem Transitional Justice-Prinzip sollen Täter:innen verfolgt, die Opfer anerkannt und sich an die Prozesse erinnert werden. Das Bundesarchiv konzentriert sich mit dem Themenportal Wiedergutmachung auf den letzten Aspekt, indem es einen zentralen Ort der Erinnerung schafft. „Es gibt eine historische und moralische Verantwortung – auch über die materielle Verantwortung hinaus“, sagt Pilz.

Das Bundesarchiv rechnet mit einer Projektdauer von Jahrzehnten und mit einem Umfang von über 100 km Aktenmaterial. Bundesfinanzminister Christian Linder äußert sich zu dem Mammutprojekt mit den Worten: „Wir wollen die Vergangenheit für die Zukunft bewahren und sie sichtbar machen.“

Das umfassende und deutschlandweite Digitalisierungsprojekt soll ebenfalls auf OCR-Technologien zurückgreifen, die das Landesarchiv Baden-Württemberg bereits in Kooperation mit dem FIZ Karlsruhe, einem Institut für Informationsinfrastruktur, in einem ersten Pilotprojekt erforscht. Das Pilotprojekt ist im Juni 2020 gestartet und hat im vergangenen Jahr bereits 80 laufende Meter und 150 Mikrofilme an Einzelfallakten aus baden-württembergischen Landesarchiven digitalisiert. Die Einzelfallakten dokumentieren die Entschädigungsprozesse von Betroffenen. Eine Sprecherin des Landesarchivs Baden-Württemberg erklärt gegenüber netzpolitik.org:

„Sie enthüllen tausende bisher unbekannte Schicksale und Biografien nationalsozialistischer Verfolgungsopfer und bieten somit die wertvollste Parallelüberlieferung zu den zu großen Teilen vernichteten oder zerstörten Dokumenten der NS-Zeit.“

Das FIZ Karlsruhe arbeitet derzeit an der KI-gestützten Erkennung der bereits digitalisierten Dokumente. Das Pilotprojekt läuft bis Februar 2023 und soll einen Überblick geben, wie OCR-Technologien zukünftig den Digitalisierungsprozess vereinfachen können. Im Idealfall sollen die Inhalte der Dokumente zukünftig automatisch genauer erschlossen werden. Die Ergebnisse sollen dann bundesweit anderen Archiven zur Verfügung stehen.

KI für historische Schriften

Eine der größten Herausforderungen des Pilotprojekts ist die Heterogenität der Akten. „Der Prozess ist sehr komplex, da es sich um einen Mix aus vielen unterschiedlichen Dokumenten handelt“, sagt Harald Sack im Interview mit netzpolitik.org. Er ist Bereichsleiter für Information Service Engineering am FIZ Karlsruhe und beschäftigt sich mit den technisch-wissenschaftlichen Aspekten des Pilotprojekts. Er erklärt, dass die Zeitspanne von Anfang der 1940er Jahre bis Ende der 1990er Jahre eine Übergangszeit von verschieden Schriften darstellt und die Wiedergutmachungsakten deswegen sowohl die Kurrent- und Sütterlinschrift als auch moderne Handschriften umfassen.

Ein weiterer Teil der Papiere wurde wiederum mit Schreibmaschinen geschrieben. Hinzu kommt, dass die Einzelfallakten teilweise im Nachhinein bearbeitet, verändert oder beschädigt wurden. Einige Dokumente enthalten Stempel. „Außerdem sind ein Teil der Dokumente auf Mikrofilm erfasst – dabei ist viel an Qualität verloren gegangen“, sagt Sack. Aufgrund der heterogenen Dokumente gebe es also keine OCR-Software, die alle Anforderungen erfüllen könne. Stattdessen nutzten die Forscher:innen des Pilotprojekts die historische Handschriftenerkennung Transkribus, eine KI-gestützte Software, die bereits mit großen Datenmengen von Hand- und Schreibmaschinenschriften trainiert worden ist. Der Trainingsdatensatz für deutsche Handschriften umfasst fast 500.000 Wörter. Das Werkzeug wurde von der Universität Innsbruck entwickelt und ist seit 2019 durch die Europäische Genossenschaft READ-COOP frei zugänglich.

Die Forscher:innen des FIZ Karlsruhe nutzen das bereits vortrainierte Modell als Grundlage und passen es beim sogenannten „Feintuning“ (Feintrainieren) auf die konkreten Anforderungen des Projekts an. Zwar benötige man noch manuelle Eingaben und Nachbesserungen, doch die ersten Ergebnisse seien vielversprechend. „Im Bereich der Handschriftenerkennung hat es in den letzten zehn Jahren immense Fortschritte gegeben“, so Sack. „Mittlerweile reicht schon eine kleine Menge an Daten zum Feintuning der vortrainierten Modelle.“

Die Arolsen Archives stehen ebenfalls vor der Herausforderung, dass die NS-Dokumente eine Vielzahl an unterschiedlichen Schriften aufweist. Sie nutzen die KI-gestützte Technologie der Firma Accenture, die eine Volltexterkennung der Dokumente durchführt und sowohl bei Schreibmaschinenschriften als auch auf Handschriften anwendbar ist. Das Werkzeug beschleunigt die Digitalisierungsarbeit enorm. „Mit diesem Tool lassen sich Dokumente 40-mal schneller digitalisieren als zuvor“, sagt Michael Hoffmann. Allerdings funktionieren solche OCR-Technologien noch nicht reibungslos. Sie verwechseln leicht Buchstabenkombinationen, die sich optisch ähnlich sehen, beispielsweise die Buchstaben rn mit einem einfachen m.

„Es ist kein Schlusspunkt gesetzt“

Das Pilotprojekt im Staatsarchiv Ludwigsburg endet zwar im Februar 2023, die Arbeit geht dann aber weiter. „Das Pilotprojekt war ein Startschuss, um in diesem Fachgebiet zu erkunden, was überhaupt bei dem Einsatz von KI möglich ist“, sagt Kevin Dubout, Sprecher für das Bundesarchiv. „In den folgenden Jahren werden wir auf diesen Erkenntnissen aufbauen.“ Andere Archive können dann von der Arbeit des Pilotprojekts mit OCR-Technologie profitieren. Schließlich sollen auf lange Sicht alle Informationen aus bundesweiten Staatsarchiven und anderen Beständen digitalisiert und in das zentralen Themenportal Wiedergutmachung eingespeist werden.

Der offizielle Startschuss ist dafür bereits gefallen: Am 1. Juni diesen Jahres ist das bundesweite Themenportal online gegangen. Derzeit sind noch keine digitalen Dokumente auf dem Portal zu finden, da die Einzelfallakten personenbezogene und damit sehr sensible Daten enthalten. Kevin Dubout sagt: „Es wird noch dauern, bis es ein Rechtekonzepte gibt, mit dem der Online-Zugang zu den Daten rechtssicher gestaltet werden kann.“ In manchen Fällen leben die Leistungsempfänger:innen noch. Das heißt, es gebe immer noch Akten zur Entschädigung, die in den Behörden liegen, so Pilz vom Landesarchiv Baden-Württemberg. „Es ist kein Schlusspunkt gesetzt was den Zuwachs des Archivbestands betrifft.“

Es lohnt sich dennoch einen Blick auf das Themenportal zu werfen. Interessierte können sich schon jetzt über die Dokumente und Bestände der einzelnen Archive der Bundesländer informieren. Ein sachthematischer Schlagwortzugang soll folgen. Das heißt, die Suchergebnisse sollen auch nach inhaltlichen Kategorien angezeigt werden, etwa nach bestimmen Opfergruppen, und so Einzelschicksale leichter auffindbar machen.

Ziel ist es, nach der Texterkennung der Dokumente einen Wissensgraph rund um die erfasste Person im zu erstellen. So sollen im Online-Archiv Orte, Handlungen und andere Daten miteinander verknüpft werden und auch andere Quellen herangezogen werden, etwa die Gemeinsame Normdatei (GND) der Deutschen Nationalbibliothek. Die GND stellt Normdaten von kulturellen und wissenschaftlichen Sammlungen bereit, die kooperativ genutzt werden können. Eine Sprecherin des Themenportals erklärt, dass solche zusätzliche Metadaten einen strukturierten Zugriff auf die Inhalte der Akten ermögliche, wobei eine „Verknüpfungsmöglichkeit mit Täterbiografien“ ein zentraler Aspekt sei.

Das Bundesarchiv möchte rund um das Themenportal weitere digitale Angebote bereitstellen, etwa einen virtuellen Lesesaal mit umfangreichen Recherchetools. Außerdem habe das BMF erklärt, das Vorhaben möglichst institutionenübergreifend und international zu gestalten, sagt Kevin Dubout. Die Holocaust-Gedenkstätte Yad Vashem in Jerusalem und das Holocaust Memorial Museum in Washington D. C. sind bereits wichtige Kooperationspartner. Auch eine Kooperation mit den Arolsen Archives sei denkbar. „Das wäre eine Idee, die wir tatsächlich verfolgen würden“. Die Arolsen Archives zeigen sich ebenfalls kooperationswillig. Michael Hoffmann äußert sich mit den Worten:

Grundsätzlich sehen wir viel Potential darin, wenn wir als Archive unsere digitalen Lösungen teilen und von unseren jeweiligen Erfahrungen profitieren. Das Rad muss nicht immer wieder neu erfunden werden. Open Source ist ein guter Weg.

Justiz versäumt Aufarbeitung

Es klingt einleuchtend, dass solche Online-Archive die gesellschaftliche Aufarbeitung des Holocausts vereinfachen, da der Zugang zu entsprechenden Informationen ziemlich niedrigschwellig ist. Doch können solche Digitalisierungsprojekte auch die juristische Aufarbeitung der NS-Verbrechen beschleunigen?

Die Strafverfolgung von NS-Verbrechen geht weiterhin schleppend voran. Manche Angeklagte stehen erst jetzt, 77 Jahre nach Kriegsende, vor Gericht. So etwa der einstige SS-Wachmann Josef Schütz und die damalige KZ-Sekretärin Irmgard Furchner. Schütz und Furchner wird vorgeworfen, Beihilfe zum Mord an jeweils tausenden Menschen in Konzentrationslagern geleistet zu haben. Schütz ist inzwischen 101 Jahre alt, Furchner 97 Jahre. Ihre Urteile stehen noch aus: Irmgard Furchner schweigt zu den Vorwürfen und der Prozess gegen Josef Schütz wurde aufgeschoben, da sich Schütz in stationärer Behandlung findet. Es ist unklar, ob der Prozess gegen ihn in naher Zukunft überhaupt weitergeführt werden kann.

Dabei müssten die letzten NS-Verfahren nun zügig durchgeführt werden, um rechtskräftige Urteile zu fällen bevor die Angeklagten sterben würden, so Alex Drecoll gegenüber netzpolitik.org. Er ist Direktor der Stiftung „Brandenburgische Gedenkstätten“ und weist auf „jahrzehntelange Versäumnisse der deutschen Justiz“ hin, die NS-Verbrechen aufzuarbeiten. Drecoll erklärt: „Wer zum Funktionieren eines Konzentrationslagers beitrug, hat sich der Beihilfe zum Mord schuldig gemacht – und Beihilfe zum Mord verjährt ebenso wenig wie die Mordtat selbst“.

Es stellt sich die Frage, ob der Zugriff auf eine zentrale Datenbank im Netz, die juristische Strafverfolgung von potenziellen Täter:innen vorantreibt, da sich so möglicherweise leichter Informationen finden lassen. So hat Josef Schütz zunächst abgestritten als SS-Wachmann gearbeitet zu haben. Historische Dokumente haben dann allerdings belegt, dass ein Mann mit demselben Namen in dem KZ Sachsenhausen als Wachmann eingestellt war.

Der Historiker Alex Drecoll bezweifelt, dass die Online-Archive zu einem entscheidenen Fortschritt in der Strafverfolgung beitragen können. Zwar sieht er in solchen Projekten einen wichtigen Impuls, entscheidend ist für ihn aber, was wir mit den Quellen machen, die erforscht, studiert und interpretiert werden müssen. „Ich halte es aber für einen Trugschluss, dass mit der bloßen Verfügbarkeit über die Quellen schon viel gewonnen ist“, so Drecoll. Er führt an: „Es ist ja nicht so, dass die Versäumnisse in der juristischen Aufarbeitung darin begründet waren, dass die Dokumente nicht zur Verfügung gestanden hätten. Vielmehr war es in weiten Teilen der deutschen Gesellschaft lange Zeit Konsens, die NS-Verbrechen zu verschweigen und zu verleugnen – vor allem die breite Beteiligung an diesen Verbrechen.“

Drecolls Aussagen legen nahe, dass Online-Archive einen wichtigen Beitrag zur Vergangenheitsarbeit leisten – die aktive Aufarbeitung muss aber die Gesellschaft selbst leisten.

NS-Dokumente: Online-Archive gegen das Vergessen

#everynamecounts

Der Erfolg von KI-gestützter Technologie

Themenportal zur Wiedergutmachung

KI für historische Schriften

„Es ist kein Schlusspunkt gesetzt“

Justiz versäumt Aufarbeitung

Rechtsradikale Polizist:innen: Gefahr für den Rechtsstaat

Holocaust-Verharmlosung: Wie Twitter dabei scheiterte, bei Antisemitismus durchzugreifen

Digitales Archiv der Sinti und Roma kündigt Start im Oktober an

0 Ergänzungen