,,Achtung, kann in Abhängigkeit führen”

Teile diesen Artikel

Die ungarische Firma Arcanum digitalisiert Zeitungsarchive und stellte sich vor

Ausgabe Nr. 2859

Előd Biszak, Gastgeber Răzvan Pop und Sándor Biszak bei der Vorstellung zum Thema Digitalisierung (v. l. n. r.).                                 Foto: Werner FINK

Die Astra-Bibliothek hat vor kurzem zusammen mit der Firma Arcanum aus Ungarn zwei Treffen zum Thema Digitalisierung veranstaltet. Das Familienunternehmen Arcanum wurde 1989 von Sándor Biszak ins Leben gerufen und verfügt gegenwärtig über 60 Millionen digitalisierte Seiten. 2013 wurde damit begonnen, Zeitungsarchive zu digitalisieren, wobei auch das Archiv der Hermannstädter Zeitung angefangen von 1968 bis 2018 seit kurzem auch zur Datenbank der Firma Arcanum gehört und unter www.arcanum.com abgerufen werden kann. Mittlerweile gibt es die Möglichkeit, in den Datenbanken von Arcanum auch mit Hilfe von künstlicher Intelligenz nach Informationen zu suchen. Zu Werdegang und Zielen der Firma führte HZ-Redakteur Werner F i n k folgendes Interview mit den beiden Geschäftsführern Sándor Biszak und dessen Sohn Előd Biszak:

Wie kam die Firma Arcanum zustande?

Sándor Biszak (S. B.): Die Firma kam in der Zeit der Wende 1989 zustande, als die Digitalisierung vonstatten ging. Damals lief alles noch auf Diskette, später auf CD-ROM. Da haben wir die Bibel digitalisiert, die Gedichte der ungarischen Dichter, die Werke von Shakespeare. Und danach stellte es sich heraus, dass das von allen sehr begehrt wird. Alle mochten es, nach Zitaten in den Gedichten zu suchen. Aber noch mehr waren die Menschen an Zeitschriften interessiert, weil man in den Zeitschriften, Tageszeitungen, womöglich etwas über die Großmutter, den Großvater findet.

Also die Texte, die man in den letzten 150-200 Jahren geschrieben hat, können nicht nur gelesen werden, sondern man kann darin auch suchen. Und das ist unser Hauptziel, diese alten und neueren Dokumente suchbar zu machen und für alle zur Verfügung zu stellen.

Gibt es Interesse für Digitalisierung?

S. B.: Das ist eine interessante Sache. Als wir die Bibel 1991 herausgaben, dachte niemand daran, dass man die Bibel von einer CD-ROM oder Diskette lesen könnte. 1997 gaben wir 13 Bibelübersetzungen heraus, wo die Menschen die Möglichkeit hatten zu suchen, die verschiedenen Übersetzungen zu vergleichen. So dachten vor zwei Jahren auch die Menschen in Rumänien nicht daran, dass man in einer so großen Zahl an rumänischen Publikationen nicht nur lesen kann aber, was sehr wichtig ist, dass man auch in diesen suchen kann.

Wie sind Sie darauf gekommen sich damit zu beschäftigen?

S. B.: Ich hatte als Chemiker an der Eötvös Loránd-Universität abgeschlossen und in der Bibliothek der Firma Richter gearbeitet, wo wir amerikanische Datenbanken benutzten. Das Interessante war, dass wir die ungarischen Daten ebenfalls aus Amerika abriefen. Sie verfügten über die ungarischen Patente, Fachartikel, die chemischen oder medizinischen Fachartikel. Ich habe mir gedacht, wir könnten auch eine ungarische Datenbank machen. Und so haben wir eine ungarische Patentendatenbank gemacht.

Inzwischen haben Sie auch Ihre Kinder miteingebunden?

S. B.: Die Kinder wuchsen heran und jetzt ist das ein Familienunternehmen. Von den fünf Kindern arbeiten drei für die Firma. Előd ist Mathematiker. Aus den Mathematikern werden die besten Informatiker. Zusammen mit 2-3-4 Kollegen, ehemalige Hochschulkollegen, entwickeln sie diese fantastischen Sachen, so dass eine große Amerikanische Datenbank die Technologie von uns kauft. Ohne Előd wäre das Ganze nicht so erfolgreich. Die Menschen mögen das System. Wir sagen immer: Achtung, es kann in die Abhängigkeit führen.

Was heißt das Wort „Arcanum“?

E. B.: Das Wort kommt aus dem Lateinischen und bedeutet sowas wie geheim oder versteckt. Wir gehören zu den wenigen Firmen die sich mit der Digitalisierung von Kulturerbe befassen. Anfangs wurde der Inhalt ganzer Texte per Hand eingetippt, damals gab es die automatische Texterkennung nicht, und es wurde daraus eine Art E-Book gemacht. 2006 gab es bereits kleinere Projekte, wo wir eine Zeitung eingescannt haben, wobei die automatische Texterkennung eingesetzt wurde. Google Books diente zur Inspiration. Anfangs dachten wir nach, was man machen könnte. Es gab kleinere Projekte mit Bibliotheken, Archiven.

Wie verlief die Digitalisierung in den letzten zehn Jahren?

E. B.: Das Interessante war, dass sich in den zehn Jahren zeigte, dass die Zeitungen das einfachste ist, was man digitalisieren kann. Eine Zeitung kann auch 150 Jahre lang fortbestehen und wir versuchen sie von Anfang bis ans Ende zu digitalisieren. Es kann sich dabei auch um eine Tageszeitung handeln, so enthält sie von jedem Tag interessante Informationen, Informationen die zu einem bestimmten Zeitpunkt aktuell waren. Wir haben festgestellt, dass es das wertvollste für die Menschen ist, und deshalb sind sie auch bereit uns zu abonnieren. Jetzt sind wir dort angekommen, dass das Geschäft auch profitabel ist. Wir gehen in die Bibliotheken, scannen so viele Zeitungen, wie viele wir nur können ein und die Menschen registrieren, um diese Zeitungen auch online zu sehen.

War die online-Datenbank also nicht von Anfang an profitabel?

E. B.: Nein, angefangen haben wir mit wissenschaftlichen Zeitschriften. Es war ein Nebenprojekt, wir wollten so viele interessante Dinge auf unsere Seite hochladen wie möglich. Es kam das Ungarische Nationalmuseum auf uns zu und beauftragte uns eine Buchreihe zu digitalisieren, Fotos, Archivmaterial, Archivdokumente. Davon lebten wir lange Zeit, und es war ein Nebenprojekt, dass wir die eigene Datenbank aufbauten. Erst nach 7-8 Jahren, wo die Datenbank ständig erweitert wurde und auch die Benutzeranzahl ständig stieg, merkten wir, dass das profitabel sein kann. Und jetzt konzentriert sich die ganze Firma nur auf diese und wir versuchen sie zu optimieren, so gut es geht. Solche Aufträge wie vorher kriegen wir nur ab und zu. Unsere Datenbank halten wir aber nun für viel wichtiger.

Wie viele Abonnenten gibt es?

E. B.: Es gibt etwa 30.000 Abonnenten, die sich registriert haben, und 15.000 die das Abonnement auch erneuern. Die meisten sind in Ungarn, 3000 aus Rumänien. In Rumänien haben wir das vor zwei Jahren gestartet. Zu den Abonnenten gehören auch Universitäten. Im Grunde sind alle ungarischen Hochschulen-Institutionen Abonnenten, die Hochschulen in Klausenburg und in Hermannstadt. Abonnenten haben wir aber auch in Amerika, die Library of Congress, die Columbia University, die Yale University. Vor allem dort, wo man sich mit Osteuropa beschäftigt, wird abonniert.

Wie läuft es gegenwärtig mit der Digitalisierung?

E. B.: Unser Ziel ist es so viele regelmäßig erscheinende Publikationen einzuscannen was es nur geht. In Ungarn sieht das so aus, dass wir etwa 50 Millionen Seiten ungarisches Material haben, und das deckt einen beträchtlichen Teil der gedruckten Veröffentlichungen die regelmäßig erscheinen. Es interessieren uns sehr die landesweiten Veröffentlichungen, aber genauso auch die lokalen Publikationen.

In Rumänien haben wir bislang zehn Millionen Seiten digitalisiert, die Datenbank hierbezüglich ist also bereits ziemlich groß, In der Slowakei zwei Millionen Seiten, in Tschechien eine Million Seiten. Unser Hauptfokus liegt gegenwärtig auf Ungarn und Rumänien und nebenbei versuchen wir das auch in den anderen Ländern auf die Beine zu stellen.

In Jassy, achten wir darauf, dass auch die lokalen Zeitungen, eingescannt werden, in Hermannstadt scannen wir sehr viel Hermannstädter Material ein. In Zalău haben wir einen ganzen Zeitungsbestand im Zuge eines Transfers eingescannt, in Reschitza haben wir auch die lokalen Zeitungen eingescannt, und in Craiova ebenfalls die lokalen Zeitungen. Im Allgemeinen interessieren uns die lokalen Zeitungen, wenn wir zu einer Bibliothek gehen.

Haben Sie ein Team?

E. B.: Wir sind 25 Leute. Es gab auch Zeiten, in denen wir Outsourcing betrieben haben, so dass wir Material nach Indien schickten, aber eher nur zeitweilig. Also dort wurde nichts gescannt, sondern nur die Nachbearbeitung gemacht. Jetzt machen wir alles mit unseren 25 Mitarbeitern. Wir versuchen, alles zu optimieren.

Aus Amerika haben wir aber auch schon Material per Flugzeug gebracht. Dort gab es ein ungarisches Haus, wo wir das ganze Archiv digitalisiert haben, und wo es dann von einem ungarischen Museum übernommen wurde.

Wo gibt es Herausforderungen?

E. B.: Die größte Herausforderung ist, das Material aus den Bibliotheken herauszubringen. In Craiova sah das so aus, dass man in den zweiten Stock nur über enge Treppen und Fluren kommen konnte, um die Zeitungen abzuholen. 43 Leute bildeten eine Kette und gaben die Zeitungskollektionen von Hand zu Hand bis zum Wagen. Man muss sich vorstellen, es geht um 1,5 Tonnen.

In Jassy brachten sie die Scanner ins Archiv?

E. B.: Das ist eine speziellere Zusammenarbeit, gewöhnlich geschieht das nicht so. Wir haben die Scanner hin gebracht und eine Woche dort verbracht und das Team dort in das Scannen eingeführt. Sie haben es auch gut gemacht. Wir sind sehr zufrieden. Auch sie sind sehr zufrieden.

Neulich wird auch künstliche Intelligenz eingesetzt?

E. B.: Auf was wir am stolzesten sind, es gibt die Zeitungssegmentierung, also es wird entschieden, was ist der Artikel innerhalb einer Zeitung, welche sind die Spalten, das alles wird analysiert, so dass der wiedergegebene Text gut wird. Wichtig ist, dass wir hier unsere eigene Modelle benützen. Diese Technologie haben wir aufgebaut und das ist uns so gut gelungen und einzigartig, dass newspaper archive.com, eines der größten Zeitungsarchive, mit 300 Millionen eingescannten Seiten, uns online entdeckt hat und wir stellen ihnen diese Technologie zur Verfügung.

S. B.: Allein in unserer Datenbank gibt es die Gesichtserkennung, die Möglichkeit dem Gesicht nach zu suchen. Dann werden die kyrillische Buchstaben in alten rumänischen Texten erkannt und in heutigen Buchstaben wiedergegeben, so, dass die Texte suchbar und lesbar sind.

Gibt es zukünftige Projekte?

E. B.: Wir möchten mit mehr Bibliotheken Verbindungen aufbauen, mehr Benutzer aus Rumänien einbinden, Institutionen, Hochschulen dazu bringen das zu nutzen, wie man das bereits in Hermannstadt und in Klausenburg macht. Weiterhin möchten wir auch in der Slowakei und in Tschechien das ausbauen, was bereits hier gemacht wurde. Wir haben uns als Ziel gesetzt, innerhalb von fünf Jahren unseren Nutzerkreis zu erweitern, sodass mehr als die Hälfte der Nutzer von außerhalb Ungarns auf unsere Dienste zugreifen.

S. B.: Wir möchten das rumänische Material erweitern, dann beginnen wir womöglich mit dem jugoslawischen Material und in der Entwicklung ist der nächste Schritt ChatGPT, von dem jetzt alle sprechen. Wir möchten es mit unserer Datenbank zusammenzuschließen, so dass man auch diese Technologie bei der Suche verwenden kann.

Vielen Dank für das Gespräch!

Veröffentlicht in Technik, Medien, Aktuelle Ausgabe, Geschichte.