Gepflegtes Durcheinander bei Google Books

Google nimmt sich gerne Dinge vor, die eigentlich unmöglich klingen. So will der Konzern zum Beispiel die gesamte Weltliteratur digitalisieren. Freilich nicht von heute auf morgen, aber doch in absehbarer Zeit. Alle Bücher sollen frei zugänglich sein – via Internet.

Schon seit Jahren scannt der Konzern dazu alte bis uralte Bücher ein, teilweise komplette Bibliotheken. Google Books nennt sich das Projekt. Das Unternehmen betreibt einen enormen Aufwand und gibt viel Geld für das Projekt aus – viele Bibliotheken sind dankbar dafür, zumindest wenn es darum geht, alte Bücher und Klassiker zu scannen und auf diese Weise digital der Öffentlichkeit zu präsentieren. Die wenigsten Bibliotheken haben das Geld, diesen Service selbst anzubieten.

Bei modernen oder sogar aktuellen Titeln hält sich die Begeisterung hingegen in Grenzen. Zwar kann jeder Autor oder Verleger seine Bücher freiwillig bei Google Books hochladen – viele versprechen sich davon einen Werbeeffekt. Doch Google scannt mitunter auch Bücher, bei denen das Urheberrecht (eine komplizierte Sache) noch nicht erloschen ist – und das ungefragt.

Einige Autoren und Verlage protestieren und wollen beteiligt werden. In den USA ist die Sache weitgehend vom Tisch, man hat sich geeinigt, in der EU wird noch diskutiert, wie man damit umgehen soll.

Mittlerweile gibt es allerdings auch Kritik an der Qualität des eingescannten Materials, insbesondere an der Präsentation und der Verschlagwortung. Wer zum Beispiel den Suchbegriff „Internet“ eingibt und die Suche auf Bücher beschränkt, die vor 1950 erschienen sind, bekommt immerhin 1400 Titel präsentiert. In 1400 Büchern soll also das Wort „Internet“ auftauchen, obwohl das Internet erst in den 60er Jahren erfunden wurde.

Wer sich Fundstellen wie diese oder diese anschaut, erkennt gleich, woran es liegt: Da werden Wörter wie „Entwurf“, in altdeutscher Schrift geschrieben und nicht optimal gescannt, von der Optical Character Recognition (OCR), der Software, die eingescannten Text „lesen“ soll, falsch erkannt und eben als „Internet“ verschlagwortet.

dickensManchmal spuckt Google Books auch absolut verrückte Veröffentlichungsdaten aus. Das Buch Hard Times von Charles Dickens zum Beispiel soll im Jahr 1217 erschienen sein. Dabei ist Charles Dickens 1812 geboren. Google kennt aber über 100 Bücher, die vor(!) seiner Geburt erschienen sein sollen.

Solche Fehler können bei einem derart großen Projekt zweifellos passieren, kratzen aber angesichts der Häufung definitiv am Image von Google Books. Die hinterlegten Daten sind alles andere als perfekt, die Schlagwörter oft falsch gewählt und selbst die Erscheinungsdaten stimmen mitunter nicht. Es kann auch passieren, dass Google Books meint, es gäbe eine „more recent edition“ (eine aktuellere Ausgabe) eines Buchs, obwohl die aktuellere Ausgabe älter ist als die angezeigte.

Ein ganz schönes Durcheinander – das der „master of digital information“ besser in den Griff bekommen muss, soll darunter der Ruf nicht leiden.

SCHIEB+ Immer bestens informiert

Schieb+ Tarife
Nach oben scrollen