Google Books und die entgleisten Metadaten


Google Books wird ja derzeit von mehreren Seiten aus unter Feuer genommen, aber ich muss gestehen, dieser Artikel hier hat mich zu gleichen Teilen fasziniert, amüsiert und erschreckt. Denn es sieht so aus, als ob die Metadaten (Autor, Erscheinungsjahr usw.) vieler bei Google Books erfasster Bücher fehlerhaft sind, und zwar in einem Ausmaß, dass die üblichen Pannen, Bugs und Schludrigkeiten um ein vielfaches übersteigt.

Google’s [metadata] are a train wreck: a mish-mash wrapped in a muddle wrapped in a mess.

Das ist deutlich gesagt, und der Artikel fährt (elegant und mit reichlich Süffisanz) eine große Zahl von Beispielen auf: Falsche Datierungen, falsche Autorenangaben, unsinnige Rubrizierungen – teilweise so absurd und grotesk, als habe man mit Karteikarten Bingo gespielt. Etwa dies hier:

To take G[oogle] B[ook]’s word for it, 1899 was a literary annus mirabilis, which saw the publication of Raymond Chandler’s Killer in the Rain, The Portable Dorothy Parker, André Malraux‘ La Condition Humaine, Stephen King’s Christine, The Complete Shorter Fiction of Virginia Woolf, Raymond Williams‘ Culture and Society, Robert Shelton’s biography of Bob Dylan, Fodor’s Guide to Nova Scotia, and the Portuguese edition of the book version of Yellow Submarine, to name just a few.

Ich kann nur empfehlen, den Artikel selbst nachzulesen. Es lohnt sich auch, die nachfolgenden Kommentare durchzustöbern – nicht nur, weil da noch einige bizarre Beispiele folgen (ein Buch, das laut Google von der Heiligen Dreifaltigkeit verfasst wurde), sondern weil sich auch ein Google-Verantwortlicher zu Wort meldet. Zunächst mit dem erstaunlichen Eingeständnis:

We know we have problems. Oh lordy we have problems. Geoff refers to us having hundreds of thousands of errors. I wish it were so. We have millions.

Ein Satz, den ich so nie vom Hersteller meines Autos hören möchte. Nach dieser vertrauenerweckenden Mitteilung folgt aber ein ausführliches Aufrechnen, wer jetzt genau für die zitierten Fehler verantwortlich ist, und nein, es liegt natürlich nicht an Google, sondern vor allem an den Bibliotheken und den widersprüchlichen, mißverständlichen oder fehlerhaften Daten, die von dort geliefert werden.

Selbst wenn das so wäre (und vielen dieser versuchten Richtigstellungen wird im Blog selbst schon Kontra gegeben): Es ist wohl kaum der richtige Weg, wenn das System solche Fehler einfach nur aufsaugt und (inklusive reichlich beigemischter eigener Pannen) einfach nur ausspuckt. Wenn man bei Google weiß, das aktuelle Prozesse der Erfassung und Katalogisierung nicht nur „Hunderttausende“, sondern sogar „Millionen von Irrtürmern“ mit sich bringen: Warum schaufelt man diese Irrtümer trotzdem tausendfach in die Öffentlichkeit, in der vagen Hoffnung, irgendwelche „Crowdsourcing“-Mechanismen könnten für die nötigen Korrekturen sorgen?

In der aktuellen Kritik an Google Books mag viel Hysterie beigemischt, aber das eine bedeutende Ressource auf arg wackligen Füßen daherkommt, das ist bedenklich.

(Via.)

Eine Antwort

  1. Sehr geehrter Herr Moser,
    meine im Jahre 2000 veroeffentliche Dissertation mit dem Titel „Die Oper Jacobowsky und der Oberst“ wird faelschlicherweise Frau Brigitte Buechler-Schaefer und nicht mir, Brigitte Schaefer, zugeschrieben.
    Es handelt sich um eine Falschanzeige, allerdings an repraesentativer Stelle.
    Freundliche Gruesse
    Brigitte Schaefer.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert