chatGPT -- Grand Prix Hallucination

Als ich im Jahr 2000 google.com kennenlernte war ich beeindruckt. Suchmaschinen gab es schon davor, aber der Wissensschatz im Internet war besser aufbereitet als je zuvor. Er wuchs und wuchs, und entwickelte sich nun auch zu einem Wettrennen von SEO-Experten, ihr Zeug möglichst weit oben in der Trefferliste zu platzieren, und Benutzern, das gewünschte Zeug möglichst weit oben in der Trefferliste zu sehen.

Trefferliste: Das ist das Ergebnis der Suche, um die sich beim Googeln alles dreht. Man will etwas erfahren, und bekommt mittels geschickt gewählter Suchwörter Vorschläge, wo das Ergebnis zu finden sein könnte. Jeder dieser Vorschläge ist eine Quelle, meist mit offengelegter Autorenschaft.
Üblicherweise muss man danach ein paar dieser Links durchklicken und bekommt dadurch einen Überblick des gewünschsten Wissens. LLMs haben nun potentiell alle diese Links bereits verarbeitet und stehen dem Benutzer zu Diensten. Man kann diese Datenbank in natürlicher Sprache befragen. Das Wissen ist aber nun nicht nach Quellen separiert, sondern stellt einen homogenen Corpus dar, der nicht erkennen lässt, wer oder was die Quelle der Information ist.

Als durch Google "das Internet" durchsuchbar wurde, wollte man natürlich wissen, was das Internet über einen selbst weiß, man googelt sich selbst. Natürlich kann man sich auch Tschätttschipitien:

mcaviti:> Who is Klemens Dickbauer?

chatGPT:> As of my last knowledge update in January 2022, Klemens Dickbauer is an Austrian musician and composer known for his work in the field of jazz music. He is a highly skilled saxophonist and clarinetist, often praised for his virtuosity and innovative approach to music. Dickbauer has been involved in various musical projects and ensembles, displaying versatility in his performances across different genres and styles. His contributions to the Austrian and international music scenes have earned him recognition and respect among fellow musicians and music enthusiasts. However, please note that my information might be outdated, and there could have been further developments in his career or personal life since then.

Leider antwortet hier chatGPT mit berühmt-berüchtigten fake-news: Obwohl mein eigener digitaler Fußabdruck im Internet bereits 2022 nicht klein war, liefert hier die Maschine zu meinem Namen die Beschreibung von Klaus Dickbauer. Die Ähnlichkeit durch die ersten beiden Buchstaben des Vornamens hat ausgereicht, zusammen mit der viel breiteren Quellenbasis des bekannten Künstlers die Wahrscheinlichkeit der gesuchten Person auf ihn umzulenken. Fatal.

Moderne Systeme liefern inzwischen zwar auch schon Quellen, Links auf die Trainingsdaten zur gesuchten Antwort, aber nicht immer wird Falschinformation ohne gründliche Nachforschung einfach erkennbar sein. Das System weiss nichts von richtig oder falsch, es gibt nur denjenigen Text aus, der durch das Training als am wahrscheinlichsten passend ermittelt wurde.
Eigentlich müsste man jede Frage einleiten mit "Was glaubst du, …"
Wenn die für das Sprachmodell wahrscheinlichste Antwort nicht mit der Realität übereinstimmt, wird das oft mit "Halluzinieren" bezeichnet. Durch den Drogenrausch überbordender Informationen erfindet die Software neue Informationen.

(c) Karl Berger 2023

Dies muss bei der Recherche bewusst sein. Leider ist das Vertrauen in maschinell erstellte Daten hoch. Auch Stimmen, die "offiziell" Misstrauen gegen Maschinen äußern, akzeptieren deren Informationen als objektives Gut, solange diese Information ins eigene Narrativ passen.

comments powered by Disqus