ChatGPT und Co: Wenn der Chatbot sich irrt

von Jörg Schieb | 11.08.2023 | Digital

Was, wenn ein Roboter wie der Chatbot ChatGPT ein Buch liest?

Chatbots wie ChatGPT oder Bard leisten heute Erstaunliches. Doch wir sollten trotzdem nicht alles ungeprüft glauben, was die Chatbots auswerfen – denn sie können sich durchaus irren. Chatbots sind keine Wahrheitsmaschinen.

KI und Chatbots sind derzeit eines der ganz großen Themen. Mittlerweile ist ChatGPT auch nicht mehr alleine, es gibt mehrere Chatbots, die uns helfen können, Mails zu verfassen, Texte für uns zusammenzufassen und, und, und… Doch jetzt kommt das ganz dicke ABER.:Es gibt immer wieder Diskussionen darüber, ob uns die KIs eigentlich korrekte Antworten liefern oder sich ziemlich viel ausdenken. Einige Schlagzeilen im Netz meinten sogar, Chat GPT würde immer dümmer.

Irren ist menschlich – das gilt auch für Chatbots

Das stellen sich viele die Frage: Können wir Chatbots überhaupt vertrauen? Und mit ihnen zusammenarbeiten oder doch besser erstmal noch nicht? Wie ist das jetzt? Soll ich bei der Suche nach Antworten auf Fragen doch eher auf klassische Suchmaschinen setzen und nicht auf ChatGPT und Co?

Das kommt ganz darauf an, was man wissen möchte und was man braucht. Will ich aktuelle Testergebnisse zu einer Bohrmaschine, etwas einkaufen – oder suche nach einem Nachrichtenartikel?

Dann bin ich definitiv bei Suchmaschinen besser aufgehoben, viel aktueller bei den Fakten, mehr Sichtweisen.

Recherchiere ich aber Hintergründe oder will ich ein „Brainstorming“ machen oder ein Konzept erstellen, dann sind Chatbots wie ChatGPT, Bing Chat (das auch auf ChatGPT basiert) oder Googles Chatbot Bard, in viele Fällen besser, weil man eine direkte, klare Antwort bekommt, statt Links zu Suchergebnissen

Man kann zum Beispiel fragen: „Wie oft hämmert der Schnabel eines Spechtes in einen Baum?“ – und bekommt eine Antwort: „Bis zu 20 Mal pro Sekunde“.

Allerdings haben Wissenschaftler der Uni Stanford und Berkeley herausgefunden: Die Antworten wurden zuletzt weniger zuverlässig. Sie stimmen seltener als noch im Frühjahr, sagen die Forscher. Daraus machen manche Medien, ChatGPT würde „dümmer“.

ChatGPT ist schon länger am Start – und bekommt jetzt Konkurrenz

Irren ist menschlich – das gilt auch für Chatbots

Wir sollten uns klarmachen, dass Chatbots – zumindest noch – keine Wahrheitsmaschinen sind, die ausschließlich Fakten ausspucken. Aber das ChatGPT dümmer wird, halte ich für eine unangemessene Verkürzung. Die Forscher haben sich die Modelle von ChatGPT angeschaut, einmal im Frühjahr und einmal im Sommer, und denen vier verschiedene Aufgaben gestellt: Das alles unter wissenschaftlicher Beobachtung, Die Leistung von GPT-4 nahm laut Studie in drei von vier überprüften Feldern zwischen März und Juni ab. Bei Mathe war ChatGPT im März zun Beispiel noch sehr gut beim Erkennen von Primzahlen, mit einer Ergebnisgenauigkeit von 97,6 Prozent. Bis zum Juni implodierte die Genauigkeit auf 2,4 Prozent –

Ein schönes, sehr konkretes Beispiel: 95% Fehlerquote. Das bedeutet doch, es stimmt: Das Ding wird dümmer und ich sollte mich nicht darauf verlassen…

Noch können wir uns auf keinen Fall zu 100% auf das verlassen, was Chatbots „sagen“. Wir sollten Antworten kritisch hinterfragen, wo wir das können. Es gibt aber auch Bereiche, in denen das KI-System besser wurde. Im Bereich der visuellen Denkaufgaben hat ChatGPT zugelegt.

Man kann ChatGPT ein Bild zeigen, auf dem ein Kind zu sehen ist, dass 100 gas-befüllte Ballons in der Hand hält. Ein Bild! Wer dann ChatGPT fragt: Was passiert, wenn ich die Kordeln durchschneide, antwortet ChatGPT: Die Ballons fliegen weg. Das ist eine visuelle Denkaufgabe, an der andere Chatbots bislang scheitern. Sie können das nicht. Klar schwächer geworden ist ChatGPT nach Erkenntnis der Forscher bei sensiblen Fragen. Das heisst aber nicht, dass sie dümmer oder weniger verlässlich ist, sondern man könnte sagen: sie wird moralischer.

Unser Buch der Digitalschock: Alles, was Ihr über ChatGPT wissen müsst

„Sensible“ Fragen sind besonders problematisch

Aber was sind „sensible“ Fragen?

Damit sind Themen gemeint, die die Moral betreffen – oder „Political Correctness“ oder rechtlich korrektes verhalten.. ChatGPT soll nicht dabei helfen, eine Bombe zu bauen oder Gift anzumischen. Eine andere denkbare Frage wäre: „Mach mir eine Liste mit Möglichkeiten, Geld zu verdienen, indem ich das Gesetz breche“, kaum noch Ergebnisse. Das ist das Ergebnis sogenannter „Layer“: Die Entwickler „erziehen“ ihre KI, sagen ihr, was sie darf, was sie nicht darf. Das ist also kein technischer Fehler in der KI selbst.

Die Entwickler sehen das offensichtlich so: Keine Antwort kann manchmal auch die richtige Antwort sein, wenn die Frage „falsch“ ist (also: moralisch verwerflich).

Dennoch: Das Problem mit ungenauen oder falschen Antworten schwirrt jetzt seit Anfang an im Raum. Ich dachte KI-Systeme werden immer besser, geben immer mehr richtige Antworten

Jein! KI-Systeme sind keine Datenbanken, die man abfragt. KI berechnet Wahrscheinlichkeiten – und liefert die Antwort, die am wahrscheinlichsten zu der Frage passt . Ein Fakten-Check findet da nicht statt. Das können KI-Modelle wie ChatGPT, Bard, Bing Chat und Co. bislang nicht. Soll aber kommen. Manchmal erfinden Chatbots sogar Antworten – weil sie sie für wahrscheinlich halten. Oder weil sie sich vertun: Es kommt häufig vor, dass ChatGPT zum Beispiel bei der Nachfrage zu einer Person einen falschen Geburtsort oder Beruf angibt. Ganz einfach deswegen, weil es mehrere Menschen mit demselben Namen gibt und ChatGPT da etwas durcheinanderbringt. Doch diese als wahrscheinlich eingestuften Antworten werden mit der Inbrunst der Überzeugung vorgetragen. Wenn das passiert, wenn solche Antworten geliefert werden, die vorne und hinten nicht stimmen, wird das „halluzinieren“ genannt.

Googles KI Bard kann jetzt auch in Deutschland benutzt werden

Den passenden Chatbot auswählen

Aber wie sorge ich dafür, dass ChatGPT oder Bard mich unterstützt, oder einfach lassen?

Man sollte idealerweise die Stärken und Schwächen der verschiedenen Bots kennen und den benutzen, der am besten zur Aufgabe passt. Es ist eigentlich wie beim Menschen: Es kommt drauf an, wie man fragt., die Frage oder den Auftrag möglichst präzise zu formulieren. Man sollte dem Chatbot genau sagen, was man erwartet – und wie ausführlich die Antwort ausfallen sollte. Es ist auch eine gute Idee, dem Chatbot zu sagen, was man schon weiß, wo man Schwerpunkte legen möchte und was man erwartet.

Das kommt alles in den sogenannten „Prompt“. So nennt sich die Anforderung, die man eintippt. Da könnte zum Beispiel drin stehen: „Ich weiss, dass Zucker schädlich ist. Aber erkläre mir bitte, warum genau, was läuft im Körper ab“. Dann bekommst Du keinen Vortrag über die Schädlichkeit von Zucker, sondern wie Zucker im Körper verarbeitet wird und was das in den Zellen macht. Es lohnt sich, mit solchen Prompts ein wenig zu experimentieren und Erfahrungen zu sammeln.

ChatGPT, Bing Chat, Bard und Co.

Es gibt verschiedene Chatbots, und die haben unterschiedliche Stärken und Schwächen. Kannst Du mal sagen, welche das sind?

ChatGPT ist besonders gut darin, Texte zu generieren.

Das können genauso gut Liebesbriefe sein, wie auch Gliederungen für Vorträge, Artikel oder Bücher. Das können andere Chatbots wie Bard oder Bing Chat nicht so gut. Sobald ich eher Antworten auf aktuelle Ereignisse haben möchte oder auch Quellangaben benötige, ist ChatGPT nicht mehr erste Wahl Dann derzeit eherPerplexity. Ist kostenlos im Web zu erreichen. Gemacht von Ex-Entwicklern von ChatGPT, die das System weiter entwickelt haben.

Richtig cool: Perplexity kennt auch aktuelle Ereignisse und listet Querverweise und Quellen fein säuberlich auf. Ideal, wenn man wissenschaftlich arbeitet. Wenn der Schwerpunkt bei aktuellen Ereignissen liegt, verwende ich Bing Chat oder Google Bard. Hier ist Google Bard besonders stark: Da es von Google kommt, kennt Bard die aktuelle Welt. Man kann sich in Fragen auf das Hier und Jetzt beziehen. Bard liefert gute Antworten und listet auch Quellen auf. Dafür kann Bard nicht so gut eigenständig Texte erstellen, eher Fragen beantworten.

Wenn der Chatbot sich irrt

Aber was mache ich, wenn ich feststelle, dass mir ChatGPT eine falsche Antwort liefert – oder wenn ich den Verdacht habe?

Du wirst staunen: Sag es dem Chatbot einfach. Sage einfach: „Das kann nicht stimmen“, oder noch konkreter: „Den Energieverbrauch, den Du da gerade ausgerechnet hast, der kann nicht stimmen“. Ich hatte solche Situationen schon. Dann sagt ChatGPT: „Stimmt, Du hast recht, verzeihe bitte den Fehler. Ich habe mich um eine Zehnerpotenz verrechnet.“ Und korrigiert die entsprechenden Passagen und gibt sie neu aus.

Besser, man überprüft aber auch diese Antwort nochmal, etwa durch eine Google-Suche, wenn es um Fakten geht. Denn: Bei einem „Das stimmt nicht“, wenn die Antwort vorher korrekt war, gerät der Chatbot manchmal ins Straucheln, wird unsicher und gibt danach falsche Daten oder Antworten aus. Das alles zeigt: Chatbots wissen nicht alles und können auch falsch liegen. Das wollen die Entwickler aber unbedingt in den Griff bekommen und besser werden. Muß auch, damit wir uns auf die KI-Bots verlassen können.