Chatbots werden multimodal – können hören, sprechen, sehen – und verstehen

von Jörg Schieb | 24.10.2023 | KI

ChatGPT ist schon länger am Start - und bekommt jetzt Konkurrenz

ChatGPT ist in der Plusversion jetzt multimodal: Der Chatbot kann mit einer beliebigen Stimme sprechen, kann zuhören und verstehen – aber auch Bilder analysieren. Versteht uns ChatGPT jetzt sogar?

ChatGPT – wer hätte diese sieben Buchstaben nicht in den letzten Monaten andauernd gehört. Jetzt gibt es den schlauen Chatbot seit fast einem Jahr – zumindest für die Öffentlichkeit. Hersteller OpenAI hat den Chatbot jetzt deutlich schlauer gemacht, ihm mehr Fähigkeiten spendiert.

Denn seit neuestem kann man mit ChatGPT auch sprechen. Hören. Sehen. Und Bilder malen. ChatGPT ist jetzt „multimodal“, wie die Fachleute sagen. Aber was bedeutet das alles in der Praxis bedeutet und was kommt da noch auf uns zu?

Was, wenn ein Roboter wie der Chatbot ChatGPT ein Buch liest?

ChatGPT kann sprechen und verstehen

Mit ChatGPT kann ich jetzt auch sprechen: Wie soll das funktionieren?

Ganz einfach: Man schnapp sich sein Smartphone, installiert die ChatGPT-App darauf – und los geht’s. Das, was man sonst eintippen musste, kann ChatGPT jetzt auch gesagt werden. ChatGPT kann verstehen, was der User sagt. Und reagiert dann auch, liefert Antworten.

Man kann aber natürlich auch Gespräche führen, sich auf das, was zuvor gesagt wurde beziehen. Das ist wirklich beeindruckend – und viel, viel, viel mehr, als digitale Sprachassistenten wie Siri, Alexa oder Cortana bislang können.

Es hat fast den Anschein, mit einem Menschen zu sprechen. Allerdings dauert es immer einen Moment, bis ChatGPT verstanden hat, was ich sage und bis der Chatbot die passende Antwort herausgesucht hat. Man kann aus sieben Stimmen derzeit wählen. Das werden noch mehr werden; und man soll auch schon bald jede Stimme simulieren können. Upload einer Sprachprobe reicht. Dieser Funktion steht allerdings erst mal nur in der App und zahlenden Pluskunden (20 EUR/Monat) zur Verfügung. Erst mal.

Was passiert, wenn jemand die Ballosn loslässt?

ChatGPT kann Bilder verstehen

Aber ChatGPT kann jetzt sogar noch mehr, Bilder erkennen zum Beispiel. Das haut mich erst mal nicht vom Hocker – das kann Google Lens schon lange, etwa erkennen, welche Pflanze ich da gerade vor mir habe…

Stimmt, das wäre noch nicht spannend. Aber das, was ChatGPT jetzt kann, geht weit darüber hinaus. Du kannst zB ein Foto machen von einem Teller mit was Leckerem darauf – und fragen: Wie koche ich das? ChatGPT erkennt, ob Penne mit Bolognese oder Spaghetti Alfredo, ob Steak oder Gurkensalat und liefert das passende Rezept.

Doch mehr als das. ChatGPT „versteht“, was es sieht. Wenn ich ein Foto mit einem Mädchen hochlade, das 100 gasgefüllte Ballons in der Hand hält, sagt ChatGPT erst mal, was es sieht: Mädchen mit Ballons, draußen, vor Baum. Aber jetzt kann ich fragen: „Was passiert, wenn ich die Schnüre durchschneide?“

Und ChatGPT sagt: Die Ballons fliegen weg. Das zeugt von einem tiefen Verständnis der Situation. Das konnte bislang keine KI und ist völlig neu. Ich kann mir also Dinge erklären lassen – und Situationen. Wenn ich was im Haushalt finde und nicht weiß, kann ich fragen: „Was ist das?“ Und ChatGPT antwortet womöglich: Das ist ein Staubsaugerbeutel, den kannst Du in deinen Staubsauger Modell Sowieso stecken und damit rund 300 Mal saugen.

ChatGPT wird zum Alltagshelfer

Das klingt so, als könnte das durchaus hilfreich sein – was könnte man damit anstellen?

Eine Menge. Wer zum Beispiel Hilfe braucht, sagen wir beim Fahrrad. Einfach Foto vom Sattel machen und fragen: „Wie kriege ich den Sattel verstellt“? Vielleicht noch durch einen Kringel um die Schraube deutlich machen, worum es geht. Dann fragt ChatGPT: Welches Werkzeug hast Du?

Ich mache ein Foto vom Werkzeugkoffer, und ChatGPT leitet mich an, wie die Sattelhöhe mit dem vorhandenen Werkzeug verstellt werden kann. Funktioniert genauso mit einem verstopften Abfluss in der Küche. Oder, oder, oder… Man kann auch bei 0 anfangen.

Kurz auf einer Serviette skizzieren, wie die neue Webseite aussehen soll und ChatGPT bitten, die Webseite zu bauen. Auch das funktioniert und ChatGPT erstellt HTML und CSS, fertig ist die Webseite. Wenn man sich klar macht, dass das erst der Anfang ist und bald in vielen Apps und KI-Lösungen zu sehen ist, wird deutlich, was da auf uns zukommt.

Eine Stärke von KI ist die Analyse großer Datenmengen

Hat ChatGPT ein Bewusstsein?

Kann man denn sagen, dass KI jetzt eine Art von Bewusstsein hat – versteht, worum es geht?

Verständnis: Ja. Die KI kann Situationen einschätzen und damit umgehen. Je mehr Informationen vorliegen, desto besser gelingt das. Solche Informationen lernt die KI beim Training – und die KI-Modelle, die wir sehen, werden immer leistungsfähiger, kennen immer mehr von der Welt.

Aber Bewusstsein im Sinne von, ich weiß, dass ich bin: Nein. Das sagt auch Geoffrey Hinton, einer der größten Vordenker der KI-Technologie. Er sagt: KI-Systeme werden schon bald schlauer sein als wir Menschen. Sie können vieles besser und schneller als wir. Aber sie haben kein Bewusstsein im eigentlichen Sinne.

Die neuen Funktionen, die OpenAI jetzt in ChatGPT gesteckt hat und ChatGPT multimodal machen – das KI-Modell beherrscht nicht nur eine Disziplin wie Sprechen, sondern mehrere – ist ein großer Schritt.