Stell dir vor, eine KI, die nicht nur blitzschnell antwortet, sondern auch wirklich nachdenkt – wie ein Mensch. Genau das hat OpenAI jetzt mit ihrem neuen Modell geschafft. Revolution oder nur Hype?
OpenAI hat ein neues KI-Modell vorgestellt, das komplexe Probleme durchdenkt und dabei sogar in IQ-Tests brilliert. Mit beeindruckenden 83% Erfolgsquote bei der internationalen Mathematik-Olympiade und einem IQ von 120 stellt dieses Modell alles bisher Dagewesene in den Schatten.
OpenAI ist ein Durchbruch gelungen
OpenAI ist das Unternehmen, das die KI offenbar am schnellsten voranbringt. Eun Durchbruch!
Das neue KI-Modell o1 von OpenAI ist anders als seine Vorgänger. Das neue Modell haut nicht gleich eine Antwort raus, sondern „denkt“ nach. Wie ein Mensch. Stellen wir uns für einen Moment vor, wie das ist, wenn wir über eine komplizierte Frage nachdenken. Wir überlegen kurz, was die Frage bedeutet, denken dann nach und geben dann eine durchdachte Antwort. Manchmal überlegen wir auch noch, wie wir das gerade am besten formulieren, je nach Situation. Genau so funktioniert auch o1.
Im Gegensatz zu früheren Modellen wie GPT-4, die blitzschnell antworten, nimmt sich o1 mehr Zeit. Es durchdenkt Probleme Schritt für Schritt, ähnlich wie ein Mensch. Das macht o1 jetzt schon besonders gut in Bereichen wie Mathematik, Naturwissenschaften und Programmierung. Ein Beispiel: Bei einem schwierigen Mathe-Test löste das bisherige Top-Modell GPT-4 nur 13% der Aufgaben. o1 schaffte dagegen beeindruckende 83%.
Das ist ein großer Schritt in Richtung KI, die komplexe Probleme lösen kann.
ChatGPT O1 hat einen IQ von 120
In „Künstlicher Intelligenz“ steckt das Wort „Intelligenz“, natürlich! 😉 Aber kann man denn sagen, wie „intelligent“ ein solches KI-Modell wirklich ist?
Das wurde jetzt untersucht. OpenAIs neues Modell o1 hat in einem offiziellen IQ-Test von Mensa Norway bemerkenswerte Ergebnisse erzielt. Das Modell erreichte einen IQ-Wert von 120, was deutlich über dem menschlichen Durchschnitt von 100 liegt.
Dieser Wert platziert O1 mal eben in den oberen 10% der Bevölkerung hinsichtlich der kognitiven Fähigkeiten, die in diesem Test gemessen werden. Das Ergebnis unterstreicht die fortschrittlichen Fähigkeiten des neuen KI-Modells im logischen Denken und in der Mustererkennung.
Frühere Modelle wie GPT-4 und Claude 3 haben deutlich niedrigere Werte erzielt, so im Bereich 80 bis 90. Also ein erheblicher Fortschritt, der da gemacht wurde:
Allerdings muss man auch sagen, dass der IQ-Test nur einen recht begrenzten Bereich des menschlichen Denkens erfasst. Emotionale Intelligenz oder Kreativität spielen nicht die geringste Rolle dabei.
Wann ist uns KI überlegen?
Stellt sich die Frage: Bedeutet das nun, dass die aktuelle KI uns überlegen ist?
In einigen Bereichen schon. In der Qualifikationsprüfung für die internationale Mathematik-Olympiade hat O1 eine Erfolgsquote von 83% hingelegt. Die KI hat in Physik, Chemie und Biologie das Wissen eines Doktoranden. Außerdem kann O1 auch extrem gut programmieren.
Doch vieles kann O1 auch nicht. Es kann auch nicht eigenständig „neue Hypothesen generieren“ und „Behandlungsstrategien entwickeln“, sondern immer nur basierend auf Mustern aus den Trainingsdaten den Output generieren.
Auch ein komplexer Taschenrechner bleibt ein Taschenrechner. Ich halte es für wirklich wesentlich und wichtig, diese Unterschiede zu verstehen um solche KI-Modelle zielgenau nutzen zu können.
Noch nicht auf menschlichem Niveau
Auch, wenn das neue KI-Modell O1 komplexe Reasoning-Fähigkeiten besitzt, fehlen ihm doch immer noch Bewusstsein, Emotionen und vor allem natürlich Lebenserfahrung: Kernelemente menschlichen Denkens, daher bleibt „Nachdenken“ in diesem Zusammenhang immer in Anführungszeichen.
Das neue KI-Modell O1 verarbeitet Daten und erkennt Muster, „denkt“ aber nicht im menschlichen Sinne. O1 mag in spezifischen Bereichen beeindruckende Leistungen erzielen, ist aber trotzdem noch weit davon entfernt, die Komplexität und Vielseitigkeit menschlicher Intelligenz zu erreichen. Noch.
Was man wissen muss: Der Rechenaufwand für dieses „Schleifendrehen“ und Dinge von verschiedenen Seiten betrachten ist deutlich höher. Das System ist langsamer und teurer als die Vorgängermodelle und ihm fehlen auch wichtige Funktionen wie Bilderkennung. Man kann eben – noch – nicht alles haben.