Der digitale Butler ist da – und er kann nicht nur chatten. Die neue Generation von KI-Systemen greift selbst zur digitalen Maus, öffnet Programme, recherchiert im Netz und erledigt komplexe Aufgaben in Eigenregie. Mit der Vorstellung von Gemini 2 läutet Google eine neue Ära der KI ein: Aus passiven Chatbots werden aktive digitale Assistenten. Aber sind wir bereit, unseren digitalen Alltag in die Hände von KI-Agenten zu legen?
Wenn ich eine Anmoderation schreibe, ist das ein komplexer Vorgang. Ich bereite mich intensiv auf das Thema vor, das hier in TTB vorkommt, ganz allgemein, aber auch besonders mit dem aktuellen Beitrag. Ich überlege mir, wie wir vom vorherigen zum nächsten Beitrag eine Brücke bauen können und welche Aspekte besonders interessant und relevant für Sie als Hörer sein könnten. Eine Aufgabe, die KI so bislang nicht erledigen kann, weil es zu viele Prozesse sind.
Genau das könnte KI bald für mich erledigen – oder mich zumindest dabei unterstützen. Die neueste Generation von KI-Systemen kann selbstständig im Internet recherchieren, Termine koordinieren und eigenständig komplexe Aufgaben erledigen.
Was genau sind Agenten?
Bisherige KI-Systeme warten einfach auf unsere Eingaben (dem sogenannten „Prompt“) und antworten dann, machen genau das, was wir sagen. Doch jetzt kommt eine neue Generation von KI-Agenten: Die können selbstständig aktiv werden – fast wie ein persönlicher Assistent aus Fleisch und Blut. Sie können Programme bedienen, im Netz suchen, Dinge bestellen… Sie setzen sich quasi für uns an den Rechner.
Ein Beispiel: Du sagst dem Agenten „Ich brauche nächste Woche einen Zahnarzttermin“. Ein normaler Chatbot könnte damit nicht viel anfangen, er würde Ratschläge geben, wie man gewöhnlich einen Termin bekommt. Ein KI-Agent hingegen recherchiert in Google Maps und im Netz nach Zahnärzten, fragt vielleicht noch, ob es einer in der Nähe sein soll oder ein bestimmter, und versucht dann, selbständig einen Termin zu buchen.
Der Agent kann dabei meine Präferenzen berücksichtigen, etwa wenn ich lieber nachmittags zum Zahnarzt gehe, kann auch in meinen Terminkalender schauen oder kennt sowieso meinen Zahnarzt, zu dem ich immer gehe.
Das Besondere ist also: Solche Agenten verstehen nicht nur, was wir wollen, sondern können auch eigenständig handeln, um unsere Wünsche zu erfüllen.
Google Gemini 2.0
Google hat diese Woche mit Gemini 2 eine neue Generation von KI vorgestellt.
Dieses neue Gemini 2 ist tatsächlich ein Schritt in diese Richtung, auch wenn wir noch ganz am Anfang stehen. Das System kann zum Beispiel Bilder und Videos analysieren und darauf reagieren – und zwar nicht nur beschreiben, was es sieht, sondern auch verstehen, was dort passiert. Das kann ChatGPT zwar auch schon, doch Gemini geht da weiter.
Ein Beispiel: Wir zeigen Gemini 2 ein Foto von einem kaputten Fahrrad und fragen, was nicht stimmt. Das System erkennt nicht nur den Defekt, sondern kann Schritt für Schritt erklären, wie sich das Problem beheben lässt. Oder wir zeigen der KI eine mathematische Aufgabe, auf Papier oder auf einem Tablet. Gemini 2 löst sie nicht nur, sondern erklärt den Lösungsweg so, dass wir ihn wirklich verstehen.
In diesem Zusammenhang besonders interessant ist, dass Gemini 2 bereits verschiedene Programme bedienen kann. Es kann zum Beispiel eine Tabellenkalkulation öffnen, dort Berechnungen durchführen und danach die Ergebnisse präsentieren. Oder es hilft Ihnen beim Erstellen einer Präsentation, indem es nicht nur den Text schreibt, sondern auch passende Grafiken erstellt.
Und das ist erst der Anfang.
Agenten werden den Alltag verändern
Aber welche Veränderungen wird das für unseren Arbeitsalltag bedeuten?
Das verändert eine Menge. Stell dir vor, du kommst morgens ins Büro, und dein digitaler Agent hat schon die wichtigsten E-Mails vorsortiert und die ersten Antworten vorbereitet. Er hat bereits die Daten für deine Präsentation zusammengetragen und einen ersten Entwurf erstellt.
Diese KI-Agenten werden vor allem die zeitraubenden Routineaufgaben übernehmen. Sie werden dir helfen, Recherchen durchzuführen, Dokumente zu erstellen und zu überarbeiten, Termine zu koordinieren. Das Besondere dabei: Du musst nicht mehr ständig Anweisungen geben, sondern der Agent versteht den größeren Zusammenhang und arbeitet selbstständig.
Im Augenblick arbeiten mehrere Unternehmen daran: Google mit seinem Gemini, Anthropic hat mit „Claude“ einen Chatbot am Start, der schon einen PC bedienen kann, in ersten Zügen zumindest. Und auch OpenAI soll daran arbeiten, seinen Chatbot ChatGPT mit einem Browser zu verbinden – und dann ist nahezu alles möglich und denkbar.
Die Risiken beim Einsatz von Agenten
Aber wo liegen die Risiken von solchen Agenten, das ist doch alles nicht mehr transparent, werden wir nicht auch abhängiger und es fließen noch mehr Daten überall hin?
Wenn KI-Agenten selbstständig für uns handeln, geht das nicht ohne Zugang zu vielen Daten und vor allem Vertrauen. Das ist wie wenn du einem persönlichen Assistenten deine Passwörter und Kontodaten anvertraust.
Besonders kritisch ist die Frage der Daten. Wenn ein Agent für dich Termine macht oder E-Mails beantwortet, muss er ja auf deine persönlichen Informationen zugreifen. Bei Google, Microsoft und anderen Tech-Konzernen landen dann noch mehr Daten über unser Leben. Und wir wissen oft nicht genau, was damit passiert.
Ein zweites Risiko ist die wachsende Abhängigkeit. Wenn die Agenten uns immer mehr Arbeit abnehmen, verlernen wir vielleicht wichtige Fähigkeiten. Stell dir vor, dein digitaler Assistent fällt aus – und plötzlich musst du all diese Aufgaben wieder selbst erledigen.
Und dann ist da noch die Frage der Kontrolle: Wenn ein Agent eigenständig Entscheidungen trifft, wie können wir sicher sein, dass er in unserem Sinne handelt? Wir müssen also aufpassen, dass wir die Kontrolle behalten und immer nachvollziehen können, was unsere digitalen Helfer eigentlich tun.