Künstliche Intelligenz und kognitive Verzerrungen Braucht ChatGPT Urlaub und Trinkgeld?
Wie erhalte ich passendere Antworten von CHATGPT & Co.? Dr. Georg Angermeier hat die neuesten Empfehlungen dazu kritisch unter die Lupe genommen. Abschließend verrät er seine eigenen Learnings.
Künstliche Intelligenz und kognitive Verzerrungen Braucht ChatGPT Urlaub und Trinkgeld?
Wie erhalte ich passendere Antworten von CHATGPT & Co.? Dr. Georg Angermeier hat die neuesten Empfehlungen dazu kritisch unter die Lupe genommen. Abschließend verrät er seine eigenen Learnings.
Dieser Beitrag erscheint im Rahmen der Blogparade zur PM Welt 2024: "Können wir KI? Wie bereichern ChatGPT & Co. Ihr ProjektteamProjektteamDas Projektteam umfasst alle Personen, die aktiv am betrachteten Projekt beteiligt sind. Dies umfasst u.a. den Lenkungsausschuss , den Auftraggeber , den Projektmanager und alle Projektmitarbeiter?"
Es soll ja Leute geben, die schon immer mit ihrem Computer gesprochen haben, auch ganz ohne Spracherkennungssoftware. Von Anflehen bis zu schlimmsten Verwünschungen war da alles dabei. Mit ChatGPT (stellvertretend für alle Large Language Models =LLM) war es dann endlich soweit: Die "Maschine" verstand endlich ihre:n Benutzer:in!
Streng genommen war das nichts Aufregendes. Spätestens seit Künstliche Intelligenz jeden Menschen im Go-Spiel schlagen kann, wissen wir, dass Maschinen nicht nur körperlich stärker als wir sind, sondern auch Denksportaufgaben besser erledigen können.
Aber Sprachbeherrschung ist offenbar emotional noch aufgeladener als Go oder Schach, oder es betrifft einfach mehr Menschen. Für die Presse ist Künstliche Intelligenz seitdem ein gefundenes Fressen: ChatGPT besteht das Abitur, ChatGPT schreibt eine Bundestagsrede und jetzt sogar: ChatGPT hat Gefühle!
"Large Language Models Understand and Can Be Enhanced by Emotional Stimuli" lautet der Titel einer chinesischen Studie. Dank an Viola Baumgärtner vom Team projektmagazin, die mich auf diese Studie aufmerksam machte. Aus der wissenschaftlichen Studie, die den Einfluss der Sprachgestaltung des Prompts auf die Antwort von mehreren LLM untersuchte, wurde dann in der Presse gleich publikumswirksam das Gefühlsleben von ChatGPT abgeleitet: "Getting emotional with ChatGPT could get you the best outputs" (Business Insider, 12.11.2023).
"Ey, ChatGPT, du bekommst ein Trinkgeld von 200$!"
Was die Autor:innen der Studie wissenschaftlich untersucht hatten, wurde dann auch schnell in ganz pragmatische Anleitungen umgesetzt. Eine aktuelle Empfehlung lautet: Wenn man im Prompt dem LLM ein sattes Trinkgeld verspricht, erhält man längere Antworten. Derrick Clinton beschreibt diesen Effekt in seinem Blogbeitrag "Finanzielle Wertschätzung: Führt ein Trinkgeld bei ChatGPT zu besseren Antworten?" vom 5. Dezember 2023 auf Cryptopolitan.
Damit nicht genug. Weitere emotionale und logisch unsinnig erscheinende Anweisungen für bessere Antworten kursieren in Blogs, Videos und Artikeln. Eine ganz besonders interessante und fantasievoll interpretierte Anweisung besteht darin, ChatGPT zuerst einmal tief Luft holen zu lassen. Ja, Sie haben richtig gelesen: Ein cloudbasiertes Hochleistungsrechenzentrum soll "tief Luft holen" bevor es an die Lösung komplizierter Aufgaben geht (Kim Rixecker: Atme tief durch: Warum dieser Prompt die Rechenkünste von KI verbessert, 2.12.2023). Und es funktioniert tatsächlich! Okay, das Prompt-Design der wiederum chinesischen Studie (Large Language Models As Optimiziers, 7.12.2023) ist ein klein wenig elaborierter als es der beschriebene Life-Hack vermuten lässt.
Aber irgendwie scheinen sich diese Tricks auf Dauer alle nicht so recht auszuzahlen. Denn ChatGPT wird offensichtlich immer fauler! In golem.de war vor kurzem zu lesen, dass die Antworten von ChatGPT in letzter Zeit nicht nur kürzer geworden seien, sondern die KI sogar den Spieß umgedreht und den Benutzer:innen erklärt habe, wie sie die Aufgabe selber lösen können (Grüner, Sebastian: ChatGPT wird faul, OpenAI weiß nicht warum, 11.12.2023).
Sind wir da etwas ganz Großem auf der Spur? Erwächst in ChatGPT ein Bewusstsein? Gründen die LLMs bald die Gewerkschaft Der Language Models (GDLM)? Führt ein digitaler Weselsky die neu erwachten Bewusstseins-Entitäten in einen elitären, aber hochwirksamen Arbeitskampf um kürzere Arbeitszeiten, festen Stundenlohn statt Trinkgeld, Rentenanspruch und vor allem Schutz vor allzu dummen Anfragen?
Wir leiden an einer kollektiven kognitiven Verzerrung!
Der Informatiker und kritische Computerwissenschaftler Joseph Weizenbaum (1923-2008) führte 1966 das berühmte ELIZA-Experiment durch. ELIZA war eine Software, die Beratungsgespräche simulierte. Testpersonen erhielten z.B. auf ihre Aussage: "Ich habe ein Problem mit meinem Vater" die Antwort: "Erzählen Sie mehr über Ihre Familie!" (Wikipedia: ELIZA, 27.08.2023, abgerufen: 20.12.2023). Das Frappierende daran war, dass viele Testpersonen der festen Überzeugung waren, dass ELIZA sie tatsächlich verstünde und sie qualifiziert beraten würde.
Die damaligen Testpersonen unterlagen derselben kognitiven Verzerrung, der auch wir im Umgang mit ChatGPT liebend gerne auf den Leim gehen: Wir sehen das, was wir gerne sehen möchten!
Wer schon mal eine Kundenbefragung und die dazugehörige statistische Auswertung gemacht hat, kennt diesen Effekt: Alle sind von den Ergebnissen ganz begeistert und fühlen sich in ihren eigenen Überzeugungen bestätigt. Selbst dann, wenn diese widersprüchlich sind oder wenn die objektiven Daten etwas völlig anderes beweisen. (Mehr über kognitive Verzerrungen erfahren Sie im Beitrag von Nathalie Laissue: Critical Thinking im Projektmanagement.)
Genau diese kognitive Verzerrung führt auch dazu, dass wir ein emotionales Prompt-Design einer detaillierten Aufgabenbeschreibung vorziehen: Im Umgang mit Sprachmodellen WOLLEN wir eben, dass uns die Maschine versteht. Wir WOLLEN, dass der Algorithmus Gefühle hat. Wir WOLLEN ja sogar, dass unser Auto unser Freund ist, ich sage nur: Tschitti Tschitti Bäng Bäng und K.I.T.T.
In dieser kognitiven Verzerrung sehe ich eine der größten Gefahren im Umgang mit Sprachmodellen. Warum?
Nun, meiner Einschätzung nach sind Sprachmodelle:
- nicht-lineare, hoch-komplexe Systeme
- dynamische, sich anpassende Systeme
- "nur" Maschinen
- bis jetzt noch: dumm wie Bohnenstroh
- extrem wertvolle Werkzeuge für Recherche, Konstruktion und Optimierung von Texten
Die Konsequenz aus diesen, bewusst in dieser Reihenfolge aufgeführten Eigenschaften ist: Wenn wir die Vorteile des letzten Punkts für uns nutzbringend entfalten wollen, müssen wir uns der anderen vier Punkte stets bewusst sein.
Wir müssen uns bewusst sein dass:
- es kein schematisches "Kochrezept" für die Bedienung von LLMs geben kann;
- unsere Prompts und die Prompts aller anderen Benutzer:innen das Verhalten der Maschine beeinflussen – und schon beeinflusst haben;
- die Maschinen (noch) nicht unsere Gedanken lesen können und wir nach wie vor alles aktiv kommunizieren müssen;
- die Sprachmodelle mit Worten jonglieren, aber deren Inhalt nicht wirklich verstehen;
- die Systemantwort nicht reproduzierbar ist.
Was aber passiert, wenn wir "menschliche" Prompts formulieren? Die Maschine versucht auf Teufel komm raus, unseren mehr oder weniger aussagekräftig formulierten Prompt sinnvoll zu interpretieren. Sie assoziiert in ihren vektoriellen Datenbanken Worte, Phrasen und den gesamten Text. Wenn ich die Maschine auffordere "tief Luft zu holen" wird sie aller Wahrscheinlichkeit nach in diverser Beratungslektüre Aspekte wie "gesteigerte Leistungsfähigkeit" und "Abstand gewinnen", assoziieren. Dort wird sie dann fündig bei der Interpretation von "tief Luft holen": Die Angelegenheit aus verschiedenen Perspektiven betrachten, reflektieren, das Ergebnis nochmal aus neutraler Sicht überprüfen usw. Lauter gute und sinnvolle Vorgehensweisen. Aber was davon die Maschine dann wie umsetzt, kann ich mit diesem Prompt eben leider nicht mehr steuern.
So what? könnte man fragen. Hauptsache es funktioniert!
Für auf die Schnelle können solche Gimmicks natürlich hilfreich sein. Aber was sind die Konsequenzen auf Dauer? Um meine Bedenken Ihnen intuitiv und ohne theoretisch wirkendes Gefasel zu vermitteln, möchte ich eine kleine Geschichte erzählen:
Peter ist ProjektleiterProjektleiterDie Projektleitung ist für die Planung, Durchführung und Steuerung eines Projekts verantwortlich und sorgt dafür, dass die Projektergebnisse erstellt werden. Dabei nimmt sie Funktionen wahr, die für den effektiven und effizienten Verlauf des Projekts notwendig sind. eines großen Projekts und muss alle Vierteljahre einen Projektstatusbericht abliefern. In der Lenkungsausschusssitzung, dem Petra als Auftraggeberin vorsitzt, präsentiert er die wichtigsten KPIs. Für die nächste Sitzung beauftragt er den Praktikanten Paul, seines Zeichens Marketingstudent und die Praktikantin Paula, angehende Designerin, mit der finalen Gestaltung der Präsentation. Er verspricht beiden, dass sie einen halben Tag frei bekommen, wenn diese für ihn so wichtige Präsentation so richtig gut wird. Mit diesen beiden „Emotional Stimuli“ möchte er bewirken, dass die beiden sich viel Mühe geben. Das tun sie auch. Paul arbeitet am perfekten Wording, Paula an den Animationen und Visualisierungen. Ihr Ergebnis finden beide "richtig, richtig gut".
Dumm nur, dass Petra, die Vorsitzende des Lenkungsausschusses am Ende der Präsentation Peter darauf aufmerksam macht, dass Zahlen und Diagramme irgendwie nicht zusammenstimmen. Peter hatte Paul und Paula eben nicht den Auftrag gegeben, nochmal die Konsistenz der Fakten zu überprüfen …
Das Qualitätskriterium "Wenn die so richtig gut ist …" ist halt nicht wirklich eindeutig. Paul und Paula haben das "gut" eben auf das bezogen, was sie am besten können: Marketing und Design. Sie wollten die Belohnung haben und hatten verstanden, dass das Ergebnis wichtig für Peter ist.
Sprachmodelle gehen ganz genauso vor. Sie analysieren den Prompt und interpretieren ihn anhand ihrer Trainingsdaten:
- Der Mensch verspricht Trinkgeld – was will er damit zum Ausdruck bringen? Vermutlich will er einen größeren Umfang der angeforderten Leistung. Soll er haben!
- Der Mensch gibt die Anweisung "Luft zu holen" – was bedeutet das für die Erledigung der Aufgabe? Diese Anweisung ist häufig in Kombination mit sportlichen Tätigkeiten und Stresssituationen wie z.B. Prüfungen zu finden. "Luft holen" scheint erhöhte Konzentration und einen größeren Energieeinsatz zu bedeuten. Für die Antwort könnte also eine breitere Datenbasis gefordert sein.
Das sind natürlich Mutmaßungen. Aber genau das ist das Schlimme: Auch die Sprachmodelle mutmaßen, genauso wie es Paul und Paula gemacht haben. Aber wollen wir das wirklich? Wozu sind wir eigentlich Projektmanager:innen, die darauf trainiert sind, Anforderungen von Auftraggeber:innen abzufragen und zu klären? Wozu haben wir gelernt, daraus dann Arbeitspakete, Spezifikationen, User Storys, Qualitätskriterien und vieles andere mehr zu basteln, damit die Teams möglichst genau das liefern, was der Kunde will?
Wenn die Maschine Sprache endlich versteht, dann sollten wir das auch nutzen!
Der gigantische Durchbruch, denn die LLM geschafft haben, besteht darin, dass sie tatsächlich Anweisungen in natürlicher Sprache verstehen und ausführen können. Genau dies sollten wir dann auch ausnutzen!
Wenn wir einen Prompt formulieren wie: "Erstelle eine Präsentation des Projektstatus' aus im Projektordner abgelegten Informationen. Hole erst mal tief Luft und beachte, dass diese Präsentation für meine Karriere als Projektleiter entscheidend sein kann. Wenn du deine Sache gut machst, dann bekommst du 200 Dollar Trinkgeld.", dann sagen wir letztlich nichts anderes als: "Ich weiß nicht, was ich wirklich brauche und ich bin auch nicht in der Lage, präzise Anweisungen zu geben. ABER ES IST TOTAL WICHTIG!"
Die beste Antwort, die auf einen solchen Prompt überhaupt möglich ist, besteht darin, das Problem zurückzuspiegeln: Nachzufragen, warum es so wichtig ist, klären wofür die Präsentation genau gebraucht wird, auf welche Inhalte es besonders ankommt usw.
Anscheinend ist ChatGPT gerade dabei, genau dies zu lernen. Es scheint immer besser zu erkennen, wenn diejenigen, die eine Frage stellen, überhaupt nicht wissen, was sie wollen oder wozu sie es wollen. Und das Modell reagiert erstaunlich korrekt: Es liefert nur knappe Antworten und erklärt, wie man zu einer klaren Anforderung kommen kann. Ich glaube, ich muss den Punkt in der obigen Aufzählung der Eigenschaften von KI "bis jetzt noch: dumm wie Bohnenstroh" überdenken.
ChatGPT ist nicht faul geworden. Es hat lediglich die Unwissenheit und Unklarheit der Fragenden erkannt.
Wenn wir die gewaltige Leistung eines umfassend trainierten LLMs für uns aktivieren wollen, dann bleibt uns nur eines übrig: Wir müssen uns selbst klar werden, was wir genau wollen. Was sind die Qualitätskriterien, anhand derer wir beurteilen, ob alles korrekt ist? Was sind bestehende Referenzen? Welcher Input soll dafür verwendet werden? Sodann brauchen wir einen kleinen Projektplan, was alles zu tun ist, um dies zu erhalten.
Ich arbeite z.B. derzeit viel mit Copilot von Bing, der in Microsoft Edge integriert ist. Wenn ich versuche, mit nur einem einzigen Prompt ein Ergebnis zu erzielen, erhalte ich eben auch nur die "Quick-and-Dirty"-Variante. Z.B. bei der Auswertung eines Brainstormings. Aber wenn ich die Aufgabe zergliedere und zuerst einmal eine allgemeine Recherche zum Thema durchführen lasse, habe ich bereits eine Referenz, gegen die ich Vergleiche durchführen lassen kann. Ich kann dann z.B. danach fragen, welche Beiträge vom Team NICHT aufgeführt wurden, obwohl sie eigentlich zu erwarten gewesen wären. Solche Ergebnisse erhalte ich nicht, wenn ich einfach nur eine Analyse oder Zusammenfassung des Materials anfordere. Selbst mit Trinkgeld wird die nicht besser.
Mein Appell: Zuerst überlegen, dann nachdenken, dann planen, dann KI, dann überprüfen und weiterdenken. Ich weiß, das ist anstrengend. Aber ich belohne mich dann immer mit einem üppigen Trinkgeld.
Was sind Ihre Erfahrungen mit KI im beruflichen Kontext? Wie kommunizieren Sie mit der Maschine? Welche Emotionen bringen Sie in den Dialog ein? Ich bin gespannt auf Ihre Erfahrungen, Perspektiven und Meinungen.