Künstliche Intelligenz: Fast Food für die Seele

people

Dr Jan Pinkava, Leiter des Animationsinstituts, ist seit vielen Jahren teil der Unterhaltungsbranche. In den letzten Jahren entwickelte sich allerdings eine neue Technologie, die kreative Arbeit so, wie wir sie kennen, von Grund auf verändern wird. Pinkava teilt hier seine Gedanken zum Thema Küntliche Intelligenz in der Kunst.

„Ein Bild sagt mehr als tausend Worte“, besagt ein altes Sprichwort, das darauf hinweist, dass ein Bild, insbesondere ein bewegtes Bild, nicht nur eine komplexe Idee ausdrücken, sondern auch eine Geschichte erzählen kann. Genau dies tun wir an der Filmakademie Baden-Württemberg.

 

Das Internet ist gefüllt mit Abermilliarden von Worten und Bildern. Zahlen, die das menschliche Vorstellungsvermögen überschreiten. Diese Anhäufung menschlichen Schreibens und Bildermachens lässt sich mit den unermesslichen Kohlenstoffvorkommen vergleichen, die in Form von Kohle und Öl die industrielle Revolution und unsere darauf fußende, nicht nachhaltige Wirtschaft angetrieben haben. Nun, im Informationszeitalter, in dem alles in Daten umgewandelt wird, werden Wörter und Bilder wie Rohstoffe abgebaut, um die datenhungrigen Maschinen zu versorgen, mit denen unser modernes Leben verflochten ist. Wir waren gezwungen, merkwürdige neue Worte zu lernen. Die Veränderung begann langsam und auf einmal ging es ganz schnell.

 

Das menschliche Verknüpfen von Worten und Bildern über Crowdsourcing-Dienste schuf die riesigen Datenbanken, die notwendig waren, um die sogenannten neuronalen Netze mit Deep Learning zu trainieren. Und diese Netze konnten bald zuverlässig Katzen, Hunde, Schuhe und Handtaschen erkennen – eine wirklich beachtliche Leistung.

 

Der Durchbruch kam mit der Entwicklung sogenannter Transformer, die nicht nur die Muster in den Daten, sondern auch deren Kontext erlernten. Dies löste den Boom in der Spracherkennung, der Gesichtserkennung und der maschinellen Übersetzung aus, der unser Leben grundlegend verändert hat.

 

Von fehlenden Wörtern zu Magie: Der Aufstieg der Generativen KI

Large Language Models (LLMs) auf Basis sogenannter Generative Pre-Trained Transformer (GPT) wurden durch „selbstüberwachtes Lernen“ trainiert. Dabei bringt sich die Maschine selbst bei, fehlende Wörter in riesigen Mengen von Textdaten zu erraten, ohne dass menschliches Eingreifen erforderlich ist.

 

Es stellte sich heraus, dass transformerbasierte LLMs in der Lage sind, unerwartetes „emergentes Verhalten“ zu zeigen, das über ihr ursprünglich vorgesehenes Training hinausgeht. Je größer die Modelle, desto komplexer ihr Verhalten - der Wettlauf um immer größere Datenmengen hatte begonnen. Einer Schätzung zufolge werden hochwertige, von Menschen erstellte Textdaten im Internet bis etwa 2028 erschöpft sein.

 

Nun können KI-Systeme, wie ChatGPT und Gemini, Texte in beliebiger Menge und zu jedem erdenklichen Thema und Format erzeugen – seien es Computercodes, Kochrezepte oder Drehbücher. Ein verlockendes Angebot, wenn man gerade Unterstützung bei einer Programmieraufgabe benötigt, eine spontane Kochidee sucht oder unter Zeitdruck an einem ersten Konzept arbeitet. Doch die Systeme können auch vollständigen Unsinn erzeugen.

Mit übermenschlicher Geschwindigkeit erstellt generative KI wunderbare Collagen aus den Werken von Mensch und Natur. Wer braucht noch Künstler*innen?

 

Forscher*innen arbeiten weiterhin daran, zu verstehen, wie die von ihnen entwickelten großen Sprachmodelle tatsächlich funktionieren, um deren „Halluzinationen“ zu beheben.

 

Wir haben bereits erlebt, wie generative KI-Systeme – mit Namen wie Stable Diffusion, DALL-E, Midjourney, Imagen, Runway und Sora – innerhalb kürzester Zeit aus wenigen Worten, in Form von Prompts, beeindruckende Bilder, ja sogar bewegte Bilder herbeizaubern können. Es ist quasi Zauberei, denn wir verstehen weder, was es ist, noch wie wir es richtig kontrollieren können.  

 

Manchmal sind diese Bilder unheimlich oder seltsam, wie der Surrealismus von DALL-Es Namensvetter Salvador. Ihre raffinierten Details, fotorealistischen Texturen und Lichtverhältnisse, rufen die alternative Realität eines Traums oder Albtraums hervor. Doch diese Seltsamkeit ist (meist) optional, denn es lassen sich auch bezaubernde Motive erschaffen, die nahezu jede Nuance der Fotografie oder jeden Grafik- und Malstil nachbilden können.

 

Mit übermenschlicher Geschwindigkeit erstellt generative KI (GenAI) wunderbare Collagen aus den Werken von Mensch und Natur.

 

Dieses Machtgefühl ist berauschend. Wer braucht noch Künstler*innen? Die Bildsprache ist „demokratisiert“. Denn nun ist es doch möglich, mit der Magie der KI jedes Bild zu erschaffen, das wir uns vorstellen können.

 

Das Diplomprojekt THE AMAZING KITSUVERSE widmet sich ganz der KI - nicht nur unterstützten verschiedene KI-Tools die Studierenden in der Produktion, sondern auch die Story dreht sich um die Schönheit und Gefahren der Künstlichen Intelligenz (Klicken zum Vergrößern).

 

Aber was können wir uns überhaupt vorstellen? Schnell, denken Sie an etwas! Sehen Sie es vor Ihrem inneren Auge? Nein? Kein Problem. Die magische Maschine kann das Bild für uns erschaffen. Geben Sie einfach ein paar Worte ein, die beschreiben, was Sie sich vorstellen. Wünschen Sie sich etwas – der Zauber kann beginnen!

 

So läuft das. Und wie auch im Märchen, in dem ein erfüllter Wunsch oft eine unerwartete Wendung nimmt, wird auch hier der Zauber bald verblassen. Nicht, weil die Bilder nicht beeindruckend wären oder die Technik nicht verblüffend. Sondern weil ein Bild mehr sagt als tausend Worte. So lässt sich zwar mit wenigen Worten ein Bild generieren, aber es braucht doch viele Worte – vielleicht tausend oder mehr –, um genau dieses eine Bild zu erschaffen, das man wollte. Oder zumindest etwas Ähnliches, falls man sich noch erinnert, was es ursprünglich war.

 

Alternativ kann man schlichtweg akzeptieren, was die Maschine liefert, und sich in den frühen Feierabend verabschieden.

 

KI-Prompts sind eine Kunst für sich — aber reicht das?

Wenn man nur drei Wünsche frei hätte, könnte es auch passieren, dass man mit einer Wurst auf der Nase endet. Doch es handelt sich hier nicht um ein Märchen. Man kann sich nämlich immer weiter Neues wünschen, Misslungenes verwerfen und die Prompts verfeinern, um das Bild schrittweise zu verbessern, bis es gut genug ist – zumindest in den Augen der Kund*innen. Mit Beharrlichkeit und Zeit verbessert sich dann auch die eigene Fähigkeit der Maschine Anweisungen zu geben, bis schließlich die Deadline vor der Tür steht. Abgang der Künstler*innen, Auftritt der Prompt-Ingenieur*innen.

 

Für manche Aufgaben, wie Musikvideos und Logos, mag das ausreichen. Doch Profis, die auf Feedback reagieren müssen und zuverlässige Werkzeuge für spezifische Ergebnisse benötigen sowie Künstler*innen, die genau wissen, was sie wollen und keine Kompromisse eingehen, suchen weiterhin nach Möglichkeiten, die Vorstellungskraft der Maschine kontrollierbarer, vorhersehbarer und besser bearbeitbar zu machen.

 

Unterdessen warten die großen Hollywood-Studios, deren Existenz auf dem Spiel steht, darauf, dass die amerikanischen Gerichte über zahlreiche Urheberrechtsklagen entscheiden. Es bringt also nichts, an Künstler*innen zu sparen, wenn die Kosten für Anwält*innen am Ende ein Vielfaches betragen. Autor*innen, Künstler*innen und Führungskräfte erkennen, dass das volle Potenzial von GenAI noch in der Zukunft liegt.

 

Tools denken nicht. Das ist immer noch unsere Aufgabe.

An der Filmakademie gilt: “Learning by doing”. Die Studierenden werden dazu ermutigt, mit KI-Tools zu experimentieren. Dadurch sollen sie das nötige Verständnis und die Kompetenzen erlangen, in ihrer eigenen Arbeit fundierte, ethische Entscheidungen zu treffen. Unser Unterricht fördert das Stellen von Fragen: Hilft das KI-generierte Bild oder Drehbuch dabei, Ideen auszudrücken? Kann dieses Werkzeug dabei helfen, die zugrundeliegenden Absichten zu klären oder besser zu kommunizieren? Was willst du damit sagen? Warum ist dieses Thema für dich und dein Publikum wichtig?

 

Wenn die Studierenden wissen, warum sie Töne oder Bilder schaffen — zu welchem Zweck und als Teil welcher künstlerischen Absicht — dann sind sie besser darauf vorbereitet, die Werkzeuge der generativen KI zu nutzen oder auch nicht, um so die Fragen zu beantworten, die für sie und das Publikum wichtig sind.

 

Der Film SENSUAL, besteht aus über 800 handgemalten Aquarellbildern, alle von nur einer Studentin gemalt. Um ein Projekt in diesem Ausmaß möglich zu machen, erstellte das Team mit KI die Inbetween-Frames.

 

 

Die Frage nach dem „Warum“ wird von der Künstlichen Intelligenz nicht beantwortet. Noch nicht.

 

Es wurde viel virtuelle Tinte über die fehlende Moral der Maschinen vergossen, über ihren Mangel an Geschmack und Verständnis für Wahrheit oder Unwahrheit; all das ist wahr und wird es wohl bleiben, bis wir verstehen, wie man eine Hirnoperation an einer Blackbox durchführt, oder bis Roboter lernen, unter uns zu leben und unser menschliches Dasein zu teilen.

 

Dies erinnert uns daran, nicht zu erwarten, dass maschinell erzeugte Texte, Töne oder Bilder mehr Bedeutung enthalten, als jene, die wir ihnen vorgeben oder die wir uns vorstellen.

 

Wenn wir nur Spektakel und Unterhaltung suchen (und wer braucht dies nicht manchmal?), dann kann uns diese magische Maschine mehr als ausreichend damit versorgen. Wenn wir jedoch wollen, dass unsere Kunst eine menschliche Bedeutsamkeit enthält, dann liegt es immer noch an uns, den „Menschen im Loop“.

 

Werden wir in einem unendlichen Spiegelkabinett gefangen sein, in dem gebrochene Reflexionen keine neuen Einsichten bieten? Oder werden wir aus dem Leben schöpfen, unserem eigenen Innenleben und dem der Anderen? Wird Schreiben zu einer Zusammenfügung von Multiple-Choice-Versatzstücken Test-User-geprüfter IP (Intellectual Property) oder zu einem Ausdruck gelebter menschlicher Erfahrung? Werden wir oder unser Publikum in der Lage sein, den Unterschied zu erkennen?

 

Zumindest sollten wir weder die Stimme der KI nicht als unsere eigene bezeichnen, nur weil wir sie gebeten haben, etwas zu sagen, noch sollten wir unsere Unterschrift unter ein GenAI-Bild setzen, nur weil wir den Prompt geschrieben haben.

 

Wie auch immer wir diese mächtigen Werkzeuge zur Verstärkung unserer eigenen Bemühungen einsetzen, das Denken und Fühlen müssen wir selbst in die Hand nehmen. Es darf nicht der „Effizienz“ der KI überlassen werden.

 

Beitrag teilen