[Debatte] Systeme, die mit sogenannter Artificial Intelligence (AI) arbeiten, müssen anhand von großen Datensätzen trainiert werden, etwa anhand von Bilddatenbanken. Das kann gesellschaftlich problematisch sein, etwa wenn es um den Einsatz im Bereich Gesichtserkennung geht. Es kann aber auch für Kunstschaffende problematisch werden, wenn urheberrechtlich geschützte Werke als Grundlage für AI Bildgeneratoren genutzt werden. Tools wie Imagen, Stable Diffusion, DALL-E und MidJourney greifen auf online zugängliche Fotos, Gemälde, Zeichnungen oder Digitalkunst als Datenbasis zurück. Im Kulturbereich betrifft das beispielsweise die Online-Sammlungen von Museen. Aber auch die Bilder, die Museumsbesucher in Social Media posten, dienen den AI Bildgeneratoren als Lernmaterial. Diese Datenbasis wirft die Frage auf, ob die mit den AI Tools generierten Bilder einen Überblick bieten können, wie ein Museum typischerweise auszusehen hat? Und folgt auch die AI-generierte Kunst, die in den digitalen Ausstellungsräumen zu sehen ist, bestimmten Stereotypen?
Bilder von dem, was sein könnte
Die Bilder hier im Beitrag könnten Fotos von Museen sein. Zumindest sehen die dargestellten Gebäude wie Museen aus, die sich irgendwo auf der Welt befinden, vielleicht in Frankreich, Norwegen oder Südafrika. Tatsächlich zeigt keines der Bilder ein Museum. Es sind nicht mal echte Gebäude. Und es sind auch keine Fotos. Alle Bilder wurden mit dem AI Bildgenerator Stable Diffusion erstellt.
In den letzten Wochen ist das Netz geradezu explodiert mit Bildern, die von AI Bildgeneratoren erstellt wurden. Im Prinzip gibt es online frei zugängliche AI Tools schon seit einigen Jahren. Bisher war allerdings die Bildqualität eher nicht besonders gut. Das hat sich mit neueren Tools wie DALL-E, Stable Diffusion oder MidJourney nun geändert. Sie erreichen qualitativ bessere Ergebnisse als ihre Vorgänger. Dies liegt zum einen an einer größeren Vielfalt von Trainigsmodellen, mit denen die AI Bildgeneratoren nun arbeiten. Zum anderen ist aber auch eine größere Verfügbarkeit von Trainingsdatensätzen dafür verantwortlich, dass die nun erzeugten Bilder teils fast Fotoqualität erreichen.
Als Grundlage für die verwendeten Datensätze werden Bilder genutzt, die unter einer Creative Commons Lizenz stehen oder die gemeinfrei sind. Einige Museen und andere open GLAM Institutionen stellen diese Inhalte selbst über ihre Online Sammlungen zur Verfügung. Teils enthalten diese auch urheberrechtlich geschützte Kunstwerke. Die Trainingsdatensätze unterscheiden hier jedoch nicht zwischen eigentlich geschützten Werken und denen, die frei genutzt werden dürfen. Alles Bildmaterial landet via Data-Mining im Datensatz. Dieser Prozess betrifft natürlich nicht nur Online Sammlungen von Kulturinstitutionen sondern das gesamte Netz. Im Bezug auf Museen werden auch Bilder aus Social-Media-Plattformen analysiert und ausgewertet, von den Institutionen selbst ebenso wie von ihren Besuchern. Das Ergebnis ist, dass die von den AI Tools genutzten Datensätze eine mittlerweile recht genaue Vorstellung davon haben, welche Kunst sich in Museen befindet. Darüber hinaus können sie aber auch eine Vorstellung davon reproduzieren, wie Museumsgebäude in verschiedenen Baustilen aussehen und wie Ausstellungsräume typischerweise gestaltet sind.
Wie funktionieren AI Bildgeneratoren?
Ziel bei grafischen AI Tools wie DALL-E oder MidJourney ist es, das System mit Datensätzen so zu trainieren, dass neue Ergebnisse erzeugt werden können, die sich so nah wie möglich an den Trainingsdaten orientieren. Ein bekanntes Beispiel ist, dass AI Tools mit einer Datenbank aus Gesichtern trainiert werden, um dann neue Gesichter zu erzeugen. Im Idealfall ist das Ergebnis so gut, dass man ein AI-generiertes Gesicht nicht von den Fotos real existierender Menschen unterscheiden kann. (siehe dazu bei Twitter der Account @wedontexisthere)
Die beiden wichtigsten Modelle für generative AI sind Generative Adversarische Netzwerke (GANs) und Diffusionsmodelle. Bei einem GAN Modell gibt es einen Generator, der auf der Grundlage eines Trainingsdatensatzes eine Ausgabe erstellt, und einen Diskriminator, der diese mit den Trainingsdaten vergleicht. Im Abgleich wird ermittelt, wie stark die neu generierte Ausgabe den Ausgangsdaten ähnelt, um ein möglichst ähnliches Ergebnis zu finden. Die Schwäche des Systems ist, dass der Diskriminator zu streng arbeiten könnte und es dann nicht zu einem Ergebnis kommt, weil keine Ausgabe als ähnlich genug eingestuft wird. Oder der Generator könnte sich zu sehr anpassen, so dass der Diskriminator zwar ein sehr ähnliches Ergebnis zulässt, dies aber zu nah am Original-Datensatz und daher keine wirkliche Neuschöpfung ist.
Die neuen AI Bildgeneratoren wie Stable Diffusion basieren nicht auf einem GAN sondern arbeiten mit einem Diffusionsmodell. Bei der Diffusion wird ein Input, etwa ein Foto von einem Museum, durch Hinzufügen von Rauschen verfälscht. Ein Neuronales Netz wird dann darauf trainiert, das Bild durch Umkehrung des Verfälschungsprozesses wieder herzustellen. Die AI muss also „raten“ wie der Original-Input ausgesehen hat und nutzt einen Bilddatensatz, zum Beispiel vorhandene Bilder von Museen, um sich daran zu orientieren. Das AI Tool ist dabei nicht in der Lage, einen Original-Input komplett zu rekonstruieren. Das Ergebnis wird also immer eine neue Version eines Motivs sein. Wenn man beispielsweise in Stable Diffusion per Texteingabe ein Bild des Natural History Museum in London erstellen lassen möchte, wird das generierte Bild nie einem realen Foto des Museums entsprechen. Das Ergebnis ist aber nahe genug an den Vorlagen im Trainingsdatensatz, dass man das Museum wiedererkennt.
Unheimliche Ähnlichkeit
Vermutlich sind wir mit musermeku schon längst selbst Teil des Bilder-Pools geworden, aus denen sich AI Bildgeneratoren bedienen. Immerhin posten wir auf unserer Website und in Social Media eine Vielzahl an Fotos von Museumsgebäuden und von Ausstellungsräumen in Museen. Unsere Bilder sind öffentlich im Netz abrufbar und durch Metadaten auch mit Schlagworten versehen, was es nicht nur Suchmaschinen wie Google erleichtert, unsere Inhalte für Nutzer auffindbar zu machen. Auch AI Bildgeneratoren profitieren von den Online-Bildern – natürlich nicht nur von unseren, sondern von allen Menschen, die ihre Bilder ins Netz stellen. Da viele Museumsbesucher ähnlich Bilder wie wir machen, könnte man also annehmen, dass die AI Bildgeneratoren eine gute Datenbasis haben, um Bilder zu Museumsbegriffen zu erstellen.
Um diese Annahme zu testen, haben wir einige allgemeine Museumsbegriffe bei Stable Diffusion eingegeben. Wir haben mit vielem gerechnet, aber die hohe Treffsicherheit des AI Bildgenerators hat uns dann doch überrascht: Es tauchten nach mehreren allgemeinen Eingaben immer wieder Bilder auf, zu denen wir auf musermeku.org in der Vergangenheit ein Pendant veröffentlicht haben. Einige der Bilder, die Stable Diffusion generiert hat, sind vom Motiv so nah an unseren eigenen Fotos, dass man fast denken könnte, man hätte sie gezielt nachgestellt. Tatsächlich waren die AI Bildzwillinge aber die Ergebnisse einer ganz allgemein gehaltenen Vorgabe wie „museum exhibition with sculptures“. Es wurde weder spezifiziert, wie der Ausstellungsraum gestaltet sein soll, noch wurden Angaben gemacht, wie die Skulpturen aussehen sollen. Auch ein Name des Museums wurde nicht angegeben. Die unheimliche Ähnlichkeit der AI Bilder zu unseren eigenen Fotos ist gleichzeitig faszinierend und erschreckend für uns.
Bilder: Erstellt mit Stable Diffusion von Angelika Schoder
Wir brauchen deine Unterstützung
Werde jetzt Mitglied im musermeku Freundeskreis: Erhalte wöchentlich News zu Kunst und Kultur direkt per E-Mail, sichere dir den Zugang zu exklusiven Inhalten und hilf uns dabei, unsere Betriebskosten für musermeku.org zu decken.
Bei musermeku schreibt Dr. Angelika Schoder über Themen zur Digitalisierung, über Museen und Ausstellungen sowie über Reise- und Kultur-Tipps.
Linktipps
Der Newsletter zu Kunst & Kultur
In unserem kostenlosen Newsletter informieren wir einmal im Monat über aktuelle Neuigkeiten aus dem Kunst- und Kulturbereich.