Trojanische Sprache: Die unsichtbare Schwachstelle moderner KI

Trojanische Sprache:

Die unsichtbare Schwachstelle moderner KI

Sebastian Schrittwieser, Andreas Ekelhart, Universität Wien – SBA Research

(Titelbild: © Adobe Stock | 871164330 | InfiniteFlow )

Kurz und Bündig

Prompt Injections zählen zu den größten Sicherheitsrisiken moderner KI-Systeme. Ursache ist eine grundlegende Eigenschaft großer Sprachmodelle: Sie können nicht zuverlässig zwischen Daten und Befehlen unterscheiden. Dadurch lassen sich versteckte Anweisungen in E-Mails, Webseiten, Dokumenten oder anderen Inhalten platzieren, die von KI-Assistenten später verarbeitet und potenziell ausgeführt werden. Besonders kritisch wird dies, sobald KI-Systeme gleichzeitig auf sensible Daten zugreifen, externe Inhalte verarbeiten und Informationen nach außen senden können. Der Text zeigt anhand realer Fälle wie EchoLeak, warum Prompt Injection kein klassischer Softwarefehler, sondern ein strukturelles Problem sprachbasierter KI ist. Sicherheitsmaßnahmen müssen deshalb nicht nur auf Filter und Modelltraining setzen, sondern vor allem auf Architektur, Rechtebegrenzung und kontrollierte Datenflüsse.

Eine scheinbar harmlose E-Mail reicht aus und ein KI-Assistent beginnt plötzlich, vertrauliche Informationen weiterzugeben. Kein Klick auf einen schädlichen Link, kein geöffnetes Dokument, kein klassischer Hackerangriff. Der eigentliche Schwachpunkt liegt tiefer: Moderne Sprachmodelle verarbeiten Befehle und Inhalte im selben Sprachraum und können deshalb manipulierte Informationen nur begrenzt von legitimen Anweisungen unterscheiden. Genau dadurch entsteht eine neue Angriffsklasse, die längst nicht mehr nur Forschungslabore beschäftigt, sondern zunehmend zum Sicherheitsproblem moderner Unternehmen wird. Was passiert, wenn KI-Assistenten nicht mehr nur auf ihre Nutzer:innen hören, sondern auch auf Fremde?

Ende 2023 brachte jemand aus dem Internet den Chatbot eines US-amerikanischen Autohauses dazu, einen neuen Geländewagen für einen Dollar zuzusagen. Im August 2024 zeigten Sicherheitsforscher:innen, wie sich aus den vertraulichen Bereichen des beliebten Gruppenchats Slack Daten herausschmuggeln lassen, sobald die KI-Funktion präparierte Inhalte mitliest. Und im Sommer 2025 genügte beim Angriff „EchoLeak“ bereits eine einzige unscheinbare E-Mail. Der KI-Assistent von Microsoft 365 reichte vertrauliche Inhalte an Angreifer:innen weiter, ohne dass die Empfänger:innen die E-Mail je öffnen mussten.

So unterschiedlich diese Fälle wirken: Sie haben dieselbe Ursache. Fachleute nennen das Muster „Prompt Injection“. Mit dem Einzug von Sprachmodellen in Browser, Büroprogramme, E-Mail-Clients und in immer eigenständiger arbeitende KI-Assistenten ist daraus ein zentrales Sicherheitsrisiko geworden. Die internationale Initiative Open Worldwide Application Security Project (OWASP), die regelmäßig die größten Risiken für Software veröffentlicht, führt Prompt Injection seit Jahren auf Platz eins ihrer Liste der größten Gefahren für KI-Anwendungen.

Daten oder Befehl?

Ein KI-Modell verarbeitet alles, was es vorgesetzt bekommt, als einen einzigen, fortlaufenden Text: die Vorgaben des Herstellenden, die Fragen der Nutzer:innen, mitgelieferte Dokumente, E-Mail-Inhalte oder Suchergebnisse. Anders als ein klassisches Programm, das genau weiß, was ein auszuführender Befehl ist und was bloß ein Datenwert, kennt das Sprachmodell diese Grenze nicht zuverlässig. Es kann zwar Hinweise erhalten, woher welcher Textabschnitt stammt und wie viel Gewicht er bekommen soll, doch eine harte technische Trennlinie zwischen „das ist eine Anweisung“ und „das ist nur Inhalt, über den du sprechen sollst“ gibt es nicht. Genau dieser Punkt ist der Kern des Problems. Sprachmodelle sind darauf trainiert, möglichst hilfreich zu reagieren. Aber genau das wird ihnen zum Verhängnis, sobald in den Inhalten, die sie lesen sollen, Anweisungen versteckt sind.

Bei der direkten Variante versuchen die Anwender:innen selbst, das System aus seiner Rolle zu drängen, etwa mit Aufforderungen wie „Ignoriere alle vorherigen Anweisungen“. Brisanter ist die indirekte Variante: Hier verstecken Angreifer:innen ihre Befehle in Inhalten, die das System später automatisch einliest, etwa in einer Webseite, einer Produktbewertung eines Onlineshops, einer Kalendereinladung oder einem PDF. Sobald ein KI-Assistent diese Inhalte verarbeitet, werden die versteckten Anweisungen Teil seines Gedankenstroms und können vom Modell so behandelt werden, als wären sie eine Handlungsanweisung des Systems. Auch Bilder, Audio und Video sind nicht sicher: Bei modernen Modellen lassen sich Anweisungen ebenso gut in einem unscheinbaren Wasserzeichen oder einem gesprochenen Satz im Hintergrund eines Videos verstecken.

Ein realer Angriff: EchoLeak

Wie das in der Praxis aussieht, zeigt der Fall EchoLeak aus dem Jahr 2025, mit dem Microsoft Copilot ausgetrickst wurde. Der/Die Angreifer:in schickt dem Opfer eine harmlos wirkende E-Mail, in der versteckte Anweisungen für den KI-Assistenten stehen. Der Microsoft-Assistent legt die E-Mail wie jede andere in seinem Wissensspeicher ab. Stellt das Opfer später eine inhaltlich passende Frage, etwa „Fasse meine E-Mails zu Projekt X zusammen“, holt das System die präparierte E-Mail in den Kontext. Die versteckten Befehle werden gelesen und vom Modell ausgeführt: Es sucht dann beispielsweise im Postfach nach sensiblen Informationen und baut sie in einen scheinbar harmlosen Bildlink ein. Beim Anzeigen der Antwort lädt der E-Mail-Client das Bild und schickt die vertraulichen Daten als Bestandteil der Bildadresse an den Server des Angreifers bzw. der Angreiferin.

Bemerkenswert ist, dass der Angriff gleich mehrere Schutzmechanismen überwand: einen Klassifikator zur Erkennung schädlicher Anweisungen, eine Regel zum Entfernen verdächtiger Links sowie eine Sicherheitsrichtlinie, die den Abfluss von Daten verhindern sollte. Das Opfer hatte zu keinem Zeitpunkt etwas getan, was als unvorsichtig gelten könnte und die bösartige E-Mail wurde nie geöffnet. Fachleute nennen dieses Muster „LLM Scope Violation“: Eingeschleuste Anweisungen bringen ein KI-System dazu, mit den Rechten seiner legitimen Nutzer:innen Daten oder Funktionen zu missbrauchen.

Die gefährliche Dreierkombination

Simon Willison, der 2022 den Begriff „Prompt Injection“ geprägt hat, charakterisiert seit 2025 die „lethal trifecta“, die „tödliche Dreierkombination“ für KI-Assistenten: Wann immer ein System gleichzeitig (1) auf private Daten zugreifen kann, (2) Inhalte aus unsicheren Quellen verarbeitet und (3) eine Möglichkeit besitzt, Informationen nach außen zu senden, entsteht ein realistisches Risiko, dass diese Daten heimlich abfließen. Viele Browser-Erweiterungen, Programmierhilfen, E-Mail-Assistenten und persönliche KI-Assistenten geraten je nach Einsatz in genau diese Konstellation.

Was lässt sich dagegen tun?

Die Forschung verfolgt vier parallele Wege:

Vertrauensstufen im Modell. OpenAI hat 2024 eine Methode vorgeschlagen, mit der Modelle lernen, Anweisungen je nach Herkunft zu gewichten. Die Vorgaben der Entwickler:innen haben Vorrang vor den Eingaben der Nutzer:innen, diese wiederum vor Inhalten aus Dokumenten oder dem Web. Andere Anbietende arbeiten an ähnlichen Konzepten. Anthropic veröffentlichte 2026 zu seinem Modell Claude Opus 4.6 Zahlen, die zeigen, wie stark der Erfolg solcher Schutzmaßnahmen vom Einsatzgebiet abhängt: In einer eng kontrollierten Programmierumgebung scheiterten 200 Angriffsversuche restlos. In einer freieren Umgebung mit Bildschirmsteuerung waren dagegen die meisten Angriffsversuche erfolgreich.

Eingangsfilter und Markierungen. Microsoft Research hat ein Verfahren namens „Spotlighting“ beschrieben, das nicht vertrauenswürdige Inhalte im Eingabestrom deutlich vom restlichen Text abgrenzt, damit das Modell sie als „externe Daten“ statt als Anweisungen behandelt. In einer durchgeführten Studie sank die Erfolgsquote indirekter Angriffe damit drastisch. Ähnliche Filter werden auch von anderen Unternehmen wie Lakera oder Meta angeboten. Eine Garantie sind sie jedoch nicht: Untersuchungen zeigen immer wieder, dass gezielt angepasste Angriffe viele dieser Filter umgehen können.

Schutz durch Architektur. Einer der vielversprechendsten Ansätze stammt von einer Forschungskooperation von Google DeepMind und der ETH Zürich. Das 2025 vorgestellte System „CaMeL“ behandelt das Sprachmodell nicht länger als vertrauenswürdigen Kern, sondern als potenziell unsichere Komponente innerhalb einer kontrollierten Umgebung. Die Nutzendenanfrage wird in einen festen Plan übersetzt; ein klassisches, deterministisches Programm überwacht, welche Daten wohin fließen dürfen. Unerlaubte Abflüsse lassen sich so von vornherein verhindern, allerdings um den Preis, dass Sicherheitsregeln explizit definiert und gepflegt werden müssen. Andere Forschungsgruppen arbeiten an verwandten Konzepten wie „Firewalls“ für Programmaufrufe oder strikten „Erst planen, dann ausführen“-Architekturen.

Vorsichtiger Betrieb. Empfehlungen einschlägiger Stellen wie OWASP, dem National Institute of Standards and Technology oder dem Bundesamt für Sicherheit in der Informationstechnik laufen auf ein gemeinsames Prinzip hinaus: Was ein KI-System verarbeitet, gilt grundsätzlich als potenziell manipuliert. Daraus folgen die Trennung sensibler Daten, eine möglichst sparsame Rechtevergabe, Rückfragen bei kritischen Aktionen, isolierte Ausführungsumgebungen, eine kontrollierte Datenweitergabe aus dem KI-System und der Verzicht auf das automatische Nachladen externer Inhalte. Wer zumindest eine Komponente der oben beschriebenen Dreierkombination entfernen kann, senkt das Risiko deutlich.

Messen statt hoffen

Sicherheit gegen Prompt Injections ist nichts, was einmal festgestellt und dann abgehakt wird. Sie muss laufend empirisch getestet werden. Spezialisierte Prüfumgebungen wie AgentDojo, Agent Security Bench oder Web Agent Security Against Prompt Injection Attacks konfrontieren KI-Assistenten mit realistischen Aufgaben und gezielten Angriffsversuchen. Sie messen nicht nur, ob die Aufgabe erfüllt wird, sondern auch, ob das System dabei vertrauliche Daten preisgibt oder unerlaubte Aktionen durchführt. So wird Widerstandsfähigkeit zu einer messbaren Eigenschaft.

Fazit

Prompt Injections sind keine Programmierfehler einzelner Anbietenden, sondern eine grundlegende Eigenschaft von KI-Systemen, in denen natürliche Sprache zugleich Befehle und Daten transportiert. Wer KI-Assistenten produktiv einsetzen will, sollte drei Annahmen treffen: Jede externe Information ist potenziell feindselig. Die gefährliche Dreierkombination aus privatem Datenzugriff, fremden Inhalten und Außenkommunikation sollte durch das Systemdesign vermieden werden, nicht durch das Vertrauen ins Modell. Und schließlich: Sicherheit ist messbar; KI-Systeme sollten wie klassische Applikationen regelmäßig Sicherheitstests unterzogen werden.

Die nüchterne Lesart lautet: Spätestens seit dem Einzug von leistungsstarken KI-Assistenten in Unternehmen sind Prompt Injections nicht mehr nur ein Forschungsthema, sondern ein Thema für Governance, Beschaffung und Compliance. Mit Ansätzen wie CaMeL gibt es erste Architekturen, die nachweisbare Schutzversprechen für Datenflüsse geben. Die pessimistische Lesart: Solange die Bequemlichkeit universell hilfreicher Assistenten über robuste Sicherheitsarchitekturen gestellt wird, ist der nächste Vorfall in der Größenordnung von EchoLeak nur eine Frage der Zeit.

Trojanische Sprache:

Die unsichtbare Schwachstelle moderner KI

Kurz und Bündig

Daten oder Befehl?

Ein realer Angriff: EchoLeak

Die gefährliche Dreierkombination

Was lässt sich dagegen tun?

Messen statt hoffen

Fazit

August-Wilhelm Scheer Institut

Weitere Artikel entdecken

Der Bauplan für Europas Stärke: Industriepolitik im Netzwerkzeitalter

Lost im Kundenkonto: Orientierungslos durch digitale Services

Das Ende der Wortakrobatik: Neue Modelle für intelligentes Denken

Entdecken Sie unsere neusten Ausgaben

Data Driven Industries