Neue Cyberbedrohung für KI: Wie Denial-of-Wallet (DoW) Angriffe unauffällig RAG-Systeme verteuern

8. Juni 2026

Wenn von einem Cyberangriff die Rede ist, stellen sich die meisten von uns gestohlene Daten oder lahmgelegte Server durch DDoS (Denial-of-Service) vor. Mit dem massiven Umstieg auf die Cloud und serverlose Architekturen ist jedoch eine neue, finanziell verheerende Bedrohung entstanden: Denial-of-Wallet (DoW). Bei DoW-Angriffen legt der Angreifer Ihr System nicht lahm. Stattdessen missbraucht er dessen Fähigkeit zur automatischen Skalierung und erzeugt künstlich enormen Traffic, was zu astronomischen Rechnungen für die Cloud-Infrastruktur führt.

Heute verlagert sich dieser Albtraum in die Welt der künstlichen Intelligenz und der großen Sprachmodelle (LLM). Angreifer beginnen, es auf den extremen Verbrauch von API-Tokens und teurer GPU-Leistung abzusehen. Und die neueste Forschung deckt auf, dass beliebte KI-Anwendungen gegenüber dieser Bedrohung außerordentlich anfällig sind.

Was ist RA-ICA und warum bedroht es Ihre RAG-Systeme?

In der neuesten wissenschaftlichen Studie mit dem Titel Inference Cost Attacks for Retrieval-Augmented Large Language Models aus dem Jahr 2026 stellten Forscher der The Hong Kong Polytechnic University eine neue Art kritischer Schwachstelle vor: Retrieval-Augmented Inference Cost Attack (RA-ICA).

Bisherige Versuche, LLM zu verteuern (sogenannte Inference Cost Attacks), erforderten die direkte Manipulation der Benutzeranfrage (des Prompts). In der Praxis und in Produktionsumgebungen ist das jedoch nur sehr schwer umsetzbar. Der neue Angriff RA-ICA nutzt dagegen eine Schwachstelle direkt in den RAG-Systemen (Retrieval-Augmented Generation), die moderne KI-Anwendungen zur Suche aktueller Informationen aus externen Webseiten und Datenbanken verwenden.

Der Angreifer muss Ihre Anwendungssicherheit überhaupt nicht überwinden. Es genügt, wenn er öffentliche Daten im Internet mit einem speziell präparierten Dokument „vergiftet“. Wenn ein Kunde in Ihrer Anwendung eine alltägliche Frage stellt, lädt das RAG-System diesen schädlichen Text in gutem Glauben selbst herunter, wodurch die finanzielle Falle sofort zuschnappt.

Vergleich eines Inference Cost Attack und eines RA-Inference Cost Attack (RA-ICA) auf RAG-Systeme

Das Framework CREEP: 3 Strategien, wie KI eine andere KI hackt

Die Forscher haben ein automatisiertes Angriffswerkzeug mit dem Namen CREEP (Computational Resource Exhaustion via External Poisoning) entwickelt. Es nutzt eigene LLM-Agenten, um Texte zu generieren, die für die RAG-Suche semantisch hochrelevant sind, für Ihr Sprachmodell jedoch eine enorme Rechenlast bedeuten.

Das System CREEP setzt drei zentrale Taktiken ein, um die künstliche Intelligenz zu täuschen:

Einschleusen von Ködern (Decoy Injection): Der Agent versteckt im Dokument logische Rätsel oder komplexe mathematische bzw. Planungsaufgaben. Wenn Ihr RAG-System sie lädt, beginnt das Modell, sie während des Denkprozesses unbewusst zu lösen, und verbrennt dabei unnötig eine riesige Menge an Tokens.
Einschleusen von Widersprüchen (Contradiction Injection): Der schädliche Text enthält Fakten, die einander widersprechen. Das LLM wird gezwungen, diese Widersprüche zu analysieren (es löst sogenanntes overthinking aus), was die Zeit für die Generierung der Antwort und die GPU-Auslastung drastisch verlängert.
Zweckgerichtete Manipulation (Task-Oriented Manipulation): Die angreifende KI optimiert den Text direkt so, dass sie die Rechenkosten Ihres Systems maximiert, wobei sie besonders darauf achtet, dass der Text unauffällig wirkt und der Erkennung entgeht.

Dieser gesamte Prozess wird durch einen innovativen Algorithmus des bestärkenden Lernens angetrieben: MA-GRPO (Memory-Augmented Group Relative Policy Optimization), der die erfolgreichsten historischen Angriffe im Speicher ablegt und ihre Effizienz kontinuierlich weiter verbessert.

Das CREEP-Framework: Decoy Injection, Contradiction Injection und Task-Oriented-Manipulation mit MA-GRPO-Training

Schockierende Statistiken: Rechnungen für API-Tokens um bis zu 1.300 % höher

Das Testen des Angriffs RA-ICA an den Spitzenmodellen der Gegenwart (wie GPT-5, Claude-Sonnet-4 oder DeepSeek-R1) im Rahmen von Benchmark-Datensätzen (Natural Questions, HotpotQA) brachte für die Unternehmensfinanzen alarmierende Ergebnisse:

Dramatischer Kostenanstieg: Der optimierte Angriff konnte den Token-Verbrauch unglaublich steigern – um das bis zu 13,12-fache.
Extreme Erfolgsquote: Die Angriffsdokumente wurden vom RAG-System mit einer Erfolgsquote von mehr als 90 % gefunden und heruntergeladen.
Perfekte Tarnung (Stealth-Modus): Der Angriff ist praktisch unsichtbar. Er verfälscht die Richtigkeit der endgültigen Antwort für den Benutzer in keiner Weise, sodass Ihre üblichen KI-Sicherheitsfilter nichts Verdächtiges entdecken. Der Kunde ist zufrieden, Ihr Geldbeutel blutet jedoch.

Wie schützt man Unternehmens-LLM vor finanzieller Erschöpfung?

Die Absicherung von KI-Anwendungen kann sich nicht länger ausschließlich auf die Verhinderung von Datenlecks und den Kampf gegen Modellhalluzinationen konzentrieren. Diese Forschung beweist deutlich, dass die neue Front der Cybersicherheit im 21. Jahrhundert der wirtschaftliche Schutz der Infrastruktur ist.

Wenn Ihre Anwendung RAG-Systeme zur Datenbeschaffung aus dem offenen Internet nutzt, wird sie zu einem leichten Ziel für Denial-of-Wallet-Angriffe. Entwickler und Architekten müssen sofort beginnen, eine strenge Bereinigung und Validierung externer Dokumente zu implementieren, bevor sie diese dem Sprachmodell zur Verarbeitung vorsetzen. Der Schutz der Tokens ist heute genauso wichtig wie der Schutz der Daten selbst.

Zu den konkreten Maßnahmen, die wir empfehlen, gehören:

Bereinigung und Validierung externer Dokumente, noch bevor sie in den Kontext des Modells gelangen.
Limits für die Länge des Denkprozesses und die Anzahl der Tokens (Reasoning- und Output-Budget) für jede einzelne Anfrage.
Monitoring des Token-Verbrauchs und der Kosten in Echtzeit mit automatischen Warnmeldungen bei Anomalien.
Bewertung der Vertrauenswürdigkeit der Quellen, aus denen das RAG-System schöpft, und Bevorzugung geprüfter Datenbanken gegenüber dem offenen Internet.
Rate Limiting und Kontrolle der Eingaben auf der Ebene der gesamten RAG-Pipeline.

Wie Haxoris helfen kann

Damit aus dieser Bedrohung keine teure Realität wird, kann Haxoris zum Beispiel so helfen:

Penetrationstests von LLM- und KI-Integrationen.
Sicherheitsaudit der RAG-Pipeline und externer Datenquellen.
Red Teaming von KI-Anwendungen mit Fokus auf den Missbrauch von Ressourcen und Kosten.
Entwurf von Kontrollen für den Token-Verbrauch und den Schutz der Betriebskosten.

Fazit

Denial-of-Wallet und Angriffe vom Typ RA-ICA zeigen, dass es bei der KI-Sicherheit nicht mehr nur um Daten und Halluzinationen geht. Ihr Geldbeutel ist zu einem vollwertigen Angriffsziel geworden.

Ein Angriff, der die Antwort für den Kunden in keiner Weise verdirbt, aber im Stillen Ihre Rechnung für API und GPU vervielfacht, ist genau die Art von Bedrohung, die Unternehmen erst dann bemerken, wenn die Rechnung kommt. Deshalb ist es besser, Ihre RAG-Systeme zu testen, bevor es ein Angreifer für Sie tut.

Quelle

Inference Cost Attacks for Retrieval-Augmented Large Language Models (2026), The Hong Kong Polytechnic University.