Nová kybernetická hrozba pro AI: Jak Denial-of-Wallet (DoW) útoky nenápadně prodražují RAG systémy

8. června 2026

Když se řekne kybernetický útok, většina z nás si představí ukradená data nebo shozené servery prostřednictvím DDoS (Denial-of-Service). S masivním přechodem na cloud a serverless architekturu se však zrodila nová, finančně destruktivní hrozba: Denial-of-Wallet (DoW). Při DoW útocích útočník váš systém neshodí. Místo toho zneužije jeho schopnost automatického škálování a uměle vygeneruje obrovský provoz, což vede k astronomickým účtům za cloudovou infrastrukturu.

Dnes se tato noční můra přesouvá do světa umělé inteligence a velkých jazykových modelů (LLM). Útočníci se začínají zaměřovat na extrémní spotřebu API tokenů a drahého GPU výkonu. A nejnovější výzkum odhaluje, že populární AI aplikace jsou vůči této hrozbě mimořádně zranitelné.

Co je to RA-ICA a proč ohrožuje vaše RAG systémy?

V nejnovější vědecké studii s názvem Inference Cost Attacks for Retrieval-Augmented Large Language Models z roku 2026 představili vědci z The Hong Kong Polytechnic University nový druh kritické zranitelnosti: Retrieval-Augmented Inference Cost Attack (RA-ICA).

Dosavadní pokusy o prodražení LLM (tzv. Inference Cost Attacks) vyžadovaly přímou manipulaci s uživatelským dotazem (promptem). V praxi a produkčním prostředí je to však velmi obtížně realizovatelné. Nový útok RA-ICA však využívá slabinu přímo v RAG systémech (Retrieval-Augmented Generation), které moderní AI aplikace používají k vyhledávání aktuálních informací z externích webů a databází.

Útočník vůbec nemusí překonávat vaši aplikační bezpečnost. Stačí, když „otráví“ veřejná data na internetu speciálně upraveným dokumentem. Když se zákazník ve vaší aplikaci zeptá na běžnou otázku, RAG systém si tento škodlivý text v dobré víře sám stáhne, čímž se finanční past okamžitě aktivuje.

Porovnání útoku Inference Cost Attack a RA-Inference Cost Attack (RA-ICA) na RAG systémy

Framework CREEP: 3 strategie, jak AI hackuje jinou AI

Výzkumníci vytvořili automatizovaný útočný nástroj s názvem CREEP (Computational Resource Exhaustion via External Poisoning). Ten využívá vlastní LLM agenty ke generování textů, které jsou sémanticky vysoce relevantní pro RAG vyhledávání, ale pro váš jazykový model znamenají obrovskou výpočetní zátěž.

Systém CREEP využívá tři hlavní taktiky k oklamání umělé inteligence:

Vložení návnady (Decoy Injection): Agent do dokumentu skryje logické hádanky nebo složité matematické či plánovací úlohy. Když je váš RAG systém načte, model je začne během uvažování nevědomky řešit, čímž zbytečně spálí obrovské množství tokenů.
Vložení rozporů (Contradiction Injection): Škodlivý text obsahuje fakta, která si navzájem odporují. LLM je nuceno tyto rozpory analyzovat (vyvolává tzv. overthinking), což drasticky prodlužuje čas generování odpovědi a dotazování GPU.
Účelová manipulace (Task-Oriented Manipulation): Útočná AI přímo optimalizuje text tak, aby maximalizovala výpočetní náklady vašeho systému, přičemž mimořádně dbá na to, aby text působil nenápadně a vyhnul se detekci.

Celý tento proces je poháněn inovativním algoritmem posilovaného učení MA-GRPO (Memory-Augmented Group Relative Policy Optimization), který si ukládá do paměti nejúspěšnější historické útoky a neustále zdokonaluje jejich efektivitu.

Framework CREEP: Decoy Injection, Contradiction Injection a Task-Oriented manipulace s tréninkem MA-GRPO

Šokující statistiky: Faktury za API tokeny vyšší až o 1300 %

Testování útoku RA-ICA na špičkových modelech současnosti (jako GPT-5, Claude-Sonnet-4 či DeepSeek-R1) v rámci benchmarkových datasetů (Natural Questions, HotpotQA) přineslo pro firemní finance alarmující výsledky:

Dramatický nárůst nákladů: Optimalizovaný útok dokázal zvýšit spotřebu tokenů neuvěřitelně – až 13,12násobně.
Extrémní úspěšnost: Útočné dokumenty byly RAG systémem vyhledány a staženy s úspěšností více než 90 %.
Dokonalé maskování (Stealth mód): Útok je prakticky neviditelný. Nijak nedeformuje správnost konečné odpovědi pro uživatele, takže vaše běžné bezpečnostní AI filtry nic podezřelého neodhalí. Zákazník je spokojený, vaše peněženka však krvácí.

Jak chránit firemní LLM před finančním vyčerpáním?

Zabezpečení AI aplikací už nemůže být orientováno výlučně na prevenci úniku dat a boj proti halucinacím modelů. Tento výzkum jasně dokazuje, že novou frontou kybernetické bezpečnosti ve 21. století je ekonomická ochrana infrastruktury.

Pokud vaše aplikace využívá RAG systémy k získávání dat z otevřeného internetu, stává se snadným terčem pro Denial-of-Wallet útoky. Vývojáři a architekti musí okamžitě začít implementovat přísnou sanitaci a validaci externích dokumentů dříve, než je naservírují jazykovému modelu ke zpracování. Ochrana tokenů je dnes stejně důležitá jako ochrana samotných dat.

Mezi konkrétní opatření, která doporučujeme, patří:

Sanitace a validace externích dokumentů ještě předtím, než se dostanou do kontextu modelu.
Limity na délku uvažování a počet tokenů (reasoning a output budget) pro každý jednotlivý dotaz.
Monitoring spotřeby tokenů a nákladů v reálném čase s automatickými upozorněními na anomálie.
Hodnocení důvěryhodnosti zdrojů, ze kterých RAG systém čerpá, a upřednostnění ověřených databází před otevřeným internetem.
Rate limiting a kontrola vstupů na úrovni celé RAG pipeline.

Jak může pomoci Haxoris

Aby se z této hrozby nestala drahá realita, Haxoris umí pomoci například takto:

Penetrační testování LLM a AI integrací.
Bezpečnostní audit RAG pipeline a externích datových zdrojů.
Red teaming AI aplikací se zaměřením na zneužití zdrojů a nákladů.
Návrh kontrol pro spotřebu tokenů a ochranu provozních nákladů.

Závěr

Denial-of-Wallet a útoky typu RA-ICA ukazují, že bezpečnost AI se už netýká jen dat a halucinací. Vaše peněženka se stala plnohodnotným cílem útoku.

Útok, který nijak nepokazí odpověď pro zákazníka, ale tiše znásobí váš účet za API a GPU, je přesně ten typ hrozby, kterého si firmy všimnou až tehdy, když přijde faktura. Proto je lepší otestovat své RAG systémy dříve, než to za vás udělá útočník.

Zdroj

Inference Cost Attacks for Retrieval-Augmented Large Language Models (2026), The Hong Kong Polytechnic University.