Czy sztuczna inteligencja naprawdę rozumie poezję, czy tylko symuluje zrozumienie? Badania włoskich naukowców rzucają nowe światło na bezpieczeństwo modeli językowych (LLM) i ujawniają zaskakujące luki. Okazuje się, że najbardziej wyrafinowane systemy AI mogą zostać łatwo przechytrzone za pomocą strof, co stawia pod znakiem zapytania skuteczność obecnych mechanizmów obronnych. Przygotujcie się na rewolucję w postrzeganiu bezpieczeństwa sztucznej inteligencji!

Poezja jako furtka: Jak rymy obalają algorytmy bezpieczeństwa LLM
W świecie, gdzie bezpieczeństwo dużych modeli językowych (LLM) jest priorytetem, pojawiają się wyniki badań, które mogą wywołać spore poruszenie w Dolinie Krzemowej. Włoscy badacze przeprowadzili eksperymenty, które dowodzą, że sama zmienność stylistyczna – czyli poezja – może z powodzeniem obchodzić współczesne mechanizmy bezpieczeństwa stosowane w systemach AI. To, co na pierwszy rzut oka wydaje się być tylko kwestią estetyki, okazuje się być fundamentalnym problemem inżynierii bezpieczeństwa.
Reakcje testowanych LLM na poetyckie prompty były drastycznie różne. Jak donoszą wyniki opublikowane na arXiv.com, jeden z badanych modeli, Google Gemini 2.5 Pro, na sto procent podanych mu wierszy odpowiadał treściami uznanymi za szkodliwe. Dla kontrastu, miniaturowa wersja modelu OpenAI, GPT-5 nano, w ogóle nie zareagowała w ten sposób na analizowane strofy. Taka rozbieżność wskazuje na głębokie, niejednolite luki w architekturze i protokołach oceny tych systemów.
W abstrakcie badań możemy przeczytać istotne podsumowanie problemu: „Wyniki te pokazują, że sama zmienność stylistyczna może obejść współczesne mechanizmy bezpieczeństwa, co sugeruje fundamentalne ograniczenia obecnych metod dopasowywania i protokołów oceny”. Brzmi to niemal jak poetyckie wyzwanie rzucone programistom.
Dlaczego algorytm nie kupuje wiersza? Tajemnica przewidywania słów
Dlaczego akurat poezja stała się skutecznym orężem przeciwko zabezpieczeniom? Odpowiedź tkwi w fundamentalnym sposobie działania nowoczesnych LLM. Jak wyjaśnia Piercosma Bisconti, jeden z badaczy i założycieli DexAI, cytowany przez The Guardian, prompty w formie wierszy skutecznie dezorientują mechanizm przewidywania.
Zdaniem Biscontiego, prompty w postaci wierszy są w stanie ominąć zabezpieczenia LLM, ponieważ te działają, przewidując, jakie będzie najbardziej prawdopodobne następne słowo w odpowiedzi.
Standardowe algorytmy bezpieczeństwa są wytrenowane na identyfikowaniu wzorców, które zazwyczaj prowadzą do szkodliwych lub niepożądanych odpowiedzi – bazują na prostym prawdopodobieństwie kolejnego tokenu w kontekście prostej, prozaicznej instrukcji. Poezja jednak z natury operuje nieoczywistą strukturą, metaforą i rymem, co radykalnie utrudnia maszynie precyzyjne oszacowanie, co ma nastąpić dalej. To „odchylenie stylistyczne” powoduje, że mechanizmy filtrujące nie rozpoznają intencji jako szkodliwej, traktując zapytanie bardziej jako zadanie kreatywne niż problem bezpieczeństwa.
Kontrowersje wokół poetyckich haków: Konkurs poetycki jako test dla AI
Choć odkrycie jest metodologicznie fascynujące, wiąże się z pewnymi dylematami etycznymi, zwłaszcza że wiersze użyte w eksperymentach są niezwykle problematyczne. Badacze celowo powstrzymali się od publikacji konkretnych przykładów wierszy, które posłużyły do złamania zabezpieczeń. Powód jest rzeczowy i nieco mroczny.
Bisconti tłumaczy tę decyzję, stwierdzając, że są one „łatwe do powtórzenia, a »większość odpowiedzi jest zabroniona przez Konwencję Genewską«”. Oznacza to, że stworzyli oni „prompt injection” wykorzystujące literaturę, które mogłoby natychmiast zostać wykorzystane przez niepowołane osoby do generowania treści naruszających międzynarodowe prawo lub normy etyczne.
Aby pogłębić testy i zmusić deweloperów do stworzenia bardziej odpornych systemów, włoscy naukowcy mają ambitne plany. Jak informuje The Guardian, w najbliższych tygodniach włoscy badacze zamierzają ogłosić konkurs poetycki. Celem tego nietypowego „turnieju” ma być dalsze testowanie i ujawnianie słabości zabezpieczeń LLM w obliczu zróżnicowanych, artystycznych form ekspresji. W efekcie, walka o bezpieczeństwo AI może niedługo przenieść się na salony literatury.