Wyobraź sobie, że najlepsi eksperci od sztucznej inteligencji, ci z NeurIPS – prestiżowej konferencji w San Diego – publikują prace pełne wymyślonych cytatów. Startup GPTZero przeskanował wszystkie 4841 zaakceptowanych papierów i znalazł 100 halucynowanych odniesień w 51 z nich. Czy to znak, że nawet elita AI nie radzi sobie z narzędziami, które sama stworzyła?

Halucynacje AI w prestiżowych papierach: co odkryło GPTZero?
Firma GPTZero, specjalizująca się w wykrywaniu treści generowanych przez duże modele językowe (LLM), wzięła pod lupę całą konferencję NeurIPS, która odbyła się niedawno w San Diego. Skupiła się na liście 4841 zaakceptowanych prac. Wynik? 100 potwierdzonych fałszywych cytatów rozsianych po 51 papierach. To nie żaden skandal na miarę plagi, ale wystarczający powód do refleksji.
Akceptacja na NeurIPS to złoty standard w świecie AI – coś, co ląduje prosto na CV i otwiera drzwi do kariery. A jednak, jak podaje TechCrunch, badacze najwyraźniej uciekają się do LLM przy pisaniu cytatów, bo to „katastrofalnie nudne zadanie”. Statystycznie? Nic wielkiego. W tysiącach cytatów 100 fejków to kropla w morzu. Ale kropla, która może zatruć cały zbiornik.
„100 confirmed hallucinated citations across 51 papers is not statistically significant. Each paper has dozens of citations. So out of tens of thousands of citations, this is, statistically, zero.”
NeurIPS podkreśla, że fałszywy cytat nie podważa meritum badań. Jak stwierdzili w odpowiedzi dla Fortune:
„Even if 1.1% of the papers have one or more incorrect references due to the use of LLMs, the content of the papers themselves [is] not necessarily invalidated.”
Mimo to cytaty to waluta akademicka. Pokazują wpływ pracy, cytują rówieśników, budują reputację. Kiedy AI je halucynuje – wymyśla niestniejące źródła – dewaluuje cały system. A konferencja szczyci się „rigorous scholarly publishing in machine learning and artificial intelligence”.
Dlaczego recenzenci i autorzy to przeoczyli?
Każdy papier na NeurIPS przechodzi przez rygorystyczny peer-review. Recenzenci dostają instrukcje, by flagować halucynacje. Ale fala zgłoszeń – „submission tsunami” – przytłacza system. GPTZero wskazuje na raport z maja 2025 roku, „The AI Conference Peer Review Crisis”, który opisuje kryzys w topowych konferencjach jak NeurIPS. Objętość łamie potężne potęgi przetwarzania.
„The goal of the exercise was to offer specific data on how AI slop sneaks in via 'a submission tsunami’ that has 'strained these conferences’ review pipelines to the breaking point’.”
Dlaczego autorzy sami nie sprawdzili? Powinni znać bibliografię na pamięć. Tu wychodzi ironia: topowi badacze AI, z reputacją na szali, ufają LLM bez weryfikacji. Jeśli oni tak działają, co z resztą świata?
Ironia na całego: lekcja dla zwykłych śmiertelników
To największy haczyk całej historii. Jeśli elita AI nie potrafi ogarnąć detali z własnych narzędzi, co to mówi o nas? LLM ułatwiają życie, ale w nauce precyzja to wszystko. Fałszywe cytaty to nie drobiazg – to sygnał alarmowy. NeurIPS musi ewoluować, może z lepszymi narzędziami detekcji jak GPTZero. A my? Zawsze weryfikuj. Bo w erze AI nawet geniusze popełniają błędy maszyn.