OpenAI modeli sve češće izmišljaju informacije, pokazuje istraživanje

ChatGPT o3 tačniji od o1, ali dvostruko češće halucinira/Pexels
Prema izvještaju New York Timesa, istraživanje OpenAI-a pokazalo je da njihovi najnoviji ChatGPT modeli (o3 i o4-mini) znatno češće haluciniraju, odnosno izmišljaju netačne informacije, u poređenju s prethodnim modelom GPT o1.
Brojna testiranja pokazala su zabrinjavajući trend. Model o3, koji je najmoćniji sistem kompanije, halucinirao je u čak 33% slučajeva tokom PersonQA testa koji postavlja pitanja o poznatim ličnostima. To je više nego dvostruko veća stopa halucinacije u odnosu na prethodni OpenAI model za zaključivanje, o1. Novi o4-mini model bio je još lošiji, sa stopom halucinacije od 48%.
Još alarmantniji su rezultati drugog testa. Na SimpleQA testu, koji uključuje općenitija pitanja, stope halucinacije za o3 i o4-mini bile su 51% i 79%. U poređenju, model o1 halucinirao je u 44% slučajeva.
"Razmišljajući" modeli prave više grešaka nego ikad
Ono što dodatno zbunjuje stručnjake jeste da upravo najnapredniji AI modeli imaju sve veći problem s halucinacijama. Najnovije i najsnažnije tehnologije — tzv. modeli za zaključivanje kompanija poput OpenAI, Googlea i kineskog startupa DeepSeek — generišu više grešaka, a ne manje.
Da bismo razumjeli o čemu se radi, važno je objasniti šta su to "reasoning" modeli, odnosno modeli za zaključivanje. Jednostavno rečeno, riječ je o vrstama jezičkih modela (LLM) koji su dizajnirani za izvođenje složenih zadataka. Umjesto da samo generiraju tekst na osnovu statističkih vjerovatnoća, oni razlažu pitanja ili zadatke na pojedinačne korake — slično ljudskom načinu razmišljanja.
OpenAI-jev prvi model za zaključivanje, o1, predstavljen je prošle godine. Tada je tvrdio da postiže nivo doktorskih studenata iz fizike, hemije i biologije, a da ih čak nadmašuje u matematici i kodiranju, zahvaljujući tehnikama pojačanog učenja (reinforcement learning).
U rezultatima testiranja OpenAI je objavio tabelu koja pokazuje da je ChatGPT o3 tačniji od o1, ali da dvostruko češće halucinira. Što se tiče modela o4-mini, on daje manje tačne odgovore od o1 i o3, ali halucinira čak tri puta više nego o1.
Zašto napredniji modeli češće haluciniraju?
Iako kompanija još istražuje uzroke, postoje neke teorije. Istraživačka grupa Transluce otkrila je da model o3 izmišlja radnje koje navodno preduzima tokom rješavanja zadataka. U jednom primjeru, tvrdio je da koristi MacBook Pro iz 2021. godine "izvan ChatGPT-a" kako bi izvršio izračunavanja, a zatim kopira rezultate u svoj odgovor – što je, naravno, potpuno izmišljeno.
Jednu od hipoteza iznio je Neil Chaudhari, istraživač iz Transluce-a i bivši zaposlenik OpenAI-a:
"Naša hipoteza je da vrsta reinforcement learninga koja se koristi za o-seriju modela može pojačati probleme koji se inače ublažavaju (ali ne i potpuno uklanjaju) uobičajenim post-trening procedurama."
Međutim, iz OpenAI-a odbacuju tvrdnju da je problem sistemski. „Halucinacije nisu urođeno češće u modelima za zaključivanje, iako aktivno radimo na smanjenju viših stopa koje smo primijetili kod o3 i o4-mini,“ izjavila je Gabi Rajla iz OpenAI-a za NYT.
Kako halucinacije utiču na korisnost AI-ja?
Neodgovorno bi bilo ignorisati trend povećanja halucinacija kod najnovijih AI modela, jer to značajno umanjuje njihovu praktičnu vrijednost. Bez obzira na uzrok, jedno je jasno: AI modeli moraju znatno smanjiti broj netačnih i izmišljenih informacija ako žele postati stvarno korisni, kao što se trenutno najavljuje.
Za neke zadatke, provjera činjenica može biti prihvatljiva. Međutim, tamo gdje AI treba štedjeti vrijeme ili trud, potreba za ručnom provjerom zapravo poništava njegovu svrhu.
Još nije jasno hoće li OpenAI i ostatak industrije velikih jezičkih modela uspjeti da riješe sve ove neželjene „robotske snove“, ali jedno je sigurno: put ka pouzdanoj umjetnoj inteligenciji koja ne izmišlja činjenice je duži nego što smo mislili, piše Pink.rs.