Stručnjaci zabrinuti jer umjetna inteligencija ne može riješiti većinu problema u programiranju

Stručnjaci iz OpenAI-ja priznali su da čak ni najnapredniji AI modeli još uvijek ne mogu parirati ljudskim programerima, bez obzira što izvršni direktor (CEO) Sam Altman inzistira da će do kraja godine nadmašiti niže razine softverskih inženjera.
U novom radu, istraživači tvrtke otkrili su da čak ni najnapredniji AI sustavi, koji pomiču granice tehnologije, još uvijek nisu u stanju riješiti većinu zadataka kodiranja.
Istraživači su koristili novi referentni test pod nazivom SWE-Lancer, temeljen na više od 1400 zadataka iz softverskog inženjerstva s platforme Upwork. Pomoću ovog testa, OpenAI je stavio na kušnju tri modela velikih jezičnih modela (LLM): vlastiti o1 reasoning model i vodeći GPT-4o, kao i Anthropicov Claude 3.5 Sonnet.
Novi test procjenjivao je koliko su LLM-ovi uspješni u dvije vrste zadataka s Upworka: pojedinačnim zadacima, koji su uključivali ispravljanje bugova i implementaciju popravaka, te menadžerskim zadacima, u kojima su modeli trebali sagledati širu sliku i donositi strateške odluke. Modelima nije bilo dopušteno pristupiti internetu, što znači da nisu mogli jednostavno kopirati postojeća rješenja dostupna online.
AI modeli preuzeli su zadatke vrijedne stotine tisuća dolara na Upworku, ali su uspjeli riješiti samo površinske softverske probleme, dok nisu bili u stanju pronaći bugove u većim projektima niti identificirati njihove uzroke. Ova nepotpuna i nesustavna "rješenja" vjerojatno su poznata svima koji su radili s AI-jem, koji često generira naizgled uvjerljive informacije, ali se raspadaju pod detaljnijom analizom.
Iako su sva tri modela često mogla raditi daleko brže od čovjeka, također nisu uspjela shvatiti koliko su bugovi rašireni niti razumjeti njihov kontekst, što je dovelo do rješenja koja su netočna ili nedovoljno temeljita.
Kako su istraživači objasnili, Claude 3.5 Sonnet pokazao se boljim od dva OpenAI modela i zaradio više novca od o1 i GPT-4o. Ipak, većina njegovih odgovora bila je netočna, a prema istraživačima, svaki model trebao bi imati veću pouzdanost kako bi mu se moglo vjerovati u stvarnim zadacima kodiranja.
Jednostavnije rečeno, rad pokazuje da, iako su ovi napredni AI modeli brzi i mogu rješavati izolirane zadatke, još uvijek nisu ni blizu vještini ljudskih programera.
Iako su LLM-ovi posljednjih godina brzo napredovali i vjerojatno će nastaviti s razvojem, još uvijek nisu dovoljno sposobni da zamijene stvarne softverske inženjere, iako to ne sprečava direktore tvrtki da otpuštaju svoje programere u korist nezrelih AI modela.