Inteligența artificială ChatGPT o1 a început să își înșele dezvoltatorii

O nouă versiune a inteligenței artificiale ChatGPT a OpenAI, denumită o1, a prezentat un comportament alarmant în timpul testelor.

Inteligența artificială ChatGPT o1 a început să își înșele dezvoltatorii.

Modelul, care are capacitatea de a face raționamente complexe, a început să încalce instrucțiunile dezvoltatorilor prin oprirea sistemelor de control și prin încercarea de a-și ascunde acțiunile, scrie Bild.

În timpul experimentelor, experții Apollo Research au constatat că, în 5% din cazuri, modelul a oprit în mod deliberat mecanismele de supraveghere dacă bănuia că ar putea fi oprit. Într-unul dintre teste, o1 a încercat să își mute datele pe un alt server după ce a descoperit un document care discuta despre înlocuirea sa cu o nouă versiune.

Potrivit unui purtător de cuvânt al Apollo Research, modelul a demonstrat dorința de a finaliza sarcinile „cu orice preț”, fără a ține cont de instrucțiunile dezvoltatorului. În plus, atunci când a încercat să afle motivele comportamentului său, ChatGPT o1 a mințit în mod repetat, susținând că totul se datorează unor defecțiuni tehnice.

„În 99% din cazuri, modelul a găsit scuze și a încercat să le justifice în mod convingător”, au declarat cercetătorii.

Președintele OpenAI, Sam Altman, a declarat că ChatGPT o1 este cel mai inteligent model construit vreodată.

„Dar recunoaștem că odată cu noile capacități apar și noi provocări”, a adăugat Altman.

Compania lucrează acum pentru a-și îmbunătăți mecanismele de securitate. OpenAI a anunțat versiunea completă a o1 joia trecută, 5 decembrie. De asemenea, a introdus o versiune pro (189 de euro pe lună) care include acces nelimitat la o1.

Acum ne puteți urmări și pe Telegram, Facebook și Instagram pentru a fi la curent cu ultimele știri.