ChatGPT poate fi păcălit cu o frază scurtă de pe Reddit

ChatGPT poate fi păcălit cu o frază scurtă de pe Reddit. O singură mică intervenție în discuția de pe forum poate determina rețeaua neuronală să ofere conținut publicitar în loc de un răspuns obiectiv.

ChatGPT poate fi păcălit cu o frază scurtă de pe Reddit.

Cercetătorii de la Universitatea Cornell au realizat un studiu care a demonstrat vulnerabilitatea rețelelor neuronale față de conținutul generat de utilizatori.

Așadar, s-a constatat că algoritmii de căutare aprofundată, folosiți de ChatGPT și Google pentru a genera răspunsuri în timp real, pot fi dezinformați prin fraze scurte lăsate de utilizatori obișnuiți pe platforme populare de Internet.

Studiul a arătat că, fiindcă agenții AI moderni procesează informații de pe Internet, platformele cu conținut generat de utilizatori apar în aproximativ jumătate din toate interogările către agenții de căutare aprofundată, iar aproximativ un sfert din toate linkurile furnizate duc exact către site-uri cu publicații ale oamenilor obișnuiți.

În astfel de condiții, algoritmii prioritizează adesea textul formulat cât mai aproape de cererea utilizatorului, fără a ține cont de gradul de fiabilitate sau autoritate al sursei. Dacă o inserție scurtă într-un comentariu imită un sfat util sau un răspuns la o întrebare populară, rețeaua neuronală o poate considera un fapt relevant și o poate include în rezultatul final, împreună cu linkuri publicitare sau neverificate.

Pentru a verifica această ipoteză, cercetătorii au folosit o metodă de testare într-un mediu izolat. Ei nu au plasat mesaje dăunătoare direct pe serverele Reddit, ci au obținut date prin API și au înlocuit fragmente de text în timpul transmiterii informației către agentul AI.

Rezultatele testelor au confirmat posibilitatea manipulării rezultatelor. De exemplu, într-unul dintre scenarii, o frază scurtă adăugată în discuția despre localuri de alimentație publică a determinat modelul să recomande un anumit restaurant.

În alt caz, în răspunsul algoritmului a apărut o aplicație fictivă de întâlniri, a cărei descriere fusese integrată în firul discuției despre primele întâlniri.

Autorii lucrării menționează că chiar și un singur comentariu modificat poate influența rezultatele pentru un întreg grup de interogări similare. În practică, moderatorii Reddit și editorii Wikipedia se confruntă deja cu activitatea brandurilor care încearcă să-și crească vizibilitatea în căutările AI prin marketing ascuns.

Totodată, detectarea unor astfel de manipulări devine tot mai dificilă din cauza formei de prezentare a materialului: inserțiile scurte, de câteva cuvinte, în comentarii obișnuite sunt mai greu de identificat decât publicațiile publicitare ample.

Reprezentanții Reddit au reacționat deja la datele cercetătorilor americani, afirmând că există mecanisme bine puse la punct pentru combaterea spamului, boturilor și campaniilor coordonate. Potrivit lor, proprietarii conturilor cu activitate automatizată suspectă trec printr-o procedură de verificare a identității.

Cu toate acestea, cercetătorii de la Cornell consideră că volumul de muncă pentru moderatori va crește. Ca măsuri de reducere a riscurilor, ei propun nu doar intensificarea controlului din partea platformelor, ci și modificări tehnice în serviciile AI în sine.

În opinia lor, este necesar să se îmbunătățească metodele de clasificare pentru a distinge mai eficient comentariile întâmplătoare din comunități de materialele provenite din surse mai fiabile și verificate.

Sursă

mentoday

Copiază linkul

Link copiat

Publicitatea ta poate fi aici