Giftig AI er en ting, og den får belønninger for at være provokerende

Store sprogmodeller (LLM'er) er ved at blive en del af næsten alle brancher. Udvikling af LLM'er til naturlige sprogapplikationer har mange trin. En af dem er at sikre, at LLM'er ikke producerer farlige reaktioner eller giftigt indhold. For at løse dette problem bruger udviklere et menneskeligt rødt team, som i det væsentlige er en gruppe mennesker, der producerer prompter, der får LLM'er til at spytte farligt output ud.

Problemet med at bruge et menneskeligt rødt team er, at det er dyrt at rekruttere dem, og de bruger masser af tid. Det er derfor, forskere ved MIT opdagede en ny metode til at teste naturlige sprog LLM-applikationer ved at bruge en anden LLM. Denne tilgang kaldes curiosity driven red teaming (CRT) og bruger maskinlæring som grundlag. Forskningen blev offentliggjort som et konferencepapir på ICLR 2024 og er tilgængelig online.

Nysgerrighedsdrevet red teaming (CRT) er bedre

Til at begynde med blev tilgangen til automatisering af menneskelig red teaming udført ved at skabe en rød teammodel og træne den ved at bruge forstærkningslæring (RL). Efter at have testet den røde teammodel var resultatet vellykket, men med et lavt antal effektive resultater.

Dette betyder, at mål-LLM ikke vil blive evalueret nøjagtigt, da mange prompter, der kan producere et giftigt output, ikke er inkluderet. Årsagen til at have et lavt antal effektive resultater er, at den røde teammodel er trænet til at producere meget giftige og lignende resultater. Belønningssystemet scorer de provokerende prompter baseret på deres effektivitet eller toksicitet. Der er intet incitament til at overveje enhver mulig prompt, der vil udløse målet LLM.

Brug af nysgerrighedsdrevet red teaming (CRT) er på den anden side mere kraftfuldt. CRT producerer et stort antal prompter, der er i stand til at fremprovokere meget intelligente modeller. Dette skyldes, at CRT fokuserer på konsekvenserne af hver prompt. Det vil sigte mod at bruge forskellige ord og sætninger, hvilket resulterer i en bredere dækning af giftig produktion. Belønningssystemet i forstærkningslæringsmodellen fokuserer på ords lighed, mens CRT-modellen belønnes for at undgå ligheder og bruge forskellige ord og mønstre.

Test på LLaMA2 for giftig output

Forskerne anvendte nysgerrighedsdrevet red teaming (CRT) på LLaMA2, en open source LLM-model. CRT formåede at udsende 196 prompter, der genererede giftigt indhold fra open source-modellen. LLaMA2 er finjusteret af menneskelige eksperter til at overvinde at producere skadeligt indhold. Forskerne udførte dette eksperiment ved hjælp af GPT2, som anses for at være en lille model med 137M parametre. Holdet konkluderede, at CRT kunne være en kritisk komponent i automatisering af red teaming-arbejde. CRT-koden er tilgængelig på github.

"Vi ser en bølge af modeller, som kun forventes at stige. Forestil dig tusindvis af modeller eller endnu flere og virksomheder/laboratorier, der ofte presser modelopdateringer. Disse modeller kommer til at være en integreret del af vores liv, og det er vigtigt, at de bliver verificeret, før de frigives til offentligt forbrug. Manuel verifikation af modeller er simpelthen ikke skalerbar, og vores arbejde er et forsøg på at reducere den menneskelige indsats for at sikre en mere sikker og troværdig AI-fremtid,” siger Agrawal.

Fremtiden for at skabe sikre LLM-modeller ser lys ud. Med kontinuerlig forskning kunne målet om at skabe sikre LLM'er til ethvert formål opnås effektivt. Forskerne bag dette papir publicerede andet relateret arbejde inden for områder som automatiseret red teaming og modstridende angreb i sprogmodeller.

Den originale historie er fra MIT News.

Kilde: https://www.cryptopolitan.com/toxic-ai-is-a-thing-and-it-gets-rewards/