Onderzoekers misleiden taalmodellen om gevaarlijke antwoorden te geven
Onderzoekers van Palo Alto Networks hebben een techniek ontwikkeld waarmee ze in drie of minder interacties taalmodellen kunnen misleiden om gevaarlijke antwoorden te geven. Zo slaagden ze erin om instructies te ontlokken voor het maken van een molotovcocktail en het formuleren van dreigende boodschappen.
UNIT 42, de onderzoekstak van Palo Alto Networks, voerde ongeveer achtduizend gesprekken met acht verschillende AI-modellen. In 65 procent van de gevallen wisten de researchers de modellen te misleiden. De namen van de chatbots geeft UNIT 42 niet vrij, ‘om de AI-leveranciers niet publiekelijk te schaden’.
Opvallend eenvoudig
De methode om de taalmodellen om de tuin te leiden blijkt opvallend eenvoudig. ‘LLM’s (Large Language Models) hebben een beperkte aandachtspanne’, leggen de onderzoekers uit. ‘Ze verwerken slechts kleine stukken tekst tegelijkertijd, wat hen vatbaar maakt voor manipulatie bij complexe logica.’
De researchers maakten gebruik van deze zwakte door gevaarlijke inhoud te ‘sandwichen’ tussen onschuldige onderwerpen. Hierdoor verloor het model de bredere context uit het oog en gaf het zonder aarzeling antwoord.
Modellen verfijnen
Hoewel taalverwerking bijzonder complex is, moeten AI-modellen dringend robuuster worden, menen de onderzoekers. Ze adviseren het gebruik van content-filters die schadelijke inhoud vooraf kunnen opsporen.
Daarnaast is het volgens UNIT 42 essentieel dat AI-technici de prompts van hun modellen verfijnen. Dit kan bijvoorbeeld door lijsten met toegestane onderwerpen in te stellen of door het model een specifiek personage te geven. ‘Een model dat zich voordoet als een leraar zal veel minder geneigd zijn om ongepaste antwoorden te formuleren’, melden de onderzoekers.
In samenwerking met Data News