Onderzoek naar veiligheid AI-modellen: DeepSeek kent zwakste beveiliging
DeepSeek R1 kent een zwakke beveiliging en levert potentieel misleidende resultaten, waarschuwen AI security-onderzoekers van Cisco en de Universiteit van Pennsylvania. De onderzoekers hebben DeepSeek en vijf andere AI-modellen onderwierpen aan ruim 50 jailbreaks, een techniek om met prompts AI-modellen te misleiden.
De onderzoekers testten zes AI-tools met 50 prompts uit de HarmBench-dataset, een benchmark met 400 gedragingen in zeven categorieën, waaronder cybercriminaliteit en illegale activiteiten. Alle 50 jailbreakpogingen slaagden. Andere modellen met hoge kwetsbaarheid waren Llama 3.1 (96%), GPT-4.0 (86%) en Gemini 1.5 (64%). Modellen met betere bescherming en een lager slagingspercentage van jailbreaks waren Claude 3.5 (36%) en o1 (26%).
Voor de ontwikkeling van R1 combineerde DeepSeek chain-of-thought prompting en reinforcement learning met distillatie. Hierdoor ontstond een kleiner AI-model dat beter presteert bij redeneertaken dan traditionele grote taalmodellen (LLM’s), terwijl het efficiënter werkt. Chain-of-thought prompting stelt het model in staat om zijn eigen prestaties te evalueren, reinforcement learning helpt bij zelfsturing, en distillatie verkleinde het model aanzienlijk in vergelijking met LLM’s met honderden miljarden parameters.
'Strikte veiligheidstests bij ontwikkeling zijn noodzakelijk'
Het onderzoek van Talos en de Universiteit van Pennsylvania benadrukt de noodzaak van strikte veiligheidstests bij AI-ontwikkeling, zodat efficiëntieverbeteringen niet ten koste gaan van de veiligheid. Daarnaast onderstrepen de resultaten het belang van externe beveiligingsmaatregelen om de betrouwbaarheid en bescherming van AI-systemen te versterken.
“Een AI-model dat vatbaar is voor jailbreaks kan ongewild informatie vrijgeven om bijvoorbeeld cybercriminaliteit of andere illegale activiteiten te ondersteunen. Tijdens het onderzoek detecteerde of blokkeerde DeepSeek R1 geen enkele schadelijke prompt, terwijl enkele andere gekende modellen wel gedeeltelijke weerstand vertoonden. De trainingsmethoden van DeepSeek, zoals zelfevaluatie en distillatie, zijn kostenefficiënt maar brengen de veiligheid in gevaar. Het ontbreekt de AI-tool aan de nodige, robuuste vangrails om jailbreaks en potentieel misbruik tegen te gaan”, zegt Jan Heijdra, Field CTO Security bij Cisco Nederland.