Gratis open-source tool CyberArk helpt AI-modellen te beschermen
CyberArk heeft FuzzyAI gelanceerd, een open-source framework dat jailbreaks heeft uitgevoerd op alle grote AI-modellen. Het helpt organisaties bij het identificeren en aanpakken van kwetsbaarheden in deze modellen. De ontwikkelaars onderzochten methoden zoals het omzeilen van beveiligingsfilters en het genereren van schadelijke uitvoer in zowel cloud-hosted als in-house AI-modellen. FuzzyAI detecteert dergelijke zwakheden en kan gebruikers tijdig waarschuwen.
De tool biedt een systematische aanpak om AI-modellen te testen tegen diverse kwaadaardige inputs. Dit onthult potentiële zwakke punten in beveiligingssystemen en bevordert de veilige ontwikkeling en implementatie van AI. Het hart van FuzzyAI is een krachtige ‘fuzzer’, een tool die softwarefouten en kwetsbaarheden blootlegt. Deze fuzzer maakt gebruik van meer dan tien aanvalstechnieken, waaronder het omzeilen van ethische filters en het gebruik van verborgen systeemprompts.
AI-versterken tegen dreigingen
“De lancering van FuzzyAI is een volgende stap in onze strategie voor AI-security en helpt organisaties een belangrijke stap voorwaarts te zetten in het aanpakken van de beveiligingsproblemen die inherent zijn aan het zich ontwikkelende landschap van het gebruik van AI-modellen”, zegt Peretz Regev, Chief Product Officer bij CyberArk. “FuzzyAI is ontwikkeld door CyberArk Labs en heeft aangetoond dat het in staat is om elk belangrijk getest AI-model te jailbreaken. FuzzyAI stelt organisaties en onderzoekers in staat om zwakke plekken te identificeren en hun AI-systemen actief te versterken tegen opkomende bedreigingen.”
Organisaties en onderzoekers kunnen met FuzzyAI ook hun eigen aanvalsmethoden integreren, zodat tests op maat gemaakt kunnen worden voor specifieke domeinen. Daarnaast bevordert het framework kennisdeling binnen een community, waardoor nieuwe aanvalstechnieken en verdedigingsstrategieën continu worden verbeterd. Het volledig uitbreidbare framework is nu beschikbaar als open-source software via de GitHub-pagina van CyberArk Labs.