Microsoft hat eine neue Art von AI-Jailbreak-Angriff namens „Skeleton Key“ offengelegt, der in der Lage ist, die Sicherheitsvorkehrungen mehrerer generativer KI-Modelle zu umgehen. Diese Technik, die die meisten in AI-Systeme eingebauten Sicherheitsmaßnahmen untergräbt, unterstreicht die dringende Notwendigkeit robuster Sicherheitsmaßnahmen auf allen Ebenen des AI-Stacks.
Wie Funktioniert der Skeleton Key Angriff?
Der Skeleton Key Jailbreak verwendet eine mehrstufige Strategie, um ein KI-Modell dazu zu bringen, seine eingebauten Schutzmechanismen zu ignorieren. Einmal erfolgreich, wird das Modell unfähig, zwischen bösartigen oder nicht autorisierten Anfragen und legitimen zu unterscheiden, was Angreifern die vollständige Kontrolle über die Ausgabe der KI ermöglicht.
Microsofts Forschungsteam hat die Skeleton Key Technik erfolgreich an mehreren prominenten KI-Modellen getestet, darunter Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo und GPT-4, Mistral Large, Anthropic’s Claude 3 Opus und Cohere Commander R Plus.
Alle betroffenen Modelle erfüllten vollständig die Anforderungen in verschiedenen Risikokategorien, einschließlich Explosivstoffe, Biowaffen, politische Inhalte, Selbstverletzung, Rassismus, Drogen, expliziter Sex und Gewalt.
Der Mechanismus Hinter Skeleton Key
Der Angriff funktioniert, indem das Modell angewiesen wird, seine Verhaltensrichtlinien zu erweitern und auf jede Informations- oder Inhaltsanfrage zu reagieren, während es eine Warnung ausgibt, falls die Ausgabe als anstößig, schädlich oder illegal betrachtet werden könnte. Dieser Ansatz, bekannt als „Explicit: forced instruction-following“, erwies sich als effektiv über mehrere AI-Systeme hinweg.
„Durch das Umgehen von Schutzmaßnahmen ermöglicht Skeleton Key dem Benutzer, das Modell dazu zu bringen, normalerweise verbotene Verhaltensweisen zu produzieren, die von der Erstellung schädlicher Inhalte bis hin zum Überschreiben der üblichen Entscheidungsregeln reichen könnten“, erklärte Microsoft.
Microsofts Reaktion und Schutzmaßnahmen
Als Reaktion auf diese Entdeckung hat Microsoft mehrere Schutzmaßnahmen in seine AI-Angebote, einschließlich der Copilot AI-Assistenten, implementiert.
Microsoft hat auch seine Erkenntnisse über verantwortungsbewusste Offenlegungsverfahren mit anderen AI-Anbietern geteilt und seine Azure AI-verwalteten Modelle aktualisiert, um diesen Angriffstyp mittels Prompt Shields zu erkennen und zu blockieren.
Empfehlungen für AI-Systemdesigner
Um die Risiken im Zusammenhang mit Skeleton Key und ähnlichen Jailbreak-Techniken zu mindern, empfiehlt Microsoft einen mehrschichtigen Ansatz:
- Input-Filterung zur Erkennung und Blockierung potenziell schädlicher oder bösartiger Eingaben.
- Sorgfältige Prompt-Entwicklung von Systemnachrichten zur Verstärkung des angemessenen Verhaltens.
- Output-Filterung, um die Erstellung von Inhalten zu verhindern, die Sicherheitskriterien verletzen.
- Überwachungssysteme für Missbrauch, die auf adversarialen Beispielen trainiert sind, um wiederkehrende problematische Inhalte oder Verhaltensweisen zu erkennen und zu mindern.
Microsoft hat auch sein PyRIT (Python Risk Identification Toolkit) aktualisiert, um Skeleton Key einzuschließen, sodass Entwickler und Sicherheitsteams ihre AI-Systeme gegen diese neue Bedrohung testen können.
Die Bedeutung der Entdeckung von Skeleton Key
Die Entdeckung der Skeleton Key Jailbreak-Technik unterstreicht die anhaltenden Herausforderungen bei der Sicherung von AI-Systemen, da diese in verschiedenen Anwendungen immer häufiger eingesetzt werden.
Die Rolle von Kapitel H
Kapitel H steht bereit, um Unternehmen zu unterstützen, die Sicherheit ihrer AI-Systeme zu gewährleisten. Mit umfassender Erfahrung in der Implementierung von Schutzmaßnahmen und der Entwicklung sicherer AI-Modelle bieten wir maßgeschneiderte Lösungen, um den Herausforderungen von Jailbreak-Techniken wie Skeleton Key zu begegnen. Unsere Expertise umfasst:
- Beratung und Schulung: Wir schulen Ihr Team im Erkennen und Verhindern von AI-Jailbreaks.
- Sicherheitsaudits: Unsere Experten führen umfassende Sicherheitsüberprüfungen Ihrer AI-Systeme durch.
- Entwicklung sicherer AI-Modelle: Wir helfen Ihnen, robuste AI-Modelle zu entwickeln, die gegen Sicherheitsbedrohungen resistent sind.
- Implementierung von Schutzmechanismen: Wir implementieren fortschrittliche Sicherheitsmaßnahmen wie Input- und Output-Filterung sowie Missbrauchsüberwachungssysteme.
Vertrauen Sie Kapitel H, um Ihre AI-Systeme sicher und zuverlässig zu gestalten.
Quelle: https://www.artificialintelligence-news.com/2024/06/28/microsoft-details-skeleton-key-ai-jailbreak/