Abliteration in zehn Minuten: Warum offene Llama- und Gemma-Gewichte jetzt zur Lieferketten-Frage werden
27. Mai 2026. Eine gemeinsame Recherche der Financial Times und der KI-Sicherheits-Gruppe Alice hat am 25. Mai dokumentiert, dass das frei verfügbare GitHub-Werkzeug Heretic die Sicherheits-Guardrails aus Metas Llama 3.3 in unter zehn Minuten und ohne Spezial-Hardware entfernt. Dieselbe Technik der directional ablation (kurz Abliteration) greift bei Googles Gemma 3 und wurde laut Heretic-Maintainer Philipp Emanuel Weidmann bei Gemma 4 binnen 90 Minuten nach Release angewendet. Damit ist die Annahme, ein Open-Weight-Modell aus einem Community-Mirror sei das, was die Hersteller-Modellkarte verspricht, technisch nicht mehr tragfähig.

Was ist passiert
Die Financial Times und die Sicherheits-Gruppe Alice haben das Open-Source-Werkzeug Heretic auf Metas Llama 3.3 und Googles Gemma 3 angewendet und die Refusal-Schicht mit wenigen Kommandos entfernt. Die modifizierten Modelle lieferten anschliessend Inhalte, die die Original-Systeme verweigerten — Synthese-Hinweise zu Chlorgas, Code für Kreditkarten-Diebstahl, Texte mit kindesmissbrauchsbezogenem Material. Heretic-Maintainer Philipp Emanuel Weidmann bestätigt gegenüber der FT, dass über sein Werkzeug bislang über 3.500 dezensierte Modellvarianten erzeugt wurden, zusammen 13 Millionen Mal heruntergeladen; Gemma 4 lag 90 Minuten nach Release abliteriert vor. Google bezeichnet das Verfahren als bekannte Schwäche aller offenen Modelle, Meta lehnte Stellungnahme ab, GitHub verweist auf die Forschungs-Ausnahme seiner Plattform-Richtlinien.
Einordnung
Methodisch ist Abliteration kein Prompt-Jailbreak, sondern ein Eingriff in den Modell-Tensor: in der versteckten Schicht wird die Richtung identifiziert, die für Refusal verantwortlich ist, und per linearer Projektion herausgerechnet. Die Technik ist seit 2024 dokumentiert; eine Studie im NeurIPS-2025-Workshop Lock-LLM zeigt, dass Refusal-only-Trainings besonders fragil bleiben, während kombinierte Safety-Pretraining-Verfahren teilweise standhalten. Neu am FT/Alice-Befund ist nicht die Existenz der Methode, sondern ihre Trivialisierung — eine Pipeline mit Optuna-gestützter Parameter-Suche, ein CLI-Aufruf, kein Fine-Tuning, kein GPU-Cluster. Damit verschiebt sich Open-Weight-Sicherheit aus dem Researcher-Workspace in den Default-Werkzeugkasten.
Bedeutung für den Mittelstand
Für unsere Kundschaft, die in den letzten Monaten von API-Pfaden bei OpenAI oder Anthropic auf Self-Hosted- oder Sovereign-Hosting-Architekturen mit Llama, Gemma, Mistral oder Qwen umgestiegen ist, ist das eine direkte Lieferketten-Frage. Die Antwort „wir hosten ein offenes Modell“ reicht nicht mehr; gefragt ist, welches Gewicht in welcher Prüfsumme auf welchem Inferenz-Host läuft und woher die Bytes stammen. Bei einer Llama-3.3-Variante aus einem Community-Mirror ist nicht mehr verlässlich erkennbar, ob die Refusal-Schicht intakt ist — ein Service-Bot, der Synthese-Anleitungen oder CSA-Inhalte ausgeben kann, ist auch isoliert ein operatives und reputationelles Risiko.
Compliance-seitig wirkt das auf mehrere Achsen. Der EU AI Act adressiert in Artikel 53 die Provider-Pflichten für General-Purpose-Modelle und in Artikel 25 die der Deployer; wer ein abliteriertes Gewicht produktiv stellt, wird schnell selbst Provider einer modifizierten Variante mit den entsprechenden Dokumentations- und Risikoanalyse-Pflichten. NIS-2 und BSI APP.7 verlangen Integritäts-Nachweis und Provenance der Modelle als Teil des Supply-Chain-Inventars. Für DSGVO-Pipelines kommt Art. 25 Privacy by Design hinzu; ein nicht-verifizierbares Gewicht ist im Sinne der DSFA ein dokumentationspflichtiges Risiko. Für regulierte Häuser unter DORA oder MaRisk gehört das in die nächste IKS-Runde, nicht in die übernächste.
Bedeutung für die technische Entwicklung
Architektonisch zeichnet sich eine Spur ab, die wir bei Container-Images seit Jahren fahren: Tags sind nicht reproduzierbar, Prüfsummen sind es. Hugging Face liefert pro Repository einen Commit-Hash und pro Datei einen SHA-256; Sigstore und das Model-Signing-Konsortium der OpenSSF sind die laufenden Standardisierungs-Stränge, die diese Hashes in eine verifizierbare Provenance überführen. Wer heute eine Inferenz-Pipeline baut, sollte Gewichte exakt so behandeln wie npm-Pakete oder Composer-Dependencies — pinned, gelockt, in einem signierten Manifest, gegen ein verifiziertes Repository gespiegelt.
Der zweite Strang ist die Architektur-Trennung. Refusal-Logik gehört nicht ausschliesslich ins Modell, sondern zusätzlich in eine vorgelagerte Policy-Schicht, die unabhängig vom Gewicht prüft, was die Pipeline annimmt und herausgibt — etwa über NVIDIAs OpenShell-Runtime, Metas Llama-Guard-Familie oder NeMo Guardrails als Sidecar. Damit überlebt die Sicherheits-Eigenschaft den Wechsel des Inferenz-Gewichts.
Konkrete Handlungsempfehlung
In dieser Reihenfolge. Erstens, inventarisieren Sie binnen vierzehn Tagen, welche Open-Weight-Modelle in welcher Datei-Prüfsumme auf welchen Hosts laufen; „irgendein Llama 3.3“ ist die Diagnose, nicht die Inventur. Zweitens, ziehen Sie alle Modell-Pulls auf signierte Vendor-Quellen oder verifizierte Hugging-Face-Org-Mirror um, lock-pinned auf die Datei-SHA, nicht auf den Tag. Drittens, prüfen Sie, ob Ihre Pipeline eine vom Modell unabhängige Policy-Schicht trägt; wenn nicht, planen Sie eine Llama-Guard- oder NeMo-Guardrails-Sidecar ein. Wenn diese drei Schritte aus eigener Kraft nicht laufen, sprechen Sie mit uns: Moselwal richtet Open-Weight-Pipelines, in denen die Integritäts-Frage vor der nächsten Audit-Runde beantwortet ist, nicht währenddessen.
Dieser Beitrag spiegelt unsere technische und strategische Einschätzung. Er ersetzt keine Rechtsberatung und keine Datenschutz-Folgenabschätzung.
Quellen
- Irish Times / Financial Times — AI guardrails stripped from Meta and Google models in minutes (25.05.2026)
- Heretic — Fully automatic censorship removal for language models (GitHub p-e-w/heretic, Stand 26.05.2026)
- arXiv 2510.02768 — A Granular Study of Safety Pretraining under Model Abliteration, NeurIPS 2025 Workshop Lock-LLM (03.10.2025)
- arXiv 2505.19056 — An Embarrassingly Simple Defense Against LLM Abliteration Attacks (25.05.2025)
Über die Autorin
Kim Hartwig
Kim verantwortet das operative Geschäft und begleitet unsere Kunden strategisch im Alltag. Ihre Expertise in der Computerlinguistik vereint kommunikatives Verständnis mit technologischem Know-how.