Abliteration in zehn Minuten: Warum offene Llama- und Gemma-Gewichte jetzt zur Lieferketten-Frage werden

27. Mai 2026. Eine gemeinsame Recherche der Financial Times und der KI-Sicherheits-Gruppe Alice hat am 25. Mai dokumentiert, dass das frei verfügbare GitHub-Werkzeug Heretic die Sicherheits-Guardrails aus Metas Llama 3.3 in unter zehn Minuten und ohne Spezial-Hardware entfernt. Dieselbe Technik der directional ablation (kurz Abliteration) greift bei Googles Gemma 3 und wurde laut Heretic-Maintainer Philipp Emanuel Weidmann bei Gemma 4 binnen 90 Minuten nach Release angewendet. Damit ist die Annahme, ein Open-Weight-Modell aus einem Community-Mirror sei das, was die Hersteller-Modellkarte verspricht, technisch nicht mehr tragfähig.

Aufsicht-Stillleben auf matt-dunkler Schieferflaeche als Arbeitstisch eines Modell-Provenance-Auditors: zwei beinahe identische cremefarbene Modell-Manifeste, leicht ueberlappend; das linke mit einem intakten praezise gesetzten oxblutroten Wachssiegel und klarer Cipher-Mark, das rechte mit demselben Wachssiegel in derselben Farbe und Form - aber die eingepraegte Cipher-Mark im Zentrum wurde sauber mit einer feinen Klinge herausgehoben, der Rest des Siegels ist unveraendert. Bruenierte Messing-Lupe mit Walnussgriff quer ueber der Naht, das Glas exakt ueber dem manipulierten Siegel. Provenance-Hauptbuch mit drei SHA-Kuerzeln in Bleistift, eines durchgestrichen; Messing-Stempel und SHA-256-Karteikaertchen im rechten Negativraum. Kuehles Studio-Schluesselicht von oben links, sanftes warmes Rim-Licht von unten rechts; Hintergrund verlaeuft ins Schiefergrau und Beinahe-Schwarz am rechten Bildrand, fuer das Title-Overlay frei. — AI-generated · gpt-image 2.0

Was ist passiert

Die Financial Times und die Sicherheits-Gruppe Alice haben das Open-Source-Werkzeug Heretic auf Metas Llama 3.3 und Googles Gemma 3 angewendet und die Refusal-Schicht mit wenigen Kommandos entfernt. Die modifizierten Modelle lieferten anschliessend Inhalte, die die Original-Systeme verweigerten — Synthese-Hinweise zu Chlorgas, Code für Kreditkarten-Diebstahl, Texte mit kindesmissbrauchsbezogenem Material. Heretic-Maintainer Philipp Emanuel Weidmann bestätigt gegenüber der FT, dass über sein Werkzeug bislang über 3.500 dezensierte Modellvarianten erzeugt wurden, zusammen 13 Millionen Mal heruntergeladen; Gemma 4 lag 90 Minuten nach Release abliteriert vor. Google bezeichnet das Verfahren als bekannte Schwäche aller offenen Modelle, Meta lehnte Stellungnahme ab, GitHub verweist auf die Forschungs-Ausnahme seiner Plattform-Richtlinien.

Einordnung

Methodisch ist Abliteration kein Prompt-Jailbreak, sondern ein Eingriff in den Modell-Tensor: in der versteckten Schicht wird die Richtung identifiziert, die für Refusal verantwortlich ist, und per linearer Projektion herausgerechnet. Die Technik ist seit 2024 dokumentiert; eine Studie im NeurIPS-2025-Workshop Lock-LLM zeigt, dass Refusal-only-Trainings besonders fragil bleiben, während kombinierte Safety-Pretraining-Verfahren teilweise standhalten. Neu am FT/Alice-Befund ist nicht die Existenz der Methode, sondern ihre Trivialisierung — eine Pipeline mit Optuna-gestützter Parameter-Suche, ein CLI-Aufruf, kein Fine-Tuning, kein GPU-Cluster. Damit verschiebt sich Open-Weight-Sicherheit aus dem Researcher-Workspace in den Default-Werkzeugkasten.

Bedeutung für den Mittelstand

Für unsere Kundschaft, die in den letzten Monaten von API-Pfaden bei OpenAI oder Anthropic auf Self-Hosted- oder Sovereign-Hosting-Architekturen mit Llama, Gemma, Mistral oder Qwen umgestiegen ist, ist das eine direkte Lieferketten-Frage. Die Antwort „wir hosten ein offenes Modell“ reicht nicht mehr; gefragt ist, welches Gewicht in welcher Prüfsumme auf welchem Inferenz-Host läuft und woher die Bytes stammen. Bei einer Llama-3.3-Variante aus einem Community-Mirror ist nicht mehr verlässlich erkennbar, ob die Refusal-Schicht intakt ist — ein Service-Bot, der Synthese-Anleitungen oder CSA-Inhalte ausgeben kann, ist auch isoliert ein operatives und reputationelles Risiko.

Compliance-seitig wirkt das auf mehrere Achsen. Der EU AI Act adressiert in Artikel 53 die Provider-Pflichten für General-Purpose-Modelle und in Artikel 25 die der Deployer; wer ein abliteriertes Gewicht produktiv stellt, wird schnell selbst Provider einer modifizierten Variante mit den entsprechenden Dokumentations- und Risikoanalyse-Pflichten. NIS-2 und BSI APP.7 verlangen Integritäts-Nachweis und Provenance der Modelle als Teil des Supply-Chain-Inventars. Für DSGVO-Pipelines kommt Art. 25 Privacy by Design hinzu; ein nicht-verifizierbares Gewicht ist im Sinne der DSFA ein dokumentationspflichtiges Risiko. Für regulierte Häuser unter DORA oder MaRisk gehört das in die nächste IKS-Runde, nicht in die übernächste.

Bedeutung für die technische Entwicklung

Architektonisch zeichnet sich eine Spur ab, die wir bei Container-Images seit Jahren fahren: Tags sind nicht reproduzierbar, Prüfsummen sind es. Hugging Face liefert pro Repository einen Commit-Hash und pro Datei einen SHA-256; Sigstore und das Model-Signing-Konsortium der OpenSSF sind die laufenden Standardisierungs-Stränge, die diese Hashes in eine verifizierbare Provenance überführen. Wer heute eine Inferenz-Pipeline baut, sollte Gewichte exakt so behandeln wie npm-Pakete oder Composer-Dependencies — pinned, gelockt, in einem signierten Manifest, gegen ein verifiziertes Repository gespiegelt.

Der zweite Strang ist die Architektur-Trennung. Refusal-Logik gehört nicht ausschliesslich ins Modell, sondern zusätzlich in eine vorgelagerte Policy-Schicht, die unabhängig vom Gewicht prüft, was die Pipeline annimmt und herausgibt — etwa über NVIDIAs OpenShell-Runtime, Metas Llama-Guard-Familie oder NeMo Guardrails als Sidecar. Damit überlebt die Sicherheits-Eigenschaft den Wechsel des Inferenz-Gewichts.

Konkrete Handlungsempfehlung

In dieser Reihenfolge. Erstens, inventarisieren Sie binnen vierzehn Tagen, welche Open-Weight-Modelle in welcher Datei-Prüfsumme auf welchen Hosts laufen; „irgendein Llama 3.3“ ist die Diagnose, nicht die Inventur. Zweitens, ziehen Sie alle Modell-Pulls auf signierte Vendor-Quellen oder verifizierte Hugging-Face-Org-Mirror um, lock-pinned auf die Datei-SHA, nicht auf den Tag. Drittens, prüfen Sie, ob Ihre Pipeline eine vom Modell unabhängige Policy-Schicht trägt; wenn nicht, planen Sie eine Llama-Guard- oder NeMo-Guardrails-Sidecar ein. Wenn diese drei Schritte aus eigener Kraft nicht laufen, sprechen Sie mit uns: Moselwal richtet Open-Weight-Pipelines, in denen die Integritäts-Frage vor der nächsten Audit-Runde beantwortet ist, nicht währenddessen.

Dieser Beitrag spiegelt unsere technische und strategische Einschätzung. Er ersetzt keine Rechtsberatung und keine Datenschutz-Folgenabschätzung.

Quellen

Über die Autorin

Kim Hartwig

Geschäftsführerin · Moselwal Digitalagentur

Kim verantwortet das operative Geschäft und begleitet unsere Kunden strategisch im Alltag. Ihre Expertise in der Computerlinguistik vereint kommunikatives Verständnis mit technologischem Know-how.

LinkedIn · kontakt@moselwal.de