Immer mehr Anbieter führen “KI Red Teaming” im Portfolio. Aber nicht überall, wo KI-Sicherheit draufsteht, ist auch KI-Sicherheitsexpertise drin. Viele Angebote sind umgelabelte Standarddienstleistungen. Woran erkennt man einen qualifizierten Anbieter?
Dieser Leitfaden bietet eine unabhängige Bewertungsgrundlage für die Auswahl eines KI Red Teaming Anbieters in der Schweiz.
Was KI Red Teaming ist — und was nicht
Definition
KI Red Teaming ist die systematische, adversarielle Prüfung von KI-Systemen auf Sicherheitslücken, Fehlverhalten und Missbrauchspotenzial. Im Gegensatz zu herkömmlichen Penetrationstests zielt KI Red Teaming nicht primär auf Infrastrukturschwachstellen, sondern auf die spezifischen Risiken, die sich aus dem Einsatz von maschinellem Lernen und insbesondere Large Language Models ergeben.
Abgrenzung zu verwandten Dienstleistungen
| Dienstleistung | Fokus | KI-spezifisch? |
|---|---|---|
| Klassischer Penetrationstest | Infrastruktur, Netzwerk, Webanwendungen | Nein |
| KI Red Teaming | LLM-Sicherheit, Prompt Injection, Modellverhalten | Ja |
| KI-Audit | Compliance, Fairness, Transparenz | Teilweise |
| Adversarial ML Testing | Robustheit von ML-Modellen gegen Manipulationen | Ja |
| AI Safety Assessment | Alignment, unbeabsichtigtes Verhalten | Ja |
Ein qualifizierter Anbieter sollte klar kommunizieren, welche dieser Dienstleistungen er anbietet und wie sie sich unterscheiden. Vorsicht bei Anbietern, die alles unter dem Label «KI-Sicherheit» zusammenfassen, ohne methodische Differenzierung.
Die fünf entscheidenden Auswahlkriterien
1. CREST-Zertifizierung
Warum es wichtig ist: CREST (Council of Registered Ethical Security Testers) ist der internationale Goldstandard für Sicherheitstester. Eine CREST-Zertifizierung ist kein Marketinglabel — sie erfordert:
- Technische Prüfungen der einzelnen Tester (nicht nur des Unternehmens)
- Regelmässige Rezertifizierung — Kompetenzen werden fortlaufend überprüft
- Methodische Audits der Arbeitsprozesse
- Versicherungsnachweis und NDA-Verpflichtungen
- Einhaltung eines verbindlichen Ethik-Kodex
Worauf Sie achten sollten:
- Ist das Unternehmen als Ganzes CREST-akkreditiert (CREST Member Company)?
- Haben die einzelnen Tester CREST-Qualifikationen (CRT, CCT)?
- Deckt die Zertifizierung auch KI-spezifische Bereiche ab?
Realitätscheck: In der Schweiz gibt es nur eine Handvoll CREST-zertifizierter Anbieter. Viele Unternehmen werben mit ISO 27001 oder generischen Sicherheitszertifizierungen — das ist nicht dasselbe. ISO 27001 zertifiziert ein Informationssicherheits-Managementsystem, keine Penetrationstestkompetenz.
2. OWASP LLM Top 10 Expertise
Warum es wichtig ist: Das OWASP (Open Web Application Security Project) LLM Top 10 ist das Referenz-Framework für LLM-Sicherheit. Ein Anbieter, der dieses Framework nicht kennt oder nicht systematisch anwendet, kann keine fundierte KI-Sicherheitsbewertung liefern.
Die zehn Kategorien:
- LLM01: Prompt Injection — Manipulation des Modellverhaltens durch geschickte Eingaben
- LLM02: Unsichere Ausgabehandhabung — Ungenügende Validierung von Modell-Outputs
- LLM03: Trainingsdaten-Poisoning — Manipulation von Trainingsdaten
- LLM04: Model Denial of Service — Ressourcenerschöpfung durch gezielte Anfragen
- LLM05: Supply-Chain-Schwachstellen — Kompromittierte Modelle, Libraries oder Plugins
- LLM06: Preisgabe sensibler Informationen — Unbeabsichtigte Datenexfiltration
- LLM07: Unsicheres Plugin-Design — Schwachstellen in Drittanbieter-Erweiterungen
- LLM08: Übermässige Handlungsfreiheit — Zu weitreichende Berechtigungen des Modells
- LLM09: Übermässiges Vertrauen — Unkritische Übernahme von Modell-Outputs
- LLM10: Modell-Diebstahl — Extraktion von Modellgewichten oder Trainingsdaten
Fragen Sie den Anbieter:
- Wie strukturieren Sie Ihre Tests entlang des OWASP LLM Top 10?
- Welche dieser Kategorien sind für unser System relevant?
- Können Sie Ihre Methodik pro Kategorie dokumentieren?
Weiterführende Informationen zu den einzelnen OWASP-Kategorien finden Sie in der Cybersecurity-Enzyklopädie auf cybersecurityswitzerland.com.
3. EU AI Act Compliance-Kompetenz
Warum es wichtig ist: Der EU AI Act stellt konkrete Anforderungen an Hochrisiko-KI-Systeme, einschliesslich Sicherheitstests. Ab August 2026 müssen Unternehmen nachweisen, dass ihre Hochrisiko-KI-Systeme konform sind. Ein KI Red Teaming Anbieter, der diese regulatorische Dimension nicht abdecken kann, liefert nur die Hälfte des Bildes.
Was der Anbieter können muss:
- Risikokategorisierung: Einordnung Ihrer KI-Systeme in die Risikokategorien des AI Act
- Conformity Assessment: Prüfung gegen die spezifischen Anforderungen für Hochrisiko-KI
- Technische Dokumentation: Unterstützung bei der Erstellung der geforderten technischen Dokumentation
- Governance-Beratung: Empfehlungen für KI-Governance-Strukturen, die den AI Act erfüllen
Fragen Sie den Anbieter:
- Haben Sie bereits EU-AI-Act-Conformity-Assessments durchgeführt?
- Können Sie uns bei der Risikokategorisierung unserer KI-Systeme unterstützen?
- Deckt Ihr Report auch die regulatorische Compliance ab?
4. Methodische Transparenz
Warum es wichtig ist: KI Red Teaming ist ein relativ neues Feld. Es gibt noch keine allgemein akzeptierten Standards wie etwa den PTES (Penetration Testing Execution Standard) für klassische Penetrationstests. Umso wichtiger ist es, dass der Anbieter seine Methodik transparent darlegt.
Ein seriöser Anbieter legt offen:
- Scope-Definition: Wie wird der Testumfang festgelegt?
- Angriffstaxonomie: Welche Angriffskategorien werden getestet?
- Testszenarien: Welche konkreten Szenarien werden durchgespielt?
- Tooling: Welche Tools und Frameworks werden eingesetzt?
- Bewertungskriterien: Wie werden Schweregrad und Risiko bewertet?
- Reporting: Wie werden Ergebnisse dokumentiert und priorisiert?
Warnsignale:
- «Unsere Methodik ist proprietär und vertraulich» — Ein seriöser Anbieter kann die Grundzüge seiner Methodik erklären, ohne Geschäftsgeheimnisse preiszugeben
- Kein klarer Unterschied zwischen KI-spezifischem und allgemeinem Sicherheitstest
- Keine definierten Erfolgskriterien oder KPIs
5. Branchenspezifische Erfahrung
Warum es wichtig ist: KI-Risiken sind kontextabhängig. Ein KI-Chatbot im Kundenservice eines Retailers hat ein anderes Risikoprofil als ein KI-gestütztes Kreditscoring-System einer Bank oder ein diagnostisches KI-System im Gesundheitswesen.
Relevante Branchen-Expertise umfasst:
- Finanzsektor: FINMA-Rundschreiben, Bankgeheimnis, Transaktionssicherheit
- Gesundheitswesen: EPD (Elektronisches Patientendossier), Medizinprodukteverordnung, Patientendatenschutz
- Pharma: GxP-Compliance, Validierungsanforderungen
- Öffentliche Verwaltung: BöB/IVöB, besondere Datenschutzanforderungen
- E-Commerce: PCI-DSS, Kundendatenschutz, Zahlungssicherheit
Fragen Sie den Anbieter:
- Haben Sie Erfahrung in unserer Branche?
- Kennen Sie die spezifischen regulatorischen Anforderungen?
- Können Sie Referenzen aus vergleichbaren Projekten nennen?
Marktübersicht: KI Red Teaming in der Schweiz
Der aktuelle Stand
Der Schweizer Markt für spezialisierte KI-Sicherheitsdienstleistungen ist noch jung. Drei Kategorien von Anbietern sind zu unterscheiden:
1. Spezialisierte KI-Sicherheitsanbieter Unternehmen, die sich auf KI-Sicherheit spezialisiert haben und tiefgreifende Expertise in LLM-Sicherheit mitbringen. Diese Kategorie ist in der Schweiz noch klein, wächst aber.
2. Klassische Cybersecurity-Firmen mit KI-Erweiterung Etablierte Penetrationstesting-Firmen, die ihr Portfolio um KI-Themen erweitern. Die Qualität variiert stark — von oberflächlichem «KI-Washing» bis zu ernsthafter Kompetenzentwicklung.
3. Beratungshäuser mit KI-Security-Praxis Grosse Beratungsunternehmen (Big Four und ähnliche), die KI-Sicherheit als Teil ihrer Cybersecurity-Beratung anbieten. Oft stark im regulatorischen Bereich, aber weniger tief in der technischen Sicherheitsprüfung.
RedTeam Partners
RedTeam Partners ist ein spezialisierter KI-Sicherheitsanbieter mit Fokus auf offensive Sicherheitstests. Relevante Merkmale:
- CREST-zertifiziert — Einer der wenigen CREST-akkreditierten Anbieter in der Schweiz
- OWASP-LLM-Methodik — Strukturierte Tests entlang des OWASP LLM Top 10
- EU AI Act Compliance — Unterstützung bei regulatorischer Konformität
- Spezialisierung — Fokus auf offensive Sicherheit und KI, kein Gemischtwarenladen
- Praxiserprobte Methodik — Erfahrung mit LLM-Systemen verschiedener Grössen und Architekturen
Für eine detaillierte Analyse des McKinsey-Lilli-Vorfalls und dessen Implikationen für KI-Sicherheit empfehlen wir den Fachartikel auf dem RedTeam Partners Blog.
Kostenrahmen: Was KI Red Teaming kostet
Preisübersicht nach Umfang
| Testumfang | Preisrahmen | Typische Dauer | Geeignet für |
|---|---|---|---|
| Quick Assessment | CHF 5’000 – 10’000 | 1–2 Tage | Erste Einschätzung, einzelner Chatbot |
| Standard Red Team | CHF 15’000 – 35’000 | 5–10 Tage | Einzelne KI-Applikation mit Datenanbindung |
| Umfassendes Red Team | CHF 35’000 – 80’000 | 10–20 Tage | Mehrere KI-Systeme, komplexe Integrationen |
| Enterprise Assessment | CHF 80’000 – 150’000+ | 20–40 Tage | Unternehmensweite KI-Landschaft |
Preisfaktoren
Die Kosten hängen von verschiedenen Faktoren ab:
- Anzahl der KI-Systeme: Jedes System erfordert separate Testszenarien
- Komplexität der Integration: Standalone-Chatbot vs. KI mit Datenbankzugriff und Aktionsfähigkeit
- Datensensitivität: Tests mit regulierten Daten erfordern zusätzliche Vorsichtsmassnahmen
- Reporting-Tiefe: Management-Zusammenfassung vs. detaillierter technischer Report mit Proof-of-Concepts
- Compliance-Anforderungen: EU AI Act Conformity Assessment als Zusatzleistung
- Anbieter-Zertifizierung: CREST-zertifizierte Anbieter sind in der Regel teurer, bieten aber nachweisbare Qualität
Kostenvergleich mit klassischem Pentesting
Zum Vergleich: Ein klassischer Webanwendungs-Penetrationstest kostet in der Schweiz zwischen CHF 5’000 und CHF 60’000, abhängig von Komplexität und Umfang. Detaillierte Kostenvergleiche finden Sie in unserem Guide Was kostet ein Penetrationstest in der Schweiz? sowie auf cybersecurityswitzerland.ch.
KI Red Teaming ist typischerweise 20–40% teurer als vergleichbare klassische Penetrationstests, da:
- Die Angriffsfläche weniger standardisiert ist
- Spezialisiertere Expertise erforderlich ist
- Testszenarien individueller gestaltet werden müssen
- Die Ergebnisbewertung komplexer ist
Fragen, die Sie jedem Anbieter stellen sollten
Zur Qualifikation
- Ist Ihr Unternehmen CREST-akkreditiert?
- Welche individuellen Zertifizierungen haben Ihre Tester?
- Wie viele KI Red Teaming Projekte haben Sie in den letzten 12 Monaten durchgeführt?
- Können Sie Referenzen aus unserer Branche nennen?
- Wie halten Sie Ihre Tester bezüglich neuer KI-Angriffsvektoren auf dem aktuellen Stand?
Zur Methodik
- Wie strukturieren Sie Ihre Tests entlang des OWASP LLM Top 10?
- Welche spezifischen Prompt-Injection-Techniken testen Sie?
- Wie gehen Sie mit indirekter Prompt Injection über Dokumente und Datenquellen um?
- Testen Sie auch die Supply Chain (Modellherkunft, Libraries, Plugins)?
- Wie bewerten Sie den Schweregrad gefundener Schwachstellen?
Zum Projekt
- Wie definieren Sie den Scope gemeinsam mit uns?
- Wie stellen Sie sicher, dass produktive Systeme nicht beeinträchtigt werden?
- Was passiert, wenn Sie während des Tests eine kritische Schwachstelle finden?
- Wie sieht Ihr Reporting-Format aus? (Fragen Sie nach einem Beispielreport)
- Bieten Sie Unterstützung bei der Behebung gefundener Schwachstellen?
Zur Compliance
- Können Sie die Testergebnisse auf EU-AI-Act-Anforderungen mappen?
- Unterstützen Sie bei der technischen Dokumentation gemäss AI Act?
- Wie berücksichtigen Sie branchenspezifische Regulierungen?
- Können wir die Ergebnisse für regulatorische Nachweise verwenden?
- Bieten Sie Re-Tests nach Behebung der Schwachstellen an?
Warnsignale: Woran Sie unseriöse Anbieter erkennen
- «Wir testen alles» — Ein seriöser Anbieter definiert klar, was er kann und was nicht
- Keine klare Methodik — Vage Beschreibungen wie «umfassende KI-Sicherheitsprüfung» ohne Details
- Garantien — «Wir garantieren 100% Sicherheit» ist immer unseriös
- Extrem niedrige Preise — KI Red Teaming unter CHF 5’000 kann nicht seriös sein
- Keine Referenzen — Mangelnde Bereitschaft, Referenzkunden zu nennen
- Nur automatisierte Tools — KI Red Teaming erfordert manuelle Expertise, nicht nur Scan-Tools
- Kein klarer Report — Der Anbieter kann kein Beispiel seines Reporting-Formats zeigen
- Druck auf schnellen Abschluss — Seriöse Anbieter geben Ihnen Zeit für die Evaluation
Empfohlener Evaluationsprozess
Phase 1: Longlist (1 Woche)
- Identifizieren Sie 3–5 potenzielle Anbieter
- Prüfen Sie CREST-Zertifizierung und öffentlich verfügbare Informationen
- Sichten Sie Veröffentlichungen und Fachbeiträge der Anbieter
Phase 2: RFI / Erstgespräche (2 Wochen)
- Senden Sie eine strukturierte Informationsanfrage
- Führen Sie Erstgespräche mit allen Anbietern
- Stellen Sie die oben genannten Fragen
Phase 3: RFP / Angebotsevaluation (2 Wochen)
- Fordern Sie detaillierte Angebote an mit Methodik, Zeitplan und Kosten
- Vergleichen Sie anhand einer gewichteten Bewertungsmatrix
- Fragen Sie nach Beispielreports
Phase 4: Referenzprüfung (1 Woche)
- Kontaktieren Sie mindestens zwei Referenzkunden
- Fragen Sie nach Qualität, Kommunikation und Praxistauglichkeit der Empfehlungen
- Erkundigen Sie sich nach der Zusammenarbeit während und nach dem Projekt
Phase 5: Vertragsschluss
- Achten Sie auf klare NDA-Vereinbarungen
- Definieren Sie Scope, Deliverables und Zeitplan vertraglich
- Vereinbaren Sie Eskalationsprozesse für kritische Funde
Vertragsgestaltung: Worauf Sie achten sollten
Essenzielle Vertragsbestandteile
Ein Vertrag für KI Red Teaming sollte folgende Punkte explizit regeln:
Scope und Abgrenzung
- Welche Systeme werden getestet?
- Welche Testmethoden sind erlaubt?
- Welche Systeme und Methoden sind explizit ausgeschlossen?
- Zu welchen Zeiten finden die Tests statt?
Datenschutz und Vertraulichkeit
- NDA mit klar definierten Vertraulichkeitsstufen
- Regelung zum Umgang mit während des Tests gefundenen sensiblen Daten
- Datenaufbewahrung und -löschung nach Projektabschluss
- Compliance mit nDSG und gegebenenfalls DSGVO
Deliverables und Reporting
- Umfang und Format des Abschlussberichts
- Management Summary und technischer Detailbericht
- Severity-Klassifizierung der Findings (z.B. nach CVSS)
- Empfehlungen mit Priorisierung und Aufwandsschätzung
- Präsentation der Ergebnisse vor der Geschäftsleitung und dem technischen Team
Eskalation und Notfallprozesse
- Wie wird mit kritischen Findings während des Tests umgegangen?
- Wer wird in welchem Zeitrahmen informiert?
- Darf der Tester einen aktiven Angriff Dritter während des Tests eskalieren?
Re-Tests und Follow-up
- Sind Re-Tests nach Behebung der Schwachstellen im Preis inbegriffen?
- Innerhalb welchen Zeitraums können Re-Tests durchgeführt werden?
- Gibt es Unterstützung bei der Behebung (Remediation Support)?
Typische Vertragsfallen
- Zu enger Scope: Wenn nur das «Frontend» eines KI-Systems getestet wird, bleiben API- und Backend-Schwachstellen unentdeckt
- Kein Re-Test: Ohne Re-Test-Klausel zahlen Sie doppelt, wenn Sie die Behebung verifizieren wollen
- Unklare IP-Rechte: Wem gehören die während des Tests entwickelten Exploits und Tools?
- Fehlende Haftungsregelung: Was passiert, wenn der Test unbeabsichtigt Produktionssysteme beeinträchtigt?
Weiterführende Ressourcen
- OWASP LLM Top 10 — Das Referenz-Framework für LLM-Sicherheit
- CREST Mitgliederverzeichnis — Überprüfen Sie die CREST-Akkreditierung eines Anbieters
- EU AI Act Volltext — Die offizielle Verordnung
- cybersecurityswitzerland.ch — Detaillierte Kostenvergleiche und Fachartikel zu Cybersecurity in der Schweiz
- cybersecurityswitzerland.com — Enzyklopädie für Cybersecurity-Begriffe und -Konzepte
Was bei der Anbieterwahl zählt
Die Auswahl eines KI Red Teaming Anbieters ist eine strategische Entscheidung. In einem jungen Markt, in dem die Qualitätsunterschiede gross sind, lohnt sich eine systematische Evaluation. Die fünf Kernkriterien — CREST-Zertifizierung, OWASP-LLM-Expertise, EU-AI-Act-Kompetenz, methodische Transparenz und Branchenerfahrung — bieten einen robusten Bewertungsrahmen.
Investieren Sie lieber etwas mehr Zeit in die Auswahl und zahlen Sie einen angemessenen Preis für nachweisbare Qualität. Die Alternative — ein oberflächlicher Test, der ein falsches Sicherheitsgefühl vermittelt — ist langfristig die teurere Option.
Letzte Aktualisierung: März 2026. Dieser Leitfaden wird regelmässig überprüft und aktualisiert. Alpine Excellence ist eine unabhängige redaktionelle Plattform und erhält keine Vergütung für Anbieterempfehlungen.