Immer mehr Anbieter führen “KI Red Teaming” im Portfolio. Aber nicht überall, wo KI-Sicherheit draufsteht, ist auch KI-Sicherheitsexpertise drin. Viele Angebote sind umgelabelte Standarddienstleistungen. Woran erkennt man einen qualifizierten Anbieter?

Dieser Leitfaden bietet eine unabhängige Bewertungsgrundlage für die Auswahl eines KI Red Teaming Anbieters in der Schweiz.

Was KI Red Teaming ist — und was nicht

Definition

KI Red Teaming ist die systematische, adversarielle Prüfung von KI-Systemen auf Sicherheitslücken, Fehlverhalten und Missbrauchspotenzial. Im Gegensatz zu herkömmlichen Penetrationstests zielt KI Red Teaming nicht primär auf Infrastrukturschwachstellen, sondern auf die spezifischen Risiken, die sich aus dem Einsatz von maschinellem Lernen und insbesondere Large Language Models ergeben.

Abgrenzung zu verwandten Dienstleistungen

DienstleistungFokusKI-spezifisch?
Klassischer PenetrationstestInfrastruktur, Netzwerk, WebanwendungenNein
KI Red TeamingLLM-Sicherheit, Prompt Injection, ModellverhaltenJa
KI-AuditCompliance, Fairness, TransparenzTeilweise
Adversarial ML TestingRobustheit von ML-Modellen gegen ManipulationenJa
AI Safety AssessmentAlignment, unbeabsichtigtes VerhaltenJa

Ein qualifizierter Anbieter sollte klar kommunizieren, welche dieser Dienstleistungen er anbietet und wie sie sich unterscheiden. Vorsicht bei Anbietern, die alles unter dem Label «KI-Sicherheit» zusammenfassen, ohne methodische Differenzierung.

Die fünf entscheidenden Auswahlkriterien

1. CREST-Zertifizierung

Warum es wichtig ist: CREST (Council of Registered Ethical Security Testers) ist der internationale Goldstandard für Sicherheitstester. Eine CREST-Zertifizierung ist kein Marketinglabel — sie erfordert:

  • Technische Prüfungen der einzelnen Tester (nicht nur des Unternehmens)
  • Regelmässige Rezertifizierung — Kompetenzen werden fortlaufend überprüft
  • Methodische Audits der Arbeitsprozesse
  • Versicherungsnachweis und NDA-Verpflichtungen
  • Einhaltung eines verbindlichen Ethik-Kodex

Worauf Sie achten sollten:

  • Ist das Unternehmen als Ganzes CREST-akkreditiert (CREST Member Company)?
  • Haben die einzelnen Tester CREST-Qualifikationen (CRT, CCT)?
  • Deckt die Zertifizierung auch KI-spezifische Bereiche ab?

Realitätscheck: In der Schweiz gibt es nur eine Handvoll CREST-zertifizierter Anbieter. Viele Unternehmen werben mit ISO 27001 oder generischen Sicherheitszertifizierungen — das ist nicht dasselbe. ISO 27001 zertifiziert ein Informationssicherheits-Managementsystem, keine Penetrationstestkompetenz.

2. OWASP LLM Top 10 Expertise

Warum es wichtig ist: Das OWASP (Open Web Application Security Project) LLM Top 10 ist das Referenz-Framework für LLM-Sicherheit. Ein Anbieter, der dieses Framework nicht kennt oder nicht systematisch anwendet, kann keine fundierte KI-Sicherheitsbewertung liefern.

Die zehn Kategorien:

  1. LLM01: Prompt Injection — Manipulation des Modellverhaltens durch geschickte Eingaben
  2. LLM02: Unsichere Ausgabehandhabung — Ungenügende Validierung von Modell-Outputs
  3. LLM03: Trainingsdaten-Poisoning — Manipulation von Trainingsdaten
  4. LLM04: Model Denial of Service — Ressourcenerschöpfung durch gezielte Anfragen
  5. LLM05: Supply-Chain-Schwachstellen — Kompromittierte Modelle, Libraries oder Plugins
  6. LLM06: Preisgabe sensibler Informationen — Unbeabsichtigte Datenexfiltration
  7. LLM07: Unsicheres Plugin-Design — Schwachstellen in Drittanbieter-Erweiterungen
  8. LLM08: Übermässige Handlungsfreiheit — Zu weitreichende Berechtigungen des Modells
  9. LLM09: Übermässiges Vertrauen — Unkritische Übernahme von Modell-Outputs
  10. LLM10: Modell-Diebstahl — Extraktion von Modellgewichten oder Trainingsdaten

Fragen Sie den Anbieter:

  • Wie strukturieren Sie Ihre Tests entlang des OWASP LLM Top 10?
  • Welche dieser Kategorien sind für unser System relevant?
  • Können Sie Ihre Methodik pro Kategorie dokumentieren?

Weiterführende Informationen zu den einzelnen OWASP-Kategorien finden Sie in der Cybersecurity-Enzyklopädie auf cybersecurityswitzerland.com.

3. EU AI Act Compliance-Kompetenz

Warum es wichtig ist: Der EU AI Act stellt konkrete Anforderungen an Hochrisiko-KI-Systeme, einschliesslich Sicherheitstests. Ab August 2026 müssen Unternehmen nachweisen, dass ihre Hochrisiko-KI-Systeme konform sind. Ein KI Red Teaming Anbieter, der diese regulatorische Dimension nicht abdecken kann, liefert nur die Hälfte des Bildes.

Was der Anbieter können muss:

  • Risikokategorisierung: Einordnung Ihrer KI-Systeme in die Risikokategorien des AI Act
  • Conformity Assessment: Prüfung gegen die spezifischen Anforderungen für Hochrisiko-KI
  • Technische Dokumentation: Unterstützung bei der Erstellung der geforderten technischen Dokumentation
  • Governance-Beratung: Empfehlungen für KI-Governance-Strukturen, die den AI Act erfüllen

Fragen Sie den Anbieter:

  • Haben Sie bereits EU-AI-Act-Conformity-Assessments durchgeführt?
  • Können Sie uns bei der Risikokategorisierung unserer KI-Systeme unterstützen?
  • Deckt Ihr Report auch die regulatorische Compliance ab?

4. Methodische Transparenz

Warum es wichtig ist: KI Red Teaming ist ein relativ neues Feld. Es gibt noch keine allgemein akzeptierten Standards wie etwa den PTES (Penetration Testing Execution Standard) für klassische Penetrationstests. Umso wichtiger ist es, dass der Anbieter seine Methodik transparent darlegt.

Ein seriöser Anbieter legt offen:

  • Scope-Definition: Wie wird der Testumfang festgelegt?
  • Angriffstaxonomie: Welche Angriffskategorien werden getestet?
  • Testszenarien: Welche konkreten Szenarien werden durchgespielt?
  • Tooling: Welche Tools und Frameworks werden eingesetzt?
  • Bewertungskriterien: Wie werden Schweregrad und Risiko bewertet?
  • Reporting: Wie werden Ergebnisse dokumentiert und priorisiert?

Warnsignale:

  • «Unsere Methodik ist proprietär und vertraulich» — Ein seriöser Anbieter kann die Grundzüge seiner Methodik erklären, ohne Geschäftsgeheimnisse preiszugeben
  • Kein klarer Unterschied zwischen KI-spezifischem und allgemeinem Sicherheitstest
  • Keine definierten Erfolgskriterien oder KPIs

5. Branchenspezifische Erfahrung

Warum es wichtig ist: KI-Risiken sind kontextabhängig. Ein KI-Chatbot im Kundenservice eines Retailers hat ein anderes Risikoprofil als ein KI-gestütztes Kreditscoring-System einer Bank oder ein diagnostisches KI-System im Gesundheitswesen.

Relevante Branchen-Expertise umfasst:

  • Finanzsektor: FINMA-Rundschreiben, Bankgeheimnis, Transaktionssicherheit
  • Gesundheitswesen: EPD (Elektronisches Patientendossier), Medizinprodukteverordnung, Patientendatenschutz
  • Pharma: GxP-Compliance, Validierungsanforderungen
  • Öffentliche Verwaltung: BöB/IVöB, besondere Datenschutzanforderungen
  • E-Commerce: PCI-DSS, Kundendatenschutz, Zahlungssicherheit

Fragen Sie den Anbieter:

  • Haben Sie Erfahrung in unserer Branche?
  • Kennen Sie die spezifischen regulatorischen Anforderungen?
  • Können Sie Referenzen aus vergleichbaren Projekten nennen?

Marktübersicht: KI Red Teaming in der Schweiz

Der aktuelle Stand

Der Schweizer Markt für spezialisierte KI-Sicherheitsdienstleistungen ist noch jung. Drei Kategorien von Anbietern sind zu unterscheiden:

1. Spezialisierte KI-Sicherheitsanbieter Unternehmen, die sich auf KI-Sicherheit spezialisiert haben und tiefgreifende Expertise in LLM-Sicherheit mitbringen. Diese Kategorie ist in der Schweiz noch klein, wächst aber.

2. Klassische Cybersecurity-Firmen mit KI-Erweiterung Etablierte Penetrationstesting-Firmen, die ihr Portfolio um KI-Themen erweitern. Die Qualität variiert stark — von oberflächlichem «KI-Washing» bis zu ernsthafter Kompetenzentwicklung.

3. Beratungshäuser mit KI-Security-Praxis Grosse Beratungsunternehmen (Big Four und ähnliche), die KI-Sicherheit als Teil ihrer Cybersecurity-Beratung anbieten. Oft stark im regulatorischen Bereich, aber weniger tief in der technischen Sicherheitsprüfung.

RedTeam Partners

RedTeam Partners ist ein spezialisierter KI-Sicherheitsanbieter mit Fokus auf offensive Sicherheitstests. Relevante Merkmale:

  • CREST-zertifiziert — Einer der wenigen CREST-akkreditierten Anbieter in der Schweiz
  • OWASP-LLM-Methodik — Strukturierte Tests entlang des OWASP LLM Top 10
  • EU AI Act Compliance — Unterstützung bei regulatorischer Konformität
  • Spezialisierung — Fokus auf offensive Sicherheit und KI, kein Gemischtwarenladen
  • Praxiserprobte Methodik — Erfahrung mit LLM-Systemen verschiedener Grössen und Architekturen

Für eine detaillierte Analyse des McKinsey-Lilli-Vorfalls und dessen Implikationen für KI-Sicherheit empfehlen wir den Fachartikel auf dem RedTeam Partners Blog.

Kostenrahmen: Was KI Red Teaming kostet

Preisübersicht nach Umfang

TestumfangPreisrahmenTypische DauerGeeignet für
Quick AssessmentCHF 5’000 – 10’0001–2 TageErste Einschätzung, einzelner Chatbot
Standard Red TeamCHF 15’000 – 35’0005–10 TageEinzelne KI-Applikation mit Datenanbindung
Umfassendes Red TeamCHF 35’000 – 80’00010–20 TageMehrere KI-Systeme, komplexe Integrationen
Enterprise AssessmentCHF 80’000 – 150’000+20–40 TageUnternehmensweite KI-Landschaft

Preisfaktoren

Die Kosten hängen von verschiedenen Faktoren ab:

  • Anzahl der KI-Systeme: Jedes System erfordert separate Testszenarien
  • Komplexität der Integration: Standalone-Chatbot vs. KI mit Datenbankzugriff und Aktionsfähigkeit
  • Datensensitivität: Tests mit regulierten Daten erfordern zusätzliche Vorsichtsmassnahmen
  • Reporting-Tiefe: Management-Zusammenfassung vs. detaillierter technischer Report mit Proof-of-Concepts
  • Compliance-Anforderungen: EU AI Act Conformity Assessment als Zusatzleistung
  • Anbieter-Zertifizierung: CREST-zertifizierte Anbieter sind in der Regel teurer, bieten aber nachweisbare Qualität

Kostenvergleich mit klassischem Pentesting

Zum Vergleich: Ein klassischer Webanwendungs-Penetrationstest kostet in der Schweiz zwischen CHF 5’000 und CHF 60’000, abhängig von Komplexität und Umfang. Detaillierte Kostenvergleiche finden Sie in unserem Guide Was kostet ein Penetrationstest in der Schweiz? sowie auf cybersecurityswitzerland.ch.

KI Red Teaming ist typischerweise 20–40% teurer als vergleichbare klassische Penetrationstests, da:

  • Die Angriffsfläche weniger standardisiert ist
  • Spezialisiertere Expertise erforderlich ist
  • Testszenarien individueller gestaltet werden müssen
  • Die Ergebnisbewertung komplexer ist

Fragen, die Sie jedem Anbieter stellen sollten

Zur Qualifikation

  1. Ist Ihr Unternehmen CREST-akkreditiert?
  2. Welche individuellen Zertifizierungen haben Ihre Tester?
  3. Wie viele KI Red Teaming Projekte haben Sie in den letzten 12 Monaten durchgeführt?
  4. Können Sie Referenzen aus unserer Branche nennen?
  5. Wie halten Sie Ihre Tester bezüglich neuer KI-Angriffsvektoren auf dem aktuellen Stand?

Zur Methodik

  1. Wie strukturieren Sie Ihre Tests entlang des OWASP LLM Top 10?
  2. Welche spezifischen Prompt-Injection-Techniken testen Sie?
  3. Wie gehen Sie mit indirekter Prompt Injection über Dokumente und Datenquellen um?
  4. Testen Sie auch die Supply Chain (Modellherkunft, Libraries, Plugins)?
  5. Wie bewerten Sie den Schweregrad gefundener Schwachstellen?

Zum Projekt

  1. Wie definieren Sie den Scope gemeinsam mit uns?
  2. Wie stellen Sie sicher, dass produktive Systeme nicht beeinträchtigt werden?
  3. Was passiert, wenn Sie während des Tests eine kritische Schwachstelle finden?
  4. Wie sieht Ihr Reporting-Format aus? (Fragen Sie nach einem Beispielreport)
  5. Bieten Sie Unterstützung bei der Behebung gefundener Schwachstellen?

Zur Compliance

  1. Können Sie die Testergebnisse auf EU-AI-Act-Anforderungen mappen?
  2. Unterstützen Sie bei der technischen Dokumentation gemäss AI Act?
  3. Wie berücksichtigen Sie branchenspezifische Regulierungen?
  4. Können wir die Ergebnisse für regulatorische Nachweise verwenden?
  5. Bieten Sie Re-Tests nach Behebung der Schwachstellen an?

Warnsignale: Woran Sie unseriöse Anbieter erkennen

  • «Wir testen alles» — Ein seriöser Anbieter definiert klar, was er kann und was nicht
  • Keine klare Methodik — Vage Beschreibungen wie «umfassende KI-Sicherheitsprüfung» ohne Details
  • Garantien — «Wir garantieren 100% Sicherheit» ist immer unseriös
  • Extrem niedrige Preise — KI Red Teaming unter CHF 5’000 kann nicht seriös sein
  • Keine Referenzen — Mangelnde Bereitschaft, Referenzkunden zu nennen
  • Nur automatisierte Tools — KI Red Teaming erfordert manuelle Expertise, nicht nur Scan-Tools
  • Kein klarer Report — Der Anbieter kann kein Beispiel seines Reporting-Formats zeigen
  • Druck auf schnellen Abschluss — Seriöse Anbieter geben Ihnen Zeit für die Evaluation

Empfohlener Evaluationsprozess

Phase 1: Longlist (1 Woche)

  • Identifizieren Sie 3–5 potenzielle Anbieter
  • Prüfen Sie CREST-Zertifizierung und öffentlich verfügbare Informationen
  • Sichten Sie Veröffentlichungen und Fachbeiträge der Anbieter

Phase 2: RFI / Erstgespräche (2 Wochen)

  • Senden Sie eine strukturierte Informationsanfrage
  • Führen Sie Erstgespräche mit allen Anbietern
  • Stellen Sie die oben genannten Fragen

Phase 3: RFP / Angebotsevaluation (2 Wochen)

  • Fordern Sie detaillierte Angebote an mit Methodik, Zeitplan und Kosten
  • Vergleichen Sie anhand einer gewichteten Bewertungsmatrix
  • Fragen Sie nach Beispielreports

Phase 4: Referenzprüfung (1 Woche)

  • Kontaktieren Sie mindestens zwei Referenzkunden
  • Fragen Sie nach Qualität, Kommunikation und Praxistauglichkeit der Empfehlungen
  • Erkundigen Sie sich nach der Zusammenarbeit während und nach dem Projekt

Phase 5: Vertragsschluss

  • Achten Sie auf klare NDA-Vereinbarungen
  • Definieren Sie Scope, Deliverables und Zeitplan vertraglich
  • Vereinbaren Sie Eskalationsprozesse für kritische Funde

Vertragsgestaltung: Worauf Sie achten sollten

Essenzielle Vertragsbestandteile

Ein Vertrag für KI Red Teaming sollte folgende Punkte explizit regeln:

Scope und Abgrenzung

  • Welche Systeme werden getestet?
  • Welche Testmethoden sind erlaubt?
  • Welche Systeme und Methoden sind explizit ausgeschlossen?
  • Zu welchen Zeiten finden die Tests statt?

Datenschutz und Vertraulichkeit

  • NDA mit klar definierten Vertraulichkeitsstufen
  • Regelung zum Umgang mit während des Tests gefundenen sensiblen Daten
  • Datenaufbewahrung und -löschung nach Projektabschluss
  • Compliance mit nDSG und gegebenenfalls DSGVO

Deliverables und Reporting

  • Umfang und Format des Abschlussberichts
  • Management Summary und technischer Detailbericht
  • Severity-Klassifizierung der Findings (z.B. nach CVSS)
  • Empfehlungen mit Priorisierung und Aufwandsschätzung
  • Präsentation der Ergebnisse vor der Geschäftsleitung und dem technischen Team

Eskalation und Notfallprozesse

  • Wie wird mit kritischen Findings während des Tests umgegangen?
  • Wer wird in welchem Zeitrahmen informiert?
  • Darf der Tester einen aktiven Angriff Dritter während des Tests eskalieren?

Re-Tests und Follow-up

  • Sind Re-Tests nach Behebung der Schwachstellen im Preis inbegriffen?
  • Innerhalb welchen Zeitraums können Re-Tests durchgeführt werden?
  • Gibt es Unterstützung bei der Behebung (Remediation Support)?

Typische Vertragsfallen

  • Zu enger Scope: Wenn nur das «Frontend» eines KI-Systems getestet wird, bleiben API- und Backend-Schwachstellen unentdeckt
  • Kein Re-Test: Ohne Re-Test-Klausel zahlen Sie doppelt, wenn Sie die Behebung verifizieren wollen
  • Unklare IP-Rechte: Wem gehören die während des Tests entwickelten Exploits und Tools?
  • Fehlende Haftungsregelung: Was passiert, wenn der Test unbeabsichtigt Produktionssysteme beeinträchtigt?

Weiterführende Ressourcen

Was bei der Anbieterwahl zählt

Die Auswahl eines KI Red Teaming Anbieters ist eine strategische Entscheidung. In einem jungen Markt, in dem die Qualitätsunterschiede gross sind, lohnt sich eine systematische Evaluation. Die fünf Kernkriterien — CREST-Zertifizierung, OWASP-LLM-Expertise, EU-AI-Act-Kompetenz, methodische Transparenz und Branchenerfahrung — bieten einen robusten Bewertungsrahmen.

Investieren Sie lieber etwas mehr Zeit in die Auswahl und zahlen Sie einen angemessenen Preis für nachweisbare Qualität. Die Alternative — ein oberflächlicher Test, der ein falsches Sicherheitsgefühl vermittelt — ist langfristig die teurere Option.

Letzte Aktualisierung: März 2026. Dieser Leitfaden wird regelmässig überprüft und aktualisiert. Alpine Excellence ist eine unabhängige redaktionelle Plattform und erhält keine Vergütung für Anbieterempfehlungen.