Leistung
Souveräne KI & DSGVO-konforme LLM-Infrastruktur
Privates, selbst-gehostetes, EU-souveränes LLM-Deployment. OVHcloud, Scaleway, Hetzner, Mistral AI. Volle EU-Datenresidenz, keine CLOUD-Act-Exposition, audit-ready für regulierte Branchen.
Für wen das gedacht ist
- Banken, Versicherer und Fintechs, die von ACPR, BaFin, FINMA, CONSOB oder DNB reguliert werden
- Gesundheitsorganisationen, die HDS-konforme KI (Frankreich) oder KHZG-ausgerichtete Deployments (Deutschland) benötigen
- Kanzleien und LegalTechs mit Mandatsschutzbedenken
- Öffentlicher Sektor und Verteidigungs-Vertragspartner, für die CLOUD-Act-Exposition disqualifizierend ist
- Scale-ups, die sich auf EU-AI-Act-Pflichten für Hochrisiko-Systeme vorbereiten
- Jedes europäische Unternehmen, dessen DPO oder Compliance-Officer US-gehostete KI-APIs blockiert hat
Was enthalten ist
- Provider-Auswahl: OVHcloud (AI Endpoints, AI Deploy, AI Training, AI Notebooks, HDS) vs Scaleway (Generative APIs, Inference, H100-Cluster) vs Hetzner (kostenoptimiertes GPU) vs On-Prem
- Modellauswahl: Mistral Large / Codestral / Pixtral, Aleph Alpha Luminous, Self-hosted Llama 3, Mixtral, Qwen, DeepSeek, Fine-tuned SLMs
- Inference-Stack: vLLM, TGI, Ollama, load-balanced, beobachtbar, token-gemessen
- Retrieval-Architektur: Qdrant, Weaviate, pgvector, Milvus; hybride Suche; Reranking
- Orchestrierung: LangChain, LangGraph, LlamaIndex, DSPy; Eval-Harness und Guardrails
- Compliance-Lieferobjekte: DSFA, Transfer Impact Assessment, Artikel-28-DPV-Vorlage, AI-Act-Risikoklassifizierung, ISO/IEC-42001-Ausrichtung
- Kostenmodellierung: Token-Ökonomie, GPU-Stunden-Forecast, Cache-Hit-Optimierung
- Observability: Langfuse, OpenTelemetry, Helicone, vollständiger Audit-Trail jeder Inferenz
Wie wir arbeiten
- 1
Regulatorisches Scoping
Identifizierung der anwendbaren Regulierungen (DSGVO, EU AI Act, NIS2, DORA, branchenspezifisch) und der erforderlichen Compliance-Posture: Datenresidenz, Aufbewahrung, Audit, Erklärbarkeit, menschliche Aufsicht.
- 2
Architekturdesign
Provider- und Modellauswahl, Netzwerk-Topologie (VPC, private Endpoints, kein Egress außerhalb der EU), Secret-Management, Audit-Logging.
- 3
Build & Integration
Aufbau des Inference-Stacks, Orchestrierung, Retrieval und Guardrails. Integration mit der Client-Anwendung und bestehendem IAM/SSO.
- 4
Compliance-Artefakte
DSFA, DPV, TIA, AI-Act-Risikoklassifizierungs-Memo und operatives Runbook verfassen. Übergabe an DPO / CISO.
- 5
Betreiben oder übergeben
Entweder Betrieb des Stacks als Retainer oder vollständige Übergabe an das interne Team mit Schulung und Runbook.
Erwartbare Ergebnisse
- LLM-Stack ohne Prompt/Response-Egress in Nicht-EU-Jurisdiktionen
- DSFA- und TIA-Dokumente, die Ihr DPO freigeben kann
- AI-Act-Risikoklassifizierung mit verteidigungsfähiger Begründung
- Audit-Trail über jede Inferenzanfrage (wer, was, wann, Modellversion)
- Provider-Kostenprognosen für 12 und 24 Monate
- Inference-Latenz- und Verfügbarkeits-SLO-Baselines
- Ein Migrationspfad weg von US-gehosteten APIs, falls das vorgeschrieben wird
- Eine Compliance-Story, die Ihre Enterprise-Kunden im Procurement akzeptieren
Preise
Discovery-Sprint (3-5 Tage)
ab €2.500
Regulatorisches Scoping + Architektur-Optionen-Memo.
Vollständiges Deployment
ab €25.000
Abhängig von Skala und Compliance-Tiefe. Typischerweise 3-6 Wochen End-to-End.
Laufender Retainer
ab €2.100/Monat
Monitoring, Anpassungen und Aktualisierung der Compliance-Artefakte.
Alle Preise zzgl. MwSt. EU-B2B-Kunden mit gültiger innergemeinschaftlicher USt-IdNr. profitieren vom Reverse-Charge-Verfahren.
Häufig gefragt
Ist es wirklich möglich, GPT-4-Qualität auf EU-Infrastruktur zu betreiben?
Ja, in den meisten Anwendungsfällen. Mistral Large und Claude Sonnet via Bedrock EU, kombiniert mit domänen-fine-tuned Llama-3 oder Mixtral, decken 85%+ der Anwendungsfälle mit wettbewerbsfähiger Qualität ab. Die Lücken schließen sich monatlich.
Was ist mit dem CLOUD Act bei Bedrock EU?
Bedrock EU reduziert die CLOUD-Act-Exposition, eliminiert sie aber nicht, weil AWS ein US-eigenes Unternehmen ist. Für Null-Expositions-Anforderungen (Verteidigung, Teile des öffentlichen Sektors) heißt die Antwort OVHcloud, Scaleway oder On-Prem: alle mit EU-Hauptsitz, EU-eigen.
Wird das langsamer sein als OpenAI/Anthropic-APIs?
Für Self-hosted Llama/Mixtral auf Scaleway-H100s: 50-200ms TTFT bei vergleichbarem Token-Durchsatz. Für gehostete Mistral-APIs: Parität. Für OVHcloud AI Endpoints: 100-300ms TTFT je nach Modell. Latenz ist selten der Flaschenhals, Auditierbarkeit schon.
Können Sie EU-AI-Act-Compliance garantieren?
Kein Berater kann Compliance mit einem Gesetz, das sich noch in der Einführung befindet, „garantieren". Was ich liefere, ist eine verteidigungsfähige Compliance-Posture: Risikoklassifizierung, dokumentierte Kontrollen, DSFA, Monitoring und Audit-Trail. Die Freigabe liegt bei Ihrem DPO und Rechtsteam.
Arbeiten Sie mit unserem bestehenden DPO und CISO zusammen?
Ja. Die Compliance-Artefakte sind speziell für sie geschrieben. Ich kann auch an funktionsübergreifenden Reviews teilnehmen und direkt auf deren Security-/Privacy-Fragebögen antworten.
Was passiert, wenn ein Modell abgekündigt wird?
Die Architektur ist modell-agnostisch. Mistral-Large gegen Mixtral oder Llama-4 auszutauschen dauert typischerweise 1-3 Tage Arbeit plus einen Eval-Rerun. Observability und Kostenmodelle folgen der Änderung automatisch.
Schnellschätzung
Was könnte Ihr Engagement kosten?
Richtwerte auf Basis eines Tagessatzes von €700. Der endgültige Preis hängt von Umfang, Compliance-Tiefe und Zeitplan ab, bestätigt im Project Proposal nach einem Discovery-Call.
Partnerschafts-Deals (reduzierter Cash-Anteil + Equity) können den Cash-Anteil für passende Early-Stage-Startups um 30-40 % senken. Eine Servicegebühr ist immer erforderlich.
Geschätzter Bereich
€2,800 – €3,500pro Monat
4-5 × €700/day
Aktive technische Führung: wöchentlicher Sync, Architektur-Reviews, Vendor-Entscheidungen, Investor-Calls.
Alle Preise zzgl. MwSt.
Lassen Sie uns über Ihr Projekt sprechen
Buchen Sie einen kostenlosen 30-min Discovery-Call. Keine Zahlung, kein Deck, keine Follow-up-Sequenz. Wenn KI nicht die richtige Antwort auf Ihr Problem ist, wissen Sie es schon während des Calls.