Zurück zur Startseite

Leistung

Souveräne KI & DSGVO-konforme LLM-Infrastruktur

Privates, selbst-gehostetes, EU-souveränes LLM-Deployment. OVHcloud, Scaleway, Hetzner, Mistral AI. Volle EU-Datenresidenz, keine CLOUD-Act-Exposition, audit-ready für regulierte Branchen.

Für wen das gedacht ist

  • Banken, Versicherer und Fintechs, die von ACPR, BaFin, FINMA, CONSOB oder DNB reguliert werden
  • Gesundheitsorganisationen, die HDS-konforme KI (Frankreich) oder KHZG-ausgerichtete Deployments (Deutschland) benötigen
  • Kanzleien und LegalTechs mit Mandatsschutzbedenken
  • Öffentlicher Sektor und Verteidigungs-Vertragspartner, für die CLOUD-Act-Exposition disqualifizierend ist
  • Scale-ups, die sich auf EU-AI-Act-Pflichten für Hochrisiko-Systeme vorbereiten
  • Jedes europäische Unternehmen, dessen DPO oder Compliance-Officer US-gehostete KI-APIs blockiert hat

Was enthalten ist

  • Provider-Auswahl: OVHcloud (AI Endpoints, AI Deploy, AI Training, AI Notebooks, HDS) vs Scaleway (Generative APIs, Inference, H100-Cluster) vs Hetzner (kosten­optimiertes GPU) vs On-Prem
  • Modellauswahl: Mistral Large / Codestral / Pixtral, Aleph Alpha Luminous, Self-hosted Llama 3, Mixtral, Qwen, DeepSeek, Fine-tuned SLMs
  • Inference-Stack: vLLM, TGI, Ollama, load-balanced, beobachtbar, token-gemessen
  • Retrieval-Architektur: Qdrant, Weaviate, pgvector, Milvus; hybride Suche; Reranking
  • Orchestrierung: LangChain, LangGraph, LlamaIndex, DSPy; Eval-Harness und Guardrails
  • Compliance-Lieferobjekte: DSFA, Transfer Impact Assessment, Artikel-28-DPV-Vorlage, AI-Act-Risikoklassifizierung, ISO/IEC-42001-Ausrichtung
  • Kostenmodellierung: Token-Ökonomie, GPU-Stunden-Forecast, Cache-Hit-Optimierung
  • Observability: Langfuse, OpenTelemetry, Helicone, vollständiger Audit-Trail jeder Inferenz

Wie wir arbeiten

  1. 1

    Regulatorisches Scoping

    Identifizierung der anwendbaren Regulierungen (DSGVO, EU AI Act, NIS2, DORA, branchenspezifisch) und der erforderlichen Compliance-Posture: Datenresidenz, Aufbewahrung, Audit, Erklärbarkeit, menschliche Aufsicht.

  2. 2

    Architekturdesign

    Provider- und Modellauswahl, Netzwerk-Topologie (VPC, private Endpoints, kein Egress außerhalb der EU), Secret-Management, Audit-Logging.

  3. 3

    Build & Integration

    Aufbau des Inference-Stacks, Orchestrierung, Retrieval und Guardrails. Integration mit der Client-Anwendung und bestehendem IAM/SSO.

  4. 4

    Compliance-Artefakte

    DSFA, DPV, TIA, AI-Act-Risikoklassifizierungs-Memo und operatives Runbook verfassen. Übergabe an DPO / CISO.

  5. 5

    Betreiben oder übergeben

    Entweder Betrieb des Stacks als Retainer oder vollständige Übergabe an das interne Team mit Schulung und Runbook.

Erwartbare Ergebnisse

  • LLM-Stack ohne Prompt/Response-Egress in Nicht-EU-Jurisdiktionen
  • DSFA- und TIA-Dokumente, die Ihr DPO freigeben kann
  • AI-Act-Risikoklassifizierung mit verteidigungsfähiger Begründung
  • Audit-Trail über jede Inferenzanfrage (wer, was, wann, Modellversion)
  • Provider-Kostenprognosen für 12 und 24 Monate
  • Inference-Latenz- und Verfügbarkeits-SLO-Baselines
  • Ein Migrationspfad weg von US-gehosteten APIs, falls das vorgeschrieben wird
  • Eine Compliance-Story, die Ihre Enterprise-Kunden im Procurement akzeptieren

Preise

Discovery-Sprint (3-5 Tage)

ab €2.500

Regulatorisches Scoping + Architektur-Optionen-Memo.

Vollständiges Deployment

ab €25.000

Abhängig von Skala und Compliance-Tiefe. Typischerweise 3-6 Wochen End-to-End.

Laufender Retainer

ab €2.100/Monat

Monitoring, Anpassungen und Aktualisierung der Compliance-Artefakte.

Alle Preise zzgl. MwSt. EU-B2B-Kunden mit gültiger innergemeinschaftlicher USt-IdNr. profitieren vom Reverse-Charge-Verfahren.

Häufig gefragt

Ist es wirklich möglich, GPT-4-Qualität auf EU-Infrastruktur zu betreiben?

Ja, in den meisten Anwendungsfällen. Mistral Large und Claude Sonnet via Bedrock EU, kombiniert mit domänen-fine-tuned Llama-3 oder Mixtral, decken 85%+ der Anwendungsfälle mit wettbewerbsfähiger Qualität ab. Die Lücken schließen sich monatlich.

Was ist mit dem CLOUD Act bei Bedrock EU?

Bedrock EU reduziert die CLOUD-Act-Exposition, eliminiert sie aber nicht, weil AWS ein US-eigenes Unternehmen ist. Für Null-Expositions-Anforderungen (Verteidigung, Teile des öffentlichen Sektors) heißt die Antwort OVHcloud, Scaleway oder On-Prem: alle mit EU-Hauptsitz, EU-eigen.

Wird das langsamer sein als OpenAI/Anthropic-APIs?

Für Self-hosted Llama/Mixtral auf Scaleway-H100s: 50-200ms TTFT bei vergleichbarem Token-Durchsatz. Für gehostete Mistral-APIs: Parität. Für OVHcloud AI Endpoints: 100-300ms TTFT je nach Modell. Latenz ist selten der Flaschenhals, Auditierbarkeit schon.

Können Sie EU-AI-Act-Compliance garantieren?

Kein Berater kann Compliance mit einem Gesetz, das sich noch in der Einführung befindet, „garantieren". Was ich liefere, ist eine verteidigungsfähige Compliance-Posture: Risikoklassifizierung, dokumentierte Kontrollen, DSFA, Monitoring und Audit-Trail. Die Freigabe liegt bei Ihrem DPO und Rechtsteam.

Arbeiten Sie mit unserem bestehenden DPO und CISO zusammen?

Ja. Die Compliance-Artefakte sind speziell für sie geschrieben. Ich kann auch an funktionsübergreifenden Reviews teilnehmen und direkt auf deren Security-/Privacy-Fragebögen antworten.

Was passiert, wenn ein Modell abgekündigt wird?

Die Architektur ist modell-agnostisch. Mistral-Large gegen Mixtral oder Llama-4 auszutauschen dauert typischerweise 1-3 Tage Arbeit plus einen Eval-Rerun. Observability und Kostenmodelle folgen der Änderung automatisch.

Schnellschätzung

Was könnte Ihr Engagement kosten?

Richtwerte auf Basis eines Tagessatzes von €700. Der endgültige Preis hängt von Umfang, Compliance-Tiefe und Zeitplan ab, bestätigt im Project Proposal nach einem Discovery-Call.

Partnerschafts-Deals (reduzierter Cash-Anteil + Equity) können den Cash-Anteil für passende Early-Stage-Startups um 30-40 % senken. Eine Servicegebühr ist immer erforderlich.

Geschätzter Bereich

€2,800 – €3,500pro Monat

4-5 × €700/day

Aktive technische Führung: wöchentlicher Sync, Architektur-Reviews, Vendor-Entscheidungen, Investor-Calls.

Alle Preise zzgl. MwSt.

Lassen Sie uns über Ihr Projekt sprechen

Buchen Sie einen kostenlosen 30-min Discovery-Call. Keine Zahlung, kein Deck, keine Follow-up-Sequenz. Wenn KI nicht die richtige Antwort auf Ihr Problem ist, wissen Sie es schon während des Calls.

Aru Bhardwaj

Fractional CTO architecting sovereign AI systems for startups and scale-ups across Europe. Custom ML, agentic RAG, and secure LLM infrastructure. 7+ years turning complex data into production intelligence.

Malt
Upwork

Contact

Services

  • Fractional CTO & AI Strategy
  • MVP Development & Rapid Prototyping
  • Sovereign LLM Deployment (OVHcloud, Scaleway)
  • Multi-Cloud AI (AWS Bedrock, Vertex AI, Azure)
  • RAG Pipelines & Autonomous Agents
  • GDPR & EU AI Act Compliance
  • Generative AI & Prompt Engineering
  • Machine Learning & Predictive Analytics

Monthly playbook

Practical AI essays for founders and tech leaders. One email a month.

Taktische KI-Essays, monatlich.

© 2026 Insightrix SASU. All rights reserved.Aru Bhardwaj, Fractional CTO & AI Strategist

60 Rue François Ier, 75008 Paris, France · SIRET 989 236 856 00013 · TVA FR42989236856