On-Premises Large Language Models#

Das folgende Kapitel geht auf die besonderen Herausforderungen von selbstgehosteten Sprachmodellen ein und berücksichtigt dabei:

Technische, organisatorische und rechtliche Anforderungen
Sichere Integration in bestehende Systeme
Maßnahmen zur Wahrung der Datenhoheit und DSGVO-Konformität
Kosten, Performance, Datensicherheit, Modellqualität und Integrationsaufwand

Motivation und Herausforderungen#

Grundsätzlich kann man zwischen zwei wesentlichen Ansätzen unterscheiden, unter welchen der Betrieb und die Nutzung von LLMs ermöglicht wird. Da sind zum einen die großen proprietären Sprachmodelle, die von deren Betreibern entweder kostenfrei (mit Web- oder App-Interface) oder im Bezahlabo mit erweiterten Funktionen inklusive API zur Verfügung gestellt werden. Auf der anderen Seite gibt es frei zum Download angebotene Open-Weights-Modelle, die entweder lokal auf einer geeigneten Maschine betrieben oder als Cloudlösung mit Rechenzeit-abhängiger Abrechnung genutzt werden können. Beide Ansätze haben ihre Vor- und Nachteile, auf die im Folgenden eingegangen wird. In jedem Fall bedarf es einer enormen Rechenleistung zur Verarbeitung der verfügbaren Daten, auch bei kurzen und einfachen Abfragen.

Technische Anforderungen für den On-Premises Use Case#

Large Language Models stellen beträchtliche Anforderungen an die Hardware. Bekannte und etablierte Sprachmodelle erfordern eine nicht unerhebliche Investition in geeignete Systeme mit ausreichender Rechenleistung, leistungsfähiger Grafikbeschleunigung und genügend Arbeitsspeicher.

Zur Orientierung: Das populäre Open-Weights-Modell DeepSeek-R1:671B hat einen Speicherbedarf von rund 1,3 TB im VRAM der GPU bei einer Quantisierung von 16 Bit. Bei einer Kapazität von 141 GB auf einer NVIDIA H200 GPU, dem in 2026 frei verfügbaren Topmodell, braucht es demnach mindestens 10 Einheiten der zum Zeitpunkt dieser Arbeit > 30.000,00 € teuren Module, nur um dieses Sprachmodell selbst im Speicher zu halten. Für einen sinnvollen Betrieb werden mindestens 12 Module sowie mindestens 512 GB RAM empfohlen. Zusammen mit dem erforderlichen Grundsystem liegen die Investitionen hier bereits bei über 350.000,00 €. Und auch in einer mit 4 Bit quantisierten Variante beträgt der Investitionsbedarf noch über 100.000,00 €. Der Energiebedarf, die dedizierte Wartung und der relative Wertverlust sind hierbei noch nicht berücksichtigt.

Durch die Möglichkeit der Quantisierung werden viele Modelle inzwischen auch in kleineren Varianten (z. B. DeepSeek-R1:70B oder -:32B) angeboten. Diese sind etwas weniger leistungsfähig, aber immer noch stark genug, um dedizierte KI-Anwendungen damit zu betreiben. Die Hardwarekosten liegen hierbei im Bereich von vergleichbar überschaubaren höheren vierstelligen Summen.

Anforderungen für die Nutzung von Cloud-Modellen#

Aktuelle Closed‑Source-SOTA-Modelle werden als proprietäre Produkte in der Cloud bereitgestellt. Die allermeisten Benutzer greifen per Web- oder App-Interface darauf zu. Für Entwickler steht in der Regel eine Programmierschnittstelle bereit. Die wesentliche technische Voraussetzung für die Nutzung von Cloud-Modellen besteht demnach im Vorhandensein einer stabilen Internetverbindung und einem aktivierten Benutzerkonto. Je nach Anwendungsbereich in einem durchschnittlichen mittelständischen Unternehmen betragen die monatlichen Kosten geschätzt zwischen mehreren hundert Euro und unteren vierstelligen Summen.

Abhängigkeit von Cloud-Infrastruktur#

Erwähnenswert ist, dass die Services selbst und die darunterliegende Netzwerk-Infrastruktur einwandfrei funktionieren müssen. Eine temporäre Nichterreichbarkeit diverser Dienste, bedingt durch großflächige Ausfälle einzelner Netzwerkkomponenten — wie der von Cloudflare am 18. November 2025 — macht deutlich, wie vulnerabel einzelne Bestandteile der Infrastruktur sind.

Solche Fälle zeigen, dass die alleinige Abhängigkeit von einem Betreiber in hohem Maße geschäftsschädigend sein kann. Das kann ein Grund sein, Teile der Infrastruktur zu diversifizieren oder selbst aufzubauen und zu betreiben.

Die Bedeutung der GPU#

Beim Betrieb von großen Sprachmodellen kommt der GPU eine besondere Bedeutung zu. Ihre Fähigkeit zur parallelen Ausführung der für das maschinelle Lernen genutzten Berechnung von Vektoren macht man sich hierbei zu Nutze. Entsprechend leistungsfähige Grafikkarten sind allerdings aufwändiger zu fertigen als CPUs und dementsprechend teuer.

Organisatorische Anforderungen#

Der Betrieb eines On-Premises-Systems erfordert die Beschaffung, Wartung und Reparatur der Systemkomponenten. Während des Betriebs müssen die Erreichbarkeit, die Konfiguration, die Überwachung festzulegender Systemparameter und die Qualität der ausgegebenen Ergebnisse sichergestellt werden. Mitarbeitende müssen geschult und in den mit der Einführung unweigerlich begonnenen Changeprozess integriert werden.

Technische Systeme und die verwendeten Modelle erhalten Updates; der Einfluss solcher Änderungen auf den Betrieb und die Ergebnisse muss hinreichend protokolliert werden. Unabhängig davon, ob ein LLM selbst gehostet wird oder ein Cloud-Dienst verwendet wird, hat dessen Anwendung Einfluss auf die folgenden Arbeitsbereiche:

Arbeitsorganisation
Instruktion, Gebrauchsanweisung, Schulung
Medizin: Risikomanagement
Dokumentation, Daten-Governance

Regulatorischer Rahmen#

Der KI-Verordnung der Europäischen Union folgend, gelten je nach Anwendung, Anwendungsbereich und verwendeter Technologie leichte bis sehr strenge Richtlinien, die einzuhalten und zu dokumentieren sind.

LLMs können gefahrlos für automatisierte Textgenerierung, Code-Reviews und Dokumentation eingesetzt werden, insbesondere wenn sie in kontrollierten Umgebungen wie On-Premises oder EU-konformen Cloud-Lösungen betrieben werden. Bei der Nutzung von LLMs im Kundenservice muss transparent kommuniziert werden, dass es sich um ein KI-System handelt, und alle Interaktionen sollten protokolliert werden. Für die Datenanalyse eignen sich LLMs bei öffentlich zugänglichen oder anonymisierten Daten, bevorzugt in AI-Reallaboren oder mit EU-zertifizierten Anbietern.

LLMs dürfen nicht unkontrolliert auf Kundendaten oder sensible personenbezogene Informationen zugreifen, da dies gegen die DSGVO verstößt und Datenleaks riskiert. KI-gestützte Entscheidungen in Human Resources, Kreditvergabe oder Compliance sind Hochrisiko-Anwendungen und ohne Konformitätsbewertung verboten. Verträge, regulatorische Texte oder medizinische Empfehlungen aus LLMs müssen zwingend von Fachexperten überprüft werden, da Halluzinationen und Fehler drohen.

Regulatorische Kernpunkte für Unternehmen#

Aus den regulatorischen Rahmenbedingungen ergeben sich für Unternehmen und Personen, die KI-Systeme einsetzen wollen, Verpflichtungen, die spätestens ab dem 2. August 2027 verbindlich einzuhalten sind:

Transparenzpflichten: Kennzeichnung KI-generierter Inhalte, Offenlegung von Trainingsdatenquellen.
Risikoklassifizierung: Verbotene Praktiken (Social Scoring), Hochrisiko-Anwendungen (z. B. HR-Systeme), GPAI-Regeln für große Sprachmodelle.
Dokumentation und Monitoring: Pflicht zur kontinuierlichen Überwachung und Vorfallmanagement.

Beispiele für spezielle Anwendungsbereiche#

Arbeitsrecht#

Der Einsatz von LLMs am Arbeitsplatz führt zu großen arbeitsrechtlichen Herausforderungen, insbesondere in Bezug auf den Datenschutz, da die Eingabe sensibler Daten in die Modelle das Risiko der Offenlegung birgt. Im Sinne der Mitbestimmung ist der Betriebsrat umfassend zu beteiligen, wenn die Systeme potenziell zur Überwachung der Leistung oder des Verhaltens der Mitarbeiter geeignet sind. Schließlich bleiben die Haftung und Verantwortung für die Ergebnisse und Entscheidungen stets beim Arbeitgeber und dessen Mitarbeitenden, was klare interne Nutzungsrichtlinien erforderlich macht.

Rechtsberatung#

Die anwaltliche Verschwiegenheit muss auch beim Einsatz von KI und LLMs gewahrt bleiben. Aus diesem Gebot folgt, dass vertrauliche Mandanteninformationen auch beim Einsatz von KI-Tools geheim zu halten sind. Wenn möglich, sollten bei Sprachmodellen nur „abstrakte" Anfragen (Prompts) gestellt werden, die auch im Kontext keinerlei Rückschlüsse auf ein bestimmtes Mandat zulassen. Soweit es erforderlich ist, Dokumente hochzuladen, sollten diese wenn möglich vorher vollständig anonymisiert sein.

Medizin und Medizinprodukte#

Die Wahl zwischen cloudbasierten und On-Premises-LLMs in der Medizin hängt vor allem von Datenschutz, Haftung und Compliance ab: Cloud-Lösungen bergen Risiken durch DSGVO-Konflikte und unklare Verantwortlichkeiten. On-Premises-LLMs bieten dagegen volle Kontrolle über Daten und Compliance, eignen sich besser für kritische Anwendungen (z. B. Diagnostik) und ermöglichen eine gezielte Zertifizierung als Medizinprodukt, erfordern aber höhere Investitionen in Infrastruktur und Wartung. Bei Hochrisiko-Anwendungen (z. B. Therapieunterstützung) sind On-Premises-Lösungen vorzuziehen.

Sichere Integration in bestehende Systeme#

Die Einführung eines neuen Systems erfordert eine ausreichende Vorbereitung auf technischer, organisatorischer und rechtlicher Ebene. Nach dem Abschluss von isolierten Tests mit einem ausgewählten Personenkreis empfiehlt sich ein vorübergehender Parallelbetrieb beider Systeme. Erst nach Abschluss einer zu definierenden Einführungsphase können Altsysteme zurückgefahren und die betreffenden Arbeitsprozesse vollständig umgestellt werden.

Maßnahmen zur Wahrung der Datenhoheit und DSGVO-Konformität#

Die Wahrung der Datenhoheit und die Einhaltung der Datenschutz-Grundverordnung sind zentrale Anforderungen für den sicheren Betrieb von KI-Systemen. Die wichtigsten Maßnahmen sind:

Datenminimierung und Zweckbindung

Erhebung von nur den, für den KI-Anwendungsfall notwendigen Daten (Art. 5 Abs. 1 lit. c DSGVO)
Aufklärung zur Verwendung und Einhaltung des beschriebenen Zwecks (Art. 5 Abs. 1 lit. b DSGVO)

Rechtliche Grundlagen

Datenverarbeitung nur auf Basis einer rechtlichen Grundlage, z. B. durch Einwilligung oder im Rahmen der Vertragserfüllung (Art. 6 Abs. 1 DSGVO)
Transparente Information der Betroffenen über die Datenverarbeitung (Art. 12 DSGVO)

Technische und organisatorische Maßnahmen (TOM) (Art. 32 DSGVO)

Verschlüsselung von Daten bei Speicherung und Übertragung
Einrichtung und Überwachung von Zugangskontrollen zu den beteiligten Systemen
Anwendung von Techniken zur Anonymisierung oder Pseudonymisierung von Daten

Datenhoheit sichern

Speicherung und Verarbeitung der Daten innerhalb der EU oder in Ländern mit angemessenem Datenschutzniveau
Nutzung von offenen Standards zur Gewährleistung der Datenportierbarkeit

Risikomanagement und Datenschutz-Folgenabschätzung

Durchführung von Datenschutz-Folgenabschätzungen bei hochriskanten KI-Anwendungen (Art. 35 DSGVO)
Regelmäßige Überprüfung und Anpassung von Compliance-Maßnahmen

Wahrung von Betroffenenrechten

Wahrung der Rechte auf Auskunft, Löschung, Berichtigung und Widerspruch (Art. 15–18, 21 DSGVO)

Dokumentation und Nachweispflicht

Führung eines Verzeichnisses zur Datenverarbeitung (Art. 30 DSGVO)
Dokumentation aller Compliance-Maßnahmen

KI-spezifische Herausforderungen

Vermeidung von Bias und Diskriminierung durch diverse Trainingsdaten
Nutzung von Explainable AI für die Nachvollziehbarkeit von KI-basierten Entscheidungen

Externe Dienstleister

Abschluss von Verträgen zur Auftragsdatenverarbeitung mit Dienstleistern (Art. 28 DSGVO)

Schulung und Sensibilisierung

Regelmäßige Schulung und Sensibilisierung von Mitarbeitenden für den Datenschutz (Art. 39 DSGVO)

Betriebskosten#

Heutige KI-Hardware hat einen hohen Bedarf an elektrischer Energie für den Betrieb und die Kühlung. Je nach Hardware-Generation liegen die Richtwerte bei bis zu 1.000 W je GPU. Zusammen mit allen anderen Systemkomponenten beträgt der Verbrauch im Vollastbetrieb bis zu 10 kW pro Stunde. Die regelmäßigen Stromkosten liegen in einer Größenordnung von 1.000 € bis 1.600 € pro Monat (tarif-, last- und betriebsstundenabhängig).

Neben den Kosten für die Anschaffung und den Betrieb der Hardware sind auch die folgenden Folgeaufwände zu berücksichtigen:

Systemanalyse
Wartung
Optimierung
Ergebnis-Evaluation
Dokumentation

Integrationsaufwand#

Ein lokales Testsystem lässt sich innerhalb weniger Tage, bei entsprechend vorhandenem Know-how und bereits geleisteter Vorarbeit innerhalb von Stunden aufsetzen. Der Test und die Evaluation der Ergebnisse wird je nach Einsatzzweck mehrere Wochen oder gar Monate benötigen. Ein Rollout zu einem Produktivsystem und die breite Nutzung innerhalb der betreffenden Unternehmensteile kann je nach Komplexität der Anwendung ebenfalls mehrere Wochen umfassen.

Performance und Akzeptanz#

Je nach Anwendungsfall für die Nutzung eines lokal gehosteten LLMs können pro Anfrage durchaus mehrere Minuten vergehen, während dieselbe Anfrage von einem Cloud-Modell ggfs. innerhalb von Sekunden beantwortet wird. Die Entscheidung für On-Premises ist also nicht allein von der Investitionsbereitschaft oder rechtlichen Rahmenbedingungen abhängig, sondern vom konkreten Anwendungsfall.

Die Verarbeitung eines Prompts, der Datenabgleich innerhalb eines Speichersystems und die Formulierung einer Antwort sind sehr rechenaufwendig. Soll die durch das LLM bereitgestellte Funktionalität mehreren Nutzenden zur Verfügung stehen, wird die zur Verfügung stehende Rechenleistung durch deren Anzahl geteilt. Eine Wartezeit von wenigen Sekunden ist für die meisten Menschen noch akzeptabel, je nach Komplexität der Suchabfrage kann diese allerdings schnell in den Minutenbereich ansteigen.

Anwendungsfälle für den Einsatz von On-Premises LLMs#

Für die Recherche nach öffentlich verfügbaren Daten braucht es aus Sicht des Verfassers kein selbstgehostetes Sprachmodell. Diese Aufgabe erfüllen die großen proprietären LLMs für den Benutzer zuverlässig und zu überschaubaren Kosten. Spätestens bei der Verarbeitung von sensiblen und besonders zu schützenden Informationen stellt sich jedoch sehr wohl die Frage nach einer sicheren Nutzung von Cloudlösungen.

Folgende Anwendungsbereiche verarbeiten besonders sensible Daten:

Produktentwicklung / Patente
Anwendungen der Medizin (mit Patientendaten)
Autonomes Fahren
Finanzdaten mit Personenbezug
Klassifizierte Daten (staatliche Hoheit)
Militärische Anwendungen, Rüstung

Auch wenn die Betreiber versprechen, dass keine dieser sensiblen Informationen für das Training der Modelle verwendet werden, so unterliegen die übertragenen Daten im Falle von OpenAI, Anthropic oder Google doch der amerikanischen Gerichtsbarkeit. Und diese berechtigt zum uneingeschränkten Zugriff durch amerikanische Behörden, wenn diese danach verlangen — unabhängig davon, wo deren Rechenzentren stehen.

Modellqualität und -auswahl#

Die Wahl eines oder mehrerer Modelle ist vom konkreten Anwendungsfall und den verfügbaren Hardwareressourcen abhängig. Es gibt Modelle mit einem breiten Anwendungsbereich und eine Vielzahl spezialisierter Modelle für die Generierung von Bildern oder Videos, die Abfrage von SQL-Datenbanken oder die Generierung von Embeddings. Der Auswahlprozess erfordert umfangreiches Testen und endet praktisch nicht mit der Festlegung auf ein passendes Modell.

Die Ergebnisse von großen Sprachmodellen basieren auf der Berechnung von Wahrscheinlichkeiten. Hierbei spielt neben der Modellauswahl auch dessen Temperature-Wert eine Rolle. Ein niedriger Temperature-Wert (0,0–0,5) führt zu Antworten, die deterministischer und vorhersagbarer sind als ein hoher Wert (> 0,7). In jedem Fall kann das Ergebnis bei der gleichen Fragestellung vom vorherigen Ergebnis abweichen.

Eine kleine Auswahl von Modellen#

Llama3.2: Kleines Text‑only‑Modell für mehrsprachige Dialoganwendungen, einschließlich Aufgaben wie agentenbasiertes Retrieval und Zusammenfassungen.
Ministral-3: Kleines, leistungsfähiges Sprachmodell mit agentischen Fähigkeiten, RAG und geringen Hardwareanforderungen.

Prompting / Prompt Engineering#

Neben den Implementierungsdetails spielt auch die Formulierung von geeigneten System-Prompts eine besondere Rolle. Die verschiedenen Sprachmodelle reagieren sehr unterschiedlich auf Anweisungen. Das Finden der richtigen Balance zwischen nötigen Anweisungen und der Nutzung von eingebauten Fähigkeiten ist eine wiederkehrende Aufgabe. Das gilt besonders nach einem Versionswechsel des verwendeten Sprachmodells.

Zusammenfassung#

On-Premises Large Language Models stellen hohe technische, organisatorische und rechtliche Anforderungen an Unternehmen. Sie erfordern leistungsfähige Hardware, umfangreiche Wartung und Konformität mit den Datenschutzbestimmungen der DSGVO sowie regulatorischen Rahmenbedingungen wie der KI-Verordnung. Besonders in sensiblen Bereichen wie Medizin und Rechtsberatung, bei der Verarbeitung von Finanzdaten oder in der Produktentwicklung bieten sie jedoch Vorteile durch volle Datenhoheit und Compliance. Die Entscheidung für On-Premises-Lösungen hängt von den spezifischen Anforderungen, den verfügbaren Ressourcen und der Bereitschaft ab, in Infrastruktur und Wartung zu investieren. Trotz der hohen Kosten und des Aufwands können On-Premises-LLMs eine sichere und effektive Lösung für Unternehmen sein, die maximale Kontrolle über ihre Daten benötigen.