Einleitung#

Die großen Sprachmodelle werden mit hohem Tempo adaptiert und verändern den Alltag der Menschen in einem Maße, wie es so noch nie stattgefunden hat.

Seit dem Erscheinen des ersten öffentlich verfügbaren großen Sprachmodells GPT-3.5 am 30. November 2022 vollziehen sich gewaltige Veränderungen in weiten Teilen der Gesellschaft. Die zu diesem Zeitpunkt völlig neue Art und Weise der Mensch-Maschine-Interaktion wurde innerhalb kürzester Zeit adaptiert. Hierbei wurde eine Dynamik in Gang gesetzt, die in der Geschichte der Menschheit so wohl noch nie stattgefunden hat. Mit einem Mal können komplexe, zeitintensive Aufgaben in großem Ausmaß an Maschinen übergeben werden, ohne das es dafür dedizierte Kenntnisse in einem früher dafür notwendigen Fachgebiet bedarf. Und die Maschinen antworten teilweise mit erstaunlicher Präzision.

Der bahnbrechende Erfolg dieser Technologie weckt Erwartungen, einen großen Teil der Arbeitsaufgaben an die Künstliche Intelligenz übergeben zu können und dadurch viel Zeit und damit Geld zu sparen. Neben ethischen, sozialen und arbeitsrechtlichen Fragen nach der grundsätzlichen Verwendung der Technologie, stellt sich auf der fachlich technischen Ebene auch die Frage nach der Auswahl der geeigneten Sprachmodelle für den jeweiligen Einsatzzweck.

Mittlerweile gibt es eine Vielzahl verschiedener Modelle von diversen Herstellern, einen Wettbewerb um die vorherrschende Stellung in Sachen Leistung, Multimodalität und Marktdurchdringung. Die Modelle werden beständig weiterentwickelt und spezifisch auf verschiedene Einsatzszenarien hin optimiert. Das ist eine logische Konsequenz aus der ökonomischen, ökologischen und gesellschaftlichen Entwicklung. Und selbst eine theoretische, von den CEOs der großen Modellentwickler prognostizierte Allgemeine Künstliche Intelligenz wird nicht bei jeder Frage nach dem morgigen Wetter immer das größte und leistungsfähigste Modell bemühen.

Diese Spezialisierung ist gut für die Anwender, da die damit zu erledigenden Aufgaben immer effizienter erledigt werden können. Andererseits erfordert genau diese Spezialisierung wiederum eine beständige Anpassung der darauf basierenden Arbeitsprozesse. Es entsteht eine Abhängigkeit von der Modellpflege der Entwickler. Für einfachere, primär administrative Aufgaben ist diese Abhängigkeit ggfs. vertretbar — aber in den Kernbereichen eines Unternehmens kann sie geschäftsschädigend oder gar grob fahrlässig sein.

Hier kommt die Möglichkeit zum Tragen, Sprachmodelle selbst und nur für den internen Gebrauch zu entwickeln und zu hosten. Dieses Vorgehen reduziert die oben beschriebene Abhängigkeit, offenbart jedoch auch andere Herausforderungen, wie die Anschaffung und Wartung der nötigen Hardware oder einen steigenden Bedarf an Ressourcen für deren Betrieb.

Problemstellung#

Die vorliegende Arbeit untersucht den Einsatz selbstgehosteter Large Language Models (LLMs) im Wissensmanagement mittelständischer Unternehmen. Ausgangspunkt ist das wachsende Potenzial von LLMs, Wissensprozesse durch natürliche Sprachverarbeitung zu optimieren. Gleichzeitig stellen Datenschutz, IT-Sicherheit und Compliance zentrale Herausforderungen dar.

Im Mittelpunkt steht die Frage, ob selbstgehostete LLMs gegenüber Cloud-basierten Lösungen (z. B. von OpenAI, Google, Anthropic) eine ökonomisch, technisch und datenschutzrechtlich vorteilhaftere Alternative darstellen. Während Cloud-Dienste durch einfache Integration überzeugen, führen sie zu Abhängigkeiten von Drittanbietern und möglichen Datenschutzrisiken. Selbstgehostete Modelle versprechen hingegen Datenhoheit, Kontrolle und Unabhängigkeit, erfordern jedoch hohe technische Expertise, Infrastruktur und Investitionen.

Die Arbeit schließt eine bestehende Forschungslücke, indem sie die praktische Anwendung beider Ansätze am Beispiel eines mittelständischen Unternehmens analysiert. Ziel ist die Konzeption, Umsetzung und Evaluation eines selbstgehosteten LLM-Prototyps für internes Wissensmanagement. Dabei werden technische Machbarkeit, Performance, Nutzerakzeptanz und wirtschaftliche Tragfähigkeit bewertet, um Handlungsempfehlungen für den Einsatz von LLMs im Mittelstand abzuleiten.

Forschungsstand#

Die akademische Literatur zu LLMs konzentriert sich bisher überwiegend auf die technologischen Fortschritte, die zugrundeliegenden Architekturen und die Leistungsfähigkeit von Cloud-basierten Modellen. Studien zu den praktischen Implementierungsstrategien in spezifischen Unternehmensgrößen und -kontexten sind hingegen noch unterentwickelt. Ein besonderer Forschungsmangel besteht in der detaillierten vergleichenden Analyse von selbstgehosteten Lösungen (oft basierend auf Open-Weights-Modellen wie Llama oder Mistral) gegenüber kommerziellen Cloud-Angeboten, insbesondere unter Berücksichtigung von nicht-technischen Faktoren wie Datenschutz und Betriebsaufwand. Die Arbeit leistet somit einen Beitrag zur Schließung dieser Forschungslücke, indem sie eine praxisorientierte Perspektive einnimmt.

Forschungsfragen#

Welche technischen, organisatorischen und rechtlichen Anforderungen stellen Unternehmen an den Betrieb selbstgehosteter LLMs, und wie können diese Modelle technisch in bestehende Infrastrukturen integriert werden, ohne Datenschutz- und Sicherheitsstandards zu gefährden?
Welche Maßnahmen zur Wahrung der Datenhoheit und DSGVO-Konformität sind erforderlich, und wie beeinflussen technische und organisatorische Entscheidungen die Effizienz und Akzeptanz von Wissensmanagementprozessen im Unternehmen?
In welchem Maße unterscheiden sich selbstgehostete und cloud-basierte LLMs hinsichtlich Kosten, Performance, Datensicherheit, Modellqualität und Integrationsaufwand, und unter welchen Bedingungen ist ein Self-Hosting-Ansatz strategisch vorteilhaft?
Lohnt sich der Einsatz eines selbstgehosteten LLMs wirtschaftlich gegenüber externen KI-Diensten, und für welche Unternehmensanwendungen eignet er sich besonders?

Ziel#

Ziel der Arbeit ist es, den Einsatz selbstgehosteter Large Language Models (LLMs) im Unternehmenskontext systematisch zu untersuchen und deren Eignung für praxisrelevante Anwendungsfälle zu bewerten. Dabei soll ein Open-Weights-LLM (z. B. Llama3, Mistral, DeepSeek-R1) auf lokaler oder Cloud-basierter Infrastruktur implementiert und mit einem Cloud-Modell (z. B. GPT-4o) verglichen werden. Im Mittelpunkt steht die Analyse der technischen, organisatorischen und sicherheitsrelevanten Anforderungen sowie die Bewertung von Datenschutz, Performance und Modellqualität. Durch die Entwicklung eines funktionsfähigen Prototyps eines selbstgehosteten LLMs werden die technische Machbarkeit, Wirtschaftlichkeit, Leistungsfähigkeit, Skalierbarkeit und Nutzerakzeptanz empirisch untersucht. Ziel ist es, auf dieser Basis praxisnahe und datenschutzkonforme Handlungsempfehlungen für Unternehmen zur Integration von LLMs in Wissensmanagementprozesse abzuleiten.