Grundlegendes#

Grundlegende Begriffe im Zusammenhang mit selbstgehosteten Large Language Models.

Large Language Model#

Ein großes Sprachmodell (Large Language Model, LLM) ist ein neuronales Netzwerk, das auf sehr großen Textmengen trainiert wurde, um menschliche Sprache zu verstehen und zu generieren. Es basiert typischerweise auf der Transformer-Architektur und lernt statistische Muster sowie Zusammenhänge in Texten, um zusammenhängende und kontextbezogene Antworten zu erzeugen. LLMs können vielfältige Sprachaufgaben bewältigen wie Textgenerierung, Übersetzung, Zusammenfassung oder Beantwortung von Fragen, ohne für jede Aufgabe speziell programmiert werden zu müssen. Bekannte Beispiele für LLMs sind GPT, Claude, Gemini oder Mistral.

On-Premises LLM#

Der Begriff On-Premises bezeichnet den Betrieb eines Systems in eigener Verantwortung und auf eigener Hardware. On-Premises LLMs erfordern ein nicht unerhebliches Maß an Ressourcen technischer, organisatorischer und rechtlicher Art. Angefangen bei der Bereitstellung von geeigneten Datenquellen über Hard- und Software bis hin zu beständiger Optimierung und Wartung des Systems. Neben den technischen Voraussetzungen sind auch die organisatorischen und vor allem auch rechtlichen Belange von großer Bedeutung für die Auswahl und den Betrieb eines solchen Systems.

GPU#

Eine GPU (Grafikprozessor, engl. Graphics Processing Unit) ist ein spezialisierter Prozessor, der ursprünglich für die Berechnung von Grafiken entwickelt wurde, aber heute vor allem für parallele Datenverarbeitung eingesetzt wird. Bei der Nutzung von großen Sprachmodellen spielt die GPU eine zentrale Rolle, da sie die parallelen Berechnungen massiv beschleunigt, die für das Training und die Nutzung dieser Modelle erforderlich sind. Ohne leistungsstarke GPUs wären die Rechenzeiten für komplexe KI-Modelle deutlich länger und nicht praktikabel.

Retrieval-Augmented Generation#

Retrieval-Augmented Generation (RAG) ist ein Ansatz, bei dem ein Sprachmodell mit externen, aktuell abgerufenen Daten angereichert wird. Dadurch lassen sich präzisere und kontextbezogene Antworten generieren, ohne dass das Modell selbst neu trainiert werden muss. Die Daten werden dabei dynamisch aus einer Wissensbasis (z. B. Dokumentenablage oder Datenbanken) abgerufen und dem Modell als Zusatzinformation bereitgestellt.

Im Zusammenhang mit On-Premises LLMs ermöglicht RAG, unternehmensinterne oder sensible Daten lokal zu nutzen, ohne diese in die Cloud übertragen zu müssen. So bleiben Datenschutz und Compliance gewahrt, während das Modell trotzdem auf aktuelle, firmenspezifische Informationen zugreifen kann.