Ein Beitrag von Mario Gersbach, Application Security Engineer bei Sidarion
Im ersten Beitrag dieser Serie habe ich gezeigt, welche Use Cases wir mit unserem lokalen KI-Server abdecken. Jetzt geht es ans Eingemachte: Welche Hardware steckt dahinter, welcher Software-Stack läuft darauf, und wie haben wir alles zusammengebaut?
🖥️ Die Hardware: Klein, aber oho
Unser KI-Server ist ein HP Z2 Mini G1A Workstation – kaum grösser als ein dickes Buch, aber mit ordentlich Power:
- CPU/GPU: AMD Ryzen AI Max+ PRO 395 mit integrierten 96 GB VRAM
- Formfaktor: Mini-Workstation – passt in jedes Büro oder Serverrack
- Eine beliebte Alternative ist mittlerweile die kleine NVIDIA DGX Spark
Die 96 GB VRAM sind der Schlüssel. Damit können wir Modelle mit bis zu 70 Milliarden Parametern lokal ausführen – ohne externe GPU-Cluster, ohne Cloud.
🧱 Der Software-Stack
Unser Setup besteht aus vier Kernkomponenten, alle Open Source:
Ollama – Das LLM-Backend
Ollama ist unser Motor für die Sprachmodelle. Es verwaltet, lädt und führt die Modelle aus. Installiert ist Ollama als Dienst, damit alles beim Serverstart automatisch läuft.
Aktuell fahren wir unter anderem:
- gpt-oss:20b – unser Arbeitstier für den Alltag (15 GB VRAM)
- gpt-oss:120b – für unsere Tiefenanalyse (63 GB VRAM)
- devstral-small-2 – als Ergänzung zur KI von Claude Code (15 GB VRAM)
- qwen3 in diversen Grössen – von 1.7b bis 30b, je nach Aufgabe
Bei den grossen Modellen wie gpt-oss:120b liegen wir aktuell bei 35 Tokens per Sekunde.
Der Vorteil: Wir können jederzeit neue Modelle testen, wechseln oder parallel betreiben – ein einfaches ‹ollama pull› genügt.
Open WebUI – Das Chat-Frontend
Open WebUI gibt unseren Mitarbeitenden eine vertraute Chat-Oberfläche – ähnlich wie ChatGPT, aber vollständig lokal. Features, die wir nutzen:
- Multi-Modell-Support: Nutzer wählen je nach Aufgabe das passende Modell
- Brave Web Search Integration: Für Fragen, die aktuelles Wissen erfordern
- Wiki-Anbindung (RAG): Unser Drupal-Wiki wird als Wissensquelle angebunden
- Microsoft Entra ID SSO: Single Sign-On über unsere bestehende Azure AD-Infrastruktur
- Wir bieten die KI-Inferenz intern als OpenAI-kompatible API an (Authentication/Encryption)
RAG: Wiki als Wissensbasis
Besonders spannend ist unsere RAG-Integration (Retrieval Augmented Generation). Wir haben ein System entwickelt, das unser internes Drupal-Wiki als Wissensquelle für die KI erschliesst:
- Search: Die KI sendet Suchbegriffe an die Wiki REST API
- Fetch: Relevante Seiteninhalte werden abgerufen
- Augment: Die abgerufenen Inhalte fliessen als Kontext in die Antwort ein
Das Ergebnis: Unsere KI kann Fragen zu internen Prozessen, Dokumentationen und Projekten beantworten – basierend auf aktuellem, unternehmenseigenem Wissen.
RAG: Brave Search als Brücke zum Internet
Neben dem internen Wiki haben wir eine zweite RAG-Quelle angebunden: die Brave Search API. Damit erweitern wir das Wissen unserer KI über die Unternehmensgrenzen hinaus.
- Search: Die KI formuliert eine optimierte Suchanfrage und sendet diese an die Brave Search API
- Fetch: Die relevantesten Webinhalte werden abgerufen und aufbereitet
- Augment: Die externen Informationen fliessen als zusätzlicher Kontext in die Antwort ein
So kann unsere KI internes und externes Wissen kombinieren. Eine Frage wie «Wie konfigurieren wir unseren Nginx-Reverse-Proxy und welche Best Practices gibt es aktuell dazu?» wird sowohl mit interner Wiki-Dokumentation als auch mit aktuellen Informationen aus dem Web beantwortet.
Die Brave Search API passt dabei ideal zu unserer Self-Hosting-Philosophie: Sie arbeitet datenschutzfreundlich und erstellt keine Nutzerprofile.
🔐 Authentifizierung: Microsoft Entra ID
Für uns war klar: Kein separates Login-System. Über Microsoft Entra ID (Azure AD) loggen sich unsere Mitarbeitenden mit ihrem bestehenden Unternehmenskonto ein. Die Integration war straightforward:
- App Registration in Entra ID erstellen
- Client Secret und API Permissions konfigurieren
- Redirect URI auf unsere Open WebUI-Instanz setzen
- Umgebungsvariablen in Open WebUI konfigurieren
Damit haben wir SSO, zentrales Usermanagement und können den Zugriff über bestehende Gruppen und Policies steuern.
Alles läuft auf einer einzigen Maschine. Kein Kubernetes, kein Docker-Swarm, keine komplexe Infrastruktur. Für unsere Teamgrösse ist das genau richtig.
🔮 Ausblick
Der aktuell limitierende Faktor unseres Systems ist die Memory-Bandbreite der eingesetzten Hardware. Für den nächsten Ausbauschritt planen wir den Einsatz einer NVIDIA RTX 6000 oder einer H100/H200. Damit würden wir die Inferenzgeschwindigkeit (Tokens per Second) deutlich steigern und könnten auch grössere Modelle flüssig betreiben. Das Fundament aus Software-Stack und RAG-Architektur steht – jetzt geht es darum, die Hardware mitwachsen zu lassen.
Wie gut sind Open-Weight-Modelle wirklich?
Ein häufiges Vorurteil ist, lokale Modelle seien den grossen Cloud-Diensten wie ChatGPT (GPT-4o), Claude oder Gemini deutlich unterlegen. Das stimmte vielleicht noch vor einem Jahr – heute sieht die Realität anders aus. Modelle wie Qwen3, LLaMA 4 oder Mistral Large erreichen in unabhängigen Benchmarks Ergebnisse, die auf Augenhöhe mit GPT-4o liegen. Gerade bei Aufgaben wie Code-Generierung, Textanalyse und Zusammenfassungen ist der Unterschied im Arbeitsalltag kaum noch spürbar. Die kleineren Modelle (7b–20b) eignen sich hervorragend für klar definierte Aufgaben wie Klassifikation, Übersetzung oder das Beantworten von FAQ-Fragen. Die grösseren Modelle (70b+) liefern bei komplexen Analysen und kreativem Schreiben Ergebnisse, die noch vor kurzem ausschliesslich den teuren Cloud-APIs vorbehalten waren. Der entscheidende Punkt: Für 80 – 90 % unserer täglichen Anwendungsfälle liefern die lokalen Open-Weight-Modelle gleichwertige Ergebnisse – bei voller Datenkontrolle und ohne laufende API-Kosten.
🎯 Fazit
Unser Setup zeigt: Ein leistungsfähiger lokaler KI-Server muss weder komplex noch teuer sein. Mit der richtigen Hardware und einem durchdachten Open-Source-Stack steht in wenigen Tagen ein produktives System, das den Vergleich mit Cloud-Diensten nicht scheuen muss – bei voller Datenhoheit.
Im nächsten Beitrag geht es um das Thema, das viele unterschätzen: Compliance, Lizenzrecht und Datenschutz beim Self-Hosting von LLMs.
