So haben wir unseren lokalen KI-Server aufgebaut

03.03.2026

Ollama, Open WebUI & RAG

KI-Power mit 96 GB VRAM, eine kompakte HP Mini-Workstation und ein Open-Source-Stack – ich zeige Schritt für Schritt, wie unser Self-Hosted KI-Setup mit SSO, Web Search und Wiki-Anbindung entstanden ist.

Ein Beitrag von Mario Gersbach, Application Security Engineer bei Sidarion

Im ersten Beitrag dieser Serie habe ich gezeigt, welche Use Cases wir mit unserem lokalen KI-Server abdecken. Jetzt geht es ans Eingemachte: Welche Hardware steckt dahinter, welcher Software-Stack läuft darauf, und wie haben wir alles zusammengebaut?

🖥️ Die Hardware: Klein, aber oho

Unser KI-Server ist ein HP Z2 Mini G1A Workstation – kaum grösser als ein dickes Buch, aber mit ordentlich Power:

CPU/GPU: AMD Ryzen AI Max+ PRO 395 mit integrierten 96 GB VRAM
Formfaktor: Mini-Workstation – passt in jedes Büro oder Serverrack
Eine beliebte Alternative ist mittlerweile die kleine NVIDIA DGX Spark

Die 96 GB VRAM sind der Schlüssel. Damit können wir Modelle mit bis zu 70 Milliarden Parametern lokal ausführen – ohne externe GPU-Cluster, ohne Cloud.

🧱 Der Software-Stack

Unser Setup besteht aus vier Kernkomponenten, alle Open Source:

Ollama – Das LLM-Backend

Ollama ist unser Motor für die Sprachmodelle. Es verwaltet, lädt und führt die Modelle aus. Installiert ist Ollama als Dienst, damit alles beim Serverstart automatisch läuft.

Aktuell fahren wir unter anderem:

gpt-oss:20b – unser Arbeitstier für den Alltag (15 GB VRAM)
gpt-oss:120b – für unsere Tiefenanalyse (63 GB VRAM)
devstral-small-2 – als Ergänzung zur KI von Claude Code (15 GB VRAM)
qwen3 in diversen Grössen – von 1.7b bis 30b, je nach Aufgabe

Bei den grossen Modellen wie gpt-oss:120b liegen wir aktuell bei 35 Tokens per Sekunde.

Der Vorteil: Wir können jederzeit neue Modelle testen, wechseln oder parallel betreiben – ein einfaches ‹ollama pull› genügt.

Open WebUI – Das Chat-Frontend

Open WebUI gibt unseren Mitarbeitenden eine vertraute Chat-Oberfläche – ähnlich wie ChatGPT, aber vollständig lokal. Features, die wir nutzen:

Multi-Modell-Support: Nutzer wählen je nach Aufgabe das passende Modell
Brave Web Search Integration: Für Fragen, die aktuelles Wissen erfordern
Wiki-Anbindung (RAG): Unser Drupal-Wiki wird als Wissensquelle angebunden
Microsoft Entra ID SSO: Single Sign-On über unsere bestehende Azure AD-Infrastruktur
Wir bieten die KI-Inferenz intern als OpenAI-kompatible API an (Authentication/Encryption)

RAG: Wiki als Wissensbasis

Besonders spannend ist unsere RAG-Integration (Retrieval Augmented Generation). Wir haben ein System entwickelt, das unser internes Drupal-Wiki als Wissensquelle für die KI erschliesst:

Search: Die KI sendet Suchbegriffe an die Wiki REST API
Fetch: Relevante Seiteninhalte werden abgerufen
Augment: Die abgerufenen Inhalte fliessen als Kontext in die Antwort ein

Das Ergebnis: Unsere KI kann Fragen zu internen Prozessen, Dokumentationen und Projekten beantworten – basierend auf aktuellem, unternehmenseigenem Wissen.

RAG: Brave Search als Brücke zum Internet

Neben dem internen Wiki haben wir eine zweite RAG-Quelle angebunden: die Brave Search API. Damit erweitern wir das Wissen unserer KI über die Unternehmensgrenzen hinaus.

Search: Die KI formuliert eine optimierte Suchanfrage und sendet diese an die Brave Search API
Fetch: Die relevantesten Webinhalte werden abgerufen und aufbereitet
Augment: Die externen Informationen fliessen als zusätzlicher Kontext in die Antwort ein

So kann unsere KI internes und externes Wissen kombinieren. Eine Frage wie «Wie konfigurieren wir unseren Nginx-Reverse-Proxy und welche Best Practices gibt es aktuell dazu?» wird sowohl mit interner Wiki-Dokumentation als auch mit aktuellen Informationen aus dem Web beantwortet.

Die Brave Search API passt dabei ideal zu unserer Self-Hosting-Philosophie: Sie arbeitet datenschutzfreundlich und erstellt keine Nutzerprofile.

🔐 Authentifizierung: Microsoft Entra ID

Für uns war klar: Kein separates Login-System. Über Microsoft Entra ID (Azure AD) loggen sich unsere Mitarbeitenden mit ihrem bestehenden Unternehmenskonto ein. Die Integration war straightforward:

App Registration in Entra ID erstellen
Client Secret und API Permissions konfigurieren
Redirect URI auf unsere Open WebUI-Instanz setzen
Umgebungsvariablen in Open WebUI konfigurieren

Damit haben wir SSO, zentrales Usermanagement und können den Zugriff über bestehende Gruppen und Policies steuern.

Alles läuft auf einer einzigen Maschine. Kein Kubernetes, kein Docker-Swarm, keine komplexe Infrastruktur. Für unsere Teamgrösse ist das genau richtig.

🔮 Ausblick

Der aktuell limitierende Faktor unseres Systems ist die Memory-Bandbreite der eingesetzten Hardware. Für den nächsten Ausbauschritt planen wir den Einsatz einer NVIDIA RTX 6000 oder einer H100/H200. Damit würden wir die Inferenzgeschwindigkeit (Tokens per Second) deutlich steigern und könnten auch grössere Modelle flüssig betreiben. Das Fundament aus Software-Stack und RAG-Architektur steht – jetzt geht es darum, die Hardware mitwachsen zu lassen.

Wie gut sind Open-Weight-Modelle wirklich?

Ein häufiges Vorurteil ist, lokale Modelle seien den grossen Cloud-Diensten wie ChatGPT (GPT-4o), Claude oder Gemini deutlich unterlegen. Das stimmte vielleicht noch vor einem Jahr – heute sieht die Realität anders aus. Modelle wie Qwen3, LLaMA 4 oder Mistral Large erreichen in unabhängigen Benchmarks Ergebnisse, die auf Augenhöhe mit GPT-4o liegen. Gerade bei Aufgaben wie Code-Generierung, Textanalyse und Zusammenfassungen ist der Unterschied im Arbeitsalltag kaum noch spürbar. Die kleineren Modelle (7b–20b) eignen sich hervorragend für klar definierte Aufgaben wie Klassifikation, Übersetzung oder das Beantworten von FAQ-Fragen. Die grösseren Modelle (70b+) liefern bei komplexen Analysen und kreativem Schreiben Ergebnisse, die noch vor kurzem ausschliesslich den teuren Cloud-APIs vorbehalten waren. Der entscheidende Punkt: Für 80 – 90 % unserer täglichen Anwendungsfälle liefern die lokalen Open-Weight-Modelle gleichwertige Ergebnisse – bei voller Datenkontrolle und ohne laufende API-Kosten.

🎯 Fazit

Unser Setup zeigt: Ein leistungsfähiger lokaler KI-Server muss weder komplex noch teuer sein. Mit der richtigen Hardware und einem durchdachten Open-Source-Stack steht in wenigen Tagen ein produktives System, das den Vergleich mit Cloud-Diensten nicht scheuen muss – bei voller Datenhoheit.

Im nächsten Beitrag geht es um das Thema, das viele unterschätzen: Compliance, Lizenzrecht und Datenschutz beim Self-Hosting von LLMs.

Aktuelles

Event 24.03.2026

Infoblox Security Training in ZÜRICH

Cybersecurity ist voll von Buzzwords, Produkt-Pitches und Hochglanzfolien. Dieses Training ist anders.

Event 23.03.2026

Infoblox Security Training in BASEL