Lokaler KI-Server: ThinkStation mit Dual NVIDIA A4500″
Kategorie: Homeserver, KI-Projekte
Tags: NVIDIA, GPU, Ollama, Docker, ThinkStation
Inhalt:
Warum ein lokaler AI-Server? Datenschutz. Wenn sensible Daten nicht in die Cloud dürfen, muss die KI zu den Daten kommen — nicht umgekehrt.
In diesem Post zeige ich, wie ich eine Lenovo ThinkStation mit zwei NVIDIA RTX A4500 GPUs (je 20GB VRAM) als lokalen Inference-Server aufgebaut habe.
Hardware
Die ThinkStation bietet genug PCIe-Lanes für zwei GPUs und hat ein solides Kühlkonzept — wichtig für Dauerbetrieb. Die A4500 war der beste Kompromiss aus VRAM, Leistung und Preis für unsere Anwendungsfälle.
Software Stack
Das Setup basiert auf Docker Compose mit folgenden Services:
- Ollama — LLM Inference Server
- Open WebUI — Chat-Interface
- Traefik — Reverse Proxy mit SSL
- Portainer — Container-Management
Erste Ergebnisse
Mit Llama 3.1 70B im 4-Bit quantisierten Format erreichen wir ca. 15 Tokens/Sekunde auf beiden GPUs. Für Dokumentenanalyse und Zusammenfassungen ist das mehr als ausreichend.
Im nächsten Post geht es um die Docker Compose Konfiguration im Detail.