Lokaler KI-Server: ThinkStation mit Dual NVIDIA A4500″

Lokaler KI-Server: ThinkStation mit Dual NVIDIA A4500″

Kategorie: Homeserver, KI-Projekte
Tags: NVIDIA, GPU, Ollama, Docker, ThinkStation

Inhalt:

Warum ein lokaler AI-Server? Datenschutz. Wenn sensible Daten nicht in die Cloud dürfen, muss die KI zu den Daten kommen — nicht umgekehrt.

In diesem Post zeige ich, wie ich eine Lenovo ThinkStation mit zwei NVIDIA RTX A4500 GPUs (je 20GB VRAM) als lokalen Inference-Server aufgebaut habe.

Hardware

Die ThinkStation bietet genug PCIe-Lanes für zwei GPUs und hat ein solides Kühlkonzept — wichtig für Dauerbetrieb. Die A4500 war der beste Kompromiss aus VRAM, Leistung und Preis für unsere Anwendungsfälle.

Software Stack

Das Setup basiert auf Docker Compose mit folgenden Services:

  • Ollama — LLM Inference Server
  • Open WebUI — Chat-Interface
  • Traefik — Reverse Proxy mit SSL
  • Portainer — Container-Management

Erste Ergebnisse

Mit Llama 3.1 70B im 4-Bit quantisierten Format erreichen wir ca. 15 Tokens/Sekunde auf beiden GPUs. Für Dokumentenanalyse und Zusammenfassungen ist das mehr als ausreichend.

Im nächsten Post geht es um die Docker Compose Konfiguration im Detail.

KOMMENTAR HINTERLASSEN