Analýza multi-GPU k3s homelab klastra

Vytvorené: 24. 8. 2025 08:45 Aktualizované: 27. 8. 2025 13:15
Vyriešené
Obsah článku

title: "Analýza multi-GPU k3s homelab klastra"
slug: "multi-gpu-k3s-homelab-cluster-analysis"
technologies: ["k3s", "Kubernetes", "NVIDIA GPU", "GTX 1050 Ti", "RTX 5060 Ti", "GeForce MX230", "CUDA"]
tags: ["homelab", "kubernetes", "multi-gpu", "cluster", "pascal", "blackwell"]
date_solved: "2025-08-22"

Projekt/Téma: Analýza multi-GPU k3s homelab klastra

1. Cieľ / Problém na vyriešenie: Dokumentácia a analýza komplexného homelab k3s klastra s heterogénnou GPU infraštruktúrou pre AI/ML workloady a distributed computing.

2. Použité technológie a nástroje:

  • k3s v1.33.3+k3s1 (4-node cluster)
  • Mixed GPU architectures: Pascal, Blackwell
  • CUDA versions: 12.2, 12.4, 12.9
  • NVIDIA drivers: 535, 550, 575
  • Calico CNI
  • Traefik ingress
  • Various applications: Home Assistant, OpenWebUI, N8N

3. Kľúčové postupy a konfiguračné kroky:

  • Multi-master HA setup (golem, rpi5, water)
  • Worker nodes s GPU (phoenix, vivo)
  • Automated GPU discovery a labeling
  • Resource allocation tracking
  • Application workload distribution

4. Výsledné kódy a skripty:

# Cluster topology overview
Nodes:
  Masters: 3 (golem, rpi5, water)  
  Workers: 2 (phoenix, vivo)

GPU Resources:
  golem: 2x GTX 1050 Ti (4GB each) - Pascal 6.1
  phoenix: 1x RTX 5060 Ti (16GB) - Blackwell 12.0  
  vivo: 1x MX230 (2GB) - Pascal 6.1

Total: 4 GPUs, 22GB VRAM

5. Zistené problémy a riešenia (Gotchas): Problém: Heterogénne GPU architektúry môžu vyžadovať rôzne CUDA verzie a compute capabilities. Riešenie: Kubernetes node affinity a tolerations pre workloady špecifické pre architektúru.

Problém: Rôzne NVIDIA driver verzie na rôznych nodoch. Riešenie: GPU Operator riadi driver compatibility automaticky pre každý node samostatne.

6. Finálny výsledok / Záver: Plne funkčný multi-GPU k3s klaster s 43 running podmi, 21 services, podporou pre AI/ML workloady s automatic GPU scheduling a monitoring cez DCGM exporter. Cluster ready pre distributed training a inference workloady.

Vyriešené: 22. 8. 2025