Obsah článku
title: "Analýza multi-GPU k3s homelab klastra"
slug: "multi-gpu-k3s-homelab-cluster-analysis"
technologies: ["k3s", "Kubernetes", "NVIDIA GPU", "GTX 1050 Ti", "RTX 5060 Ti", "GeForce MX230", "CUDA"]
tags: ["homelab", "kubernetes", "multi-gpu", "cluster", "pascal", "blackwell"]
date_solved: "2025-08-22"
Projekt/Téma: Analýza multi-GPU k3s homelab klastra
1. Cieľ / Problém na vyriešenie: Dokumentácia a analýza komplexného homelab k3s klastra s heterogénnou GPU infraštruktúrou pre AI/ML workloady a distributed computing.
2. Použité technológie a nástroje:
- k3s v1.33.3+k3s1 (4-node cluster)
- Mixed GPU architectures: Pascal, Blackwell
- CUDA versions: 12.2, 12.4, 12.9
- NVIDIA drivers: 535, 550, 575
- Calico CNI
- Traefik ingress
- Various applications: Home Assistant, OpenWebUI, N8N
3. Kľúčové postupy a konfiguračné kroky:
- Multi-master HA setup (golem, rpi5, water)
- Worker nodes s GPU (phoenix, vivo)
- Automated GPU discovery a labeling
- Resource allocation tracking
- Application workload distribution
4. Výsledné kódy a skripty:
# Cluster topology overview
Nodes:
Masters: 3 (golem, rpi5, water)
Workers: 2 (phoenix, vivo)
GPU Resources:
golem: 2x GTX 1050 Ti (4GB each) - Pascal 6.1
phoenix: 1x RTX 5060 Ti (16GB) - Blackwell 12.0
vivo: 1x MX230 (2GB) - Pascal 6.1
Total: 4 GPUs, 22GB VRAM
5. Zistené problémy a riešenia (Gotchas): Problém: Heterogénne GPU architektúry môžu vyžadovať rôzne CUDA verzie a compute capabilities. Riešenie: Kubernetes node affinity a tolerations pre workloady špecifické pre architektúru.
Problém: Rôzne NVIDIA driver verzie na rôznych nodoch. Riešenie: GPU Operator riadi driver compatibility automaticky pre každý node samostatne.
6. Finálny výsledok / Záver: Plne funkčný multi-GPU k3s klaster s 43 running podmi, 21 services, podporou pre AI/ML workloady s automatic GPU scheduling a monitoring cez DCGM exporter. Cluster ready pre distributed training a inference workloady.