大模型显存估算

model-vram-calc · 显存占用 · KV Cache · 并发能力

选择模型 (100B+)
权重参数
架构参数 (KV Cache 估算所用)
embed / hidden_size
num_hidden_layers
num_attention_heads
num_key_value_heads
KV比例 = KV heads / Q heads → KV维度 = hidden dim × KV比例
GPU 配置
计算结果
--
GB
模型权重显存
--
GB
KV Cache / Session
--
GB
单Session 总显存
--
并发
最大并发 Session
--
GB
集群总显存
--
最少 GPU 数量
显存占用率 --%