选择模型 (100B+)
权重参数
架构参数 (KV Cache 估算所用)
embed / hidden_size
num_hidden_layers
num_attention_heads
num_key_value_heads
KV比例 = KV heads / Q heads → KV维度 = hidden dim × KV比例
GPU 配置
计算结果
--
GB
模型权重显存
--
GB
KV Cache / Session
--
GB
单Session 总显存
--
并发
最大并发 Session
--
GB
集群总显存
--
张
最少 GPU 数量