选择模型 (100B+) · 数据来源 modelscope.cn
权重参数
架构参数 (KV Cache 估算所用)
embed / hidden_size
num_hidden_layers
num_attention_heads
num_key_value_heads
KV比例 = KV heads / Q heads → KV维度 = hidden dim × KV比例
GPU 配置
估算模式
保守估算
推理开销 15% · 单位 1e9 · 含对齐损耗
乐观估算
推理开销 8% · 单位 1024³ · 理论值
计算结果
--
GB
模型权重显存
--
GB
KV Cache / Session
--
GB
单Session 总显存
--
并发
最大并发 Session
--
GB
集群总显存
--
张
最少需要 GPU
⚠️ 无法支持并发:显存空间不足