2026052612:07星期二 申请收录 标签云 工具箱
当前位置:首页资讯详情页

面壁智能三值量化突破:6倍省显存,600亿参数模型装进手机!

资讯 admin 2026-05-25 2

大模型越大越吃显存,一个8B参数模型通常需要16GB显存。面壁智能联合清华大学发布的BitCPM-CANN,用三值量化技术将显存需求压缩至原来的六分之一,同时保留97%以上的模型能力。

什么是三值量化?

传统模型权重用精确数字存储,可取几万种数值。三值量化直接砍到三种——黑、白、灰。看似极端,但研究反复证明模型权重存在大量冗余,三个值分配得当即可承载绝大部分能力。这项技术被称为1.58-bit,编码三个值恰好需要约1.58个二进制位。

三个"第一次"

BitCPM-CANN在华为昇腾上实现了三个首次突破:第一次在国产算力上端到端完成三值大模型训练;第一次将规模推至8B,发布0.5B、1B、3B、8B四个档位;第一次实现与全精度模型的完整对照评测,能力保留率达95.7%至97.2%。

从服务器到手机的红利

8B全精度模型需16GB显存,BitCPM-CANN三值版本不到3GB,可流畅运行在手机上。结合MoE架构,60B规模模型有望装入终端设备。高通最新旗舰芯片8850和8397已支持2-bit原生推理,与三值权重直接适配。

国产算力闭环

在内存持续涨价的背景下,6倍显存红利意味着不增加物理内存就能提升数倍模型能力。BitCPM-CANN从训练框架、芯片适配到模型开源,构建了完整的国产闭环。全部尺寸版本已开源,MiniCPM家族在GitHub积累超3万星、HuggingFace下载量超3000万。

端侧竞争的胜负手

当AI竞争从"谁的模型更大"转向"谁能让智能跑在每台设备上",掌握端侧技术话语权的人将占据最有利位置。面壁智能正朝着覆盖预训练到对齐的全流程低比特化迈进。

相关文章