面壁智能三值量化突破：6倍省显存，600亿参数模型装进手机！

资讯 admin 2026-05-25 74

大模型越大越吃显存，一个8B参数模型通常需要16GB显存。面壁智能联合清华大学发布的BitCPM-CANN，用三值量化技术将显存需求压缩至原来的六分之一，同时保留97%以上的模型能力。

什么是三值量化？

传统模型权重用精确数字存储，可取几万种数值。三值量化直接砍到三种——黑、白、灰。看似极端，但研究反复证明模型权重存在大量冗余，三个值分配得当即可承载绝大部分能力。这项技术被称为1.58-bit，编码三个值恰好需要约1.58个二进制位。

三个"第一次"

BitCPM-CANN在华为昇腾上实现了三个首次突破：第一次在国产算力上端到端完成三值大模型训练；第一次将规模推至8B，发布0.5B、1B、3B、8B四个档位；第一次实现与全精度模型的完整对照评测，能力保留率达95.7%至97.2%。

从服务器到手机的红利

8B全精度模型需16GB显存，BitCPM-CANN三值版本不到3GB，可流畅运行在手机上。结合MoE架构，60B规模模型有望装入终端设备。高通最新旗舰芯片8850和8397已支持2-bit原生推理，与三值权重直接适配。

国产算力闭环

在内存持续涨价的背景下，6倍显存红利意味着不增加物理内存就能提升数倍模型能力。BitCPM-CANN从训练框架、芯片适配到模型开源，构建了完整的国产闭环。全部尺寸版本已开源，MiniCPM家族在GitHub积累超3万星、HuggingFace下载量超3000万。

端侧竞争的胜负手

当AI竞争从"谁的模型更大"转向"谁能让智能跑在每台设备上"，掌握端侧技术话语权的人将占据最有利位置。面壁智能正朝着覆盖预训练到对齐的全流程低比特化迈进。