面壁智能三值量化突破:6倍省显存,600亿参数模型装进手机!
大模型越大越吃显存,一个8B参数模型通常需要16GB显存。面壁智能联合清华大学发布的BitCPM-CANN,用三值量化技术将显存需求压缩至原来的六分之一,同时保留97%以上的模型能力。
什么是三值量化?
传统模型权重用精确数字存储,可取几万种数值。三值量化直接砍到三种——黑、白、灰。看似极端,但研究反复证明模型权重存在大量冗余,三个值分配得当即可承载绝大部分能力。这项技术被称为1.58-bit,编码三个值恰好需要约1.58个二进制位。
三个"第一
资讯
admin
2026-05-25
3