量化与格式

如何选择量化版本

量化的目标是降低模型体积和内存占用，同时尽量保留输出质量。常见 GGUF 量化格式如下：

量化类型	大小（相对）	质量	推荐场景
`Q2_K`	最小	较低	极端内存受限
`Q4_K_M`	较小	良好	日常使用首选
`Q5_K_M`	中等	较好	兼顾质量与性能
`Q6_K`	较大	很好	更看重输出质量
`Q8_0`	很大	接近原始	内存较充足
`F16`	最大	原始精度	研究或高质量评估

多数场景下，Q4_K_M 是速度、质量和资源占用之间比较平衡的选择。

OmniStudio 当前主要支持 GGUF 格式模型。GGUF 是 llama.cpp 生态中的主流格式，具备以下优点：