全部研究
Token Routing for Hybrid Edge-Cloud Inference
Token Routing 的核心思想是根据 token 的计算复杂度与上下文重要性,在端与云之间动态分配处理路径。
简单 token 在本地快速完成,高价值 token 再交由更强的云侧模型处理,以控制整体延迟与成本。
性能表现
实验表明,这种粒度更细的路由机制比传统的整段卸载更高效,在交互响应和总体成本之间取得了更好的折中。
它适合需要稳定首 token 响应、同时又要保持复杂推理质量的实际产品环境。