Thoughts Into Forest

From Notes To Canopy · 知识由点成面，由念头成体系

ORCA论文阅读

bynshard 发布于 2025-05-09

现阶段有什么问题：

之前的推理引擎在处理基于transform模型decode的时候存在局限

由于语言模型的自回归特性，每次模型的输出作为模型的输入再次执行模型，导致输出多少个token，就需要运行多少次模型，并且这个运行多少次模型是不确定的