/images/icon/logo.png

Thoughts Into Forest

From Notes To Canopy · 知识由点成面,由念头成体系

ORCA论文阅读

现阶段有什么问题:

之前的推理引擎在处理基于transform模型decode的时候存在局限

  1. 由于语言模型的自回归特性,每次模型的输出作为模型的输入再次执行模型,导致输出多少个token,就需要运行多少次模型,并且这个运行多少次模型是不确定的