ORCA论文阅读
现阶段有什么问题:
之前的推理引擎在处理基于transform模型decode的时候存在局限
由于语言模型的自回归特性,每次模型的输出作为模型的输入再次执行模型,导致输出多少个token,就需要运行多少次模型,并且这个运行多少次模型是不确定的
现阶段有什么问题:
之前的推理引擎在处理基于transform模型decode的时候存在局限
由于语言模型的自回归特性,每次模型的输出作为模型的输入再次执行模型,导致输出多少个token,就需要运行多少次模型,并且这个运行多少次模型是不确定的