作者回复: 赞
作者回复: 伪代码
作者回复: 我们做自动向量化也会考虑值不值得的问题。比如说X86不能在通用寄存器上计算,有时候需要额外的mov指令移到XMM中(如果不是直接从内存中加载的话)。另外,某些reduce操作,比如求向量内所有元素的和,X86无法用单条指令实现,只有两两相加的指令,因此需要好几条向量指令协作完成。这种情况下,我们便会放弃自动向量化。