1. 首页 > 综合百科 > 高通骁龙855详尽测试:安卓称王 难追苹果

高通骁龙855详尽测试:安卓称王 难追苹果

推理性能优秀,但缺少API支持

除了CPU和GPU之外,高通对骁龙855的另一个宣传重点是其Hexagon 690加速器模块。

Hexagon 690的矢量管线相比骁龙845上的Hexagon 680翻了一倍,传统图像处理任务以及机器推理工作的性能也相应翻倍。更重要的是,高通为其专门设计了一个张量加速单元,它可以更好地分流推理任务。

高通宣称Hexagon 690“总共具有7Tops”的计算能力,但是并未透露包括张量加速单元在内各部分的具体性能信息。

然而在硬件性能之外,张量加速单元目前的API支持情况却并不完善,高通表示今年晚些时候才会将相关特性提供给NNAPI,目前只有公司内部的测试软件才能调用这个张量加速单元。

这也就意味着,在目前本就非常有限的AI测试软件中,没有一个能够真正测试骁龙855的AI性能,测试结果仅能体现Hexagon 690作为DSP在传统矢量管线方面的改进。

本次测试依然使用AI-Benchmark软件,这是由瑞士ETH苏黎世计算机视觉实验室的Andrey Ignatov开发的新基准测试程序,也是第一个广泛使用Android 8.1新NNAPI而不依赖于每个SoC供应商自己的SDK工具和API的基准测试程序,能更准确的体现使用NNAPI的应用程序的神经网络性能。

需要记住的一点是,NNAPI不仅仅是一些能够在NPU上运行神经网络模型的通用转换层,而且API和SoC供应商的底层驱动程序必须能够支持公开的函数,并且能够在IP块上运行它。

这里的区别在于,使用NNAPI尚未支持的特性(必须退回到CPU上运算)的模型和能够硬件加速并对量化的INT8或FP16数据进行操作的模型。还有一些模型依赖于FP32数据,这里同样依赖于底层驱动程序,它可以在CPU上运行,也可以在GPU上运行。

在依靠CPU运行的第一组测试项,骁龙855的表现中规中矩。由于属于短时间突发的工作负载,此处的性能受系统调度程序的影响更大,即考验系统能在多快的时间内充分调用起CPU性能。

接下来测试的是适用于大多数硬件加速设备的8位整数量化模型,在这些测试项中骁龙855的性能均处于领先地位。

在Pioneers的项目中可以清楚地看到HVX单元的性能确实翻了一番,骁龙855完成运算所用的时间只有骁龙845的一半;而在Cartoons项目中,骁龙855的性能增幅更大,这可能是由于高通改进了驱动程序,让代码能更好的利用新硬件。

在测试FP16的项目中,骁龙855终于受到了挑战。由于麒麟980已经公开了对其硬件的支持,这些测试得以顺利的跑在NPU上,而骁龙855则只能使用GPU,不过Adreno 640在这些测试项中倒也不怎么虚,只是略微落后,表现很是惊人,这也侧面证明NNAPI的功能和性能都非常成熟,可以充分利用各种加速单元。

而到了FP32测试项中,骁龙855再次依靠强大的GPU加速以压倒性的优势制霸全场,当然这也是意料之中的……

测完AI-Benchmark,顺便测测鲁大师的AIMark。AIMark没有使用NNAPI,而是基于高通的SNPE框架和苹果的CoreML进行加速,这也让骁龙855和苹果A12难得的可以凑在一起进行比较。

在AIMark中,骁龙855相比骁龙845有了2.5~3倍的性能提升。即使目前的测试软件还无法调用张量加速单元,骁龙855的推理性能也非常出色。

顺便一提,高通还现场展示了骁龙855运行InceptionV3内部测试的情况,该测试由HVX单元和新的张量加速单元共同加速,推断性能达到每秒148次,与不使用张量加速单元的AIMark相比,性能提升了26%。