对于深度学习推理,有5个用于衡量的关键指标:
[1] - 吞吐量(Throuthput)
指定时间区间内的输出量,通常用inference/second 或者samples/second来度量.
[2] - 效率(Efficiency)
单位功率的吞吐量,通常用performance/watt来度量.
[3] - 延迟(Latency)
运行推理的时间,通常用ms度量.
[4] - 精确度(Accuracy)
训练过的神经网络模型预测出正确结果的能力.
[5] - 内存占用(Memory usage)
主机和设备内存决定于所用的神经网络算法需要申请多少内存空间进行推理.