如何定义人类的表现
假设你正在从事一项医疗影像应用,该应用可以根据X光图像自动做出诊断。除了一些基本的训练之外,一个之前没有医学背景的典型人员在这项任务上可达到15%的误差。初级医生可以达到10%的错误率。有经验的医生可达到5%的错误率。小组医生讨论并辩论每一张图像可达到2%的错误率。这些错误率中的哪一个定义为“人类的表现”呢?
在这种情况下,我会使用2%作为我们最优错误率的人类表现代理。你也可以将2%设为期望性能水平,因为上一章中与人类水平性能比较的三个原因均适用:
- 容易从标注人员中获取标注数据。你可以让一小组医生为你提供标签,错误率为2%。
- 错误分析可以利用人类的直觉。通过与一组医生讨论图像,你可以获取他们的直觉。
- 使用人类级别的性能去评估最优错误率并设置可达到的“期望错误率”。使用2%的错误率作为我们对最优错误率的估计是合理的。最优错误率可能比2%更低,但不会更高,因为一组医生可以达到2%的错误率。相反,使用5%或10%作为最优错误率 估计是不合理的,因为我们知道这些评估必然过高。
当你来获取标注数据时,你可能不想和整个小组的医生讨论每一张图片,因为他们的时间很昂贵。或许你可以在绝大多数情况下拥有一个初级医生的标签,并且只给更有经验的医生或一组医生更难的图像。
如果你的系统当前错误率为40%,那么使用初级医生(10%错误)还是有经验的医生(5%错误)来标注数据并提供直觉并不重要。但如果你的系统已经是10%的错误率了,那么将定义人类水平的参考为2%会给你更好地工具来继续改进你的系统。