如何衡量“尺子”有多“准”?上纽大教授提出新方法评估“测量”

research banner image
2023年11月3日

生活中,我们时常和各种形式的“测量”打交道——在医院,我们接受医疗检查以评估健康状况;在职场,企业通过面试来判断求职者是否适合特定岗位;而学校则有各类考试来考查学生的知识掌握情况。在各种情况下,测量结果决定了我们的关注点,并且常常会对我们的行动产生影响。鉴于“测量”的重要性不容忽视,那么我们如何来准确评价“测量”本身呢?

近日,华东师范大学-纽约大学脑与认知科学联合研究中心(上海纽约大学)联合主任、上海纽约大学神经科学教授吕忠林与合作者发明了一套评估测量的新方法。他们的研究发表在《科学报告》期刊(Scientific Reports)。研究团队将信息论中的“预期信息增益”概念首次引入到“测量”领域,用于量化和评估不同“测量”方法所能获取的知识总量。

“很多情况下,‘测量’的意义并不在于测量本身,而是需要利用‘测量’结果来指导后续的行动。” 吕教授解释道。他以癌症患者的诊断过程为例:一系列的医疗检测对于确定癌症的分期至关重要,随后的治疗方案都需要根据这些测量结果制定。因此,“正确”的测量非常关键,因为它对治疗起到了指导乃至决定性的作用。

吕教授身为视觉领域专家,多年前就已经注意到,随着科研和技术的发展,一些传统的视力检测方法已经不能为疾病诊断提供有效信息。因此,他开始思考如何对“测量”进行评估。在这项研究中,他从机器学习领域汲取了灵感,提出了一套新的评估方法。

“预期信息增益”的相对大小是机器学习领域中的一种常用工具,用于在学习过程中选择最佳策略。然而,它并不能直接用于量化所获得的知识总量,因为要衡量知识获取量,需要对在学习过程开始前的未知程度进行定量评估。因此,吕教授的团队在将“预期信息增益”的理念引入测量领域时,首先会根据目标群体的特性来量化初始未知度,这有助于评估不同“测量”的“价值”。

这一方法的核心思想在于通过使用“预期信息增益”来量化“测量”所获得的知识增长。如果一开始的未知程度较高,并且“测量”结果能有效地降低未知度,那么“预期信息增益”将更为显著。换句话说,当“测量”效果越好时,我们所获得的“测量”结果的确定性也就越高。

 

研究者还首次将这一评估方法用于实际检验,对比了用于视觉敏锐度(VA)和对比敏感度(CS)测试的不同方法。视觉敏锐度测试通常用来检测视力的锐度和清晰度,可用于诊断视力问题、确定是否需要眼镜、评估是否符合驾驶要求、决定是否适合进行视力矫正手术等。研究结果显示,当前的黄金标准ETDRS视力测试表(见下图a)的表现不如基于主动学习的qVA测试(见下图b)。这意味着现行的视力评估方法存在改进的空间。

 

vision test chart

a)ETDRS视力表  图 | Precision Vision;(b)qVA视力表示例

 

对比敏感度测试(CS)通过评估感知相对于背景的细微亮度变化的能力来检测各种眼部疾病,如青光眼、白内障和黄斑变性。研究结果显示,在评估对比敏感度方面,常用的Pelli-Robson测试(见下图a)不如CSV-1000测试(见下图b)。但基于主动学习的qCSF测试(见下图c)则表现出最高的“预期信息增益”,展现出明显优势。

 

research image in body

(a)Pelli-Robson测试表  图 | Precision Vision;(b)CSV-1000测试表  图 | GUARDiON Health Science;(c)qCSF测试中示例

 

研究中强调,当比较“预期信息增益”时,需要考虑不同的目标群体,因为不同群体的情况会影响这一标准。“我们发现一个趋势,不同的目标群体可能需要不同的测量方法,而同一种测量方法在不同的群体中表现也不同。” 吕教授解释说,“比如,同一个调查问卷,可能对上海的居民来说很好地反映了他们的生活情况,但对浙江的居民却未必准确。”

吕教授认为,“‘预期信息增益’是一个非常有用的工具,可以客观地评估测量所带来的新知识。在科研和日常生活中,涉及测量和数据分析时,‘预期信息增益’都能帮助我们更好地进行比较,做出更明智的决策。”