当算法公平性修复失败时让人类陷入困境的情况

尝试修复临床预测算法以使它们公平,也会降低准确性。随着医疗保健系统越来越依赖于预测算法来做出有关患者护理的决策,它们正朝着公平性的目标迈进。

例如,一家医院可能会使用其电子医疗记录来预测哪些患者有患心血管疾病,糖尿病或抑郁症的风险,然后特别关注高危患者。但是妇女,黑人以及其他种族或少数民族群体可能会因这些问题而被误诊或未得到治疗。这意味着根据历史数据训练的预测模型可能会重现历史虐待,或者与白人男性患者相比,这些亚组的错误率更高。当医院使用该算法来决定谁应该接受特殊护理时,情况可能会变得更糟。

一些研究人员一直希望通过算法解决模型公平性问题,方法是为不同组重新校准模型,或者开发出减少系统错误率和组间分布差异的方法。

但是斯坦福大学医学(生物医学信息学)和生物医学数据科学副教授,斯坦福大学人类中心人工智能研究所(HAI)的副教授Nigam Shah和研究生Stephen Pfohl和Agata Foryciarz想知道算法是否修复确实是答案。

该团队在最近的一篇论文中发现,为解决算法公平性而提出的各种方法的确使算法更公平,但也会使它们的性能更差。莎阿说:“实际上,这可能会使每个人的算法变得更糟。”

Shah说,结果是,当机构处理临床结果的预测算法中的公平性问题时,应用算法修正是应该摆在桌面上的三个选项之一。第二个是让人员参与其中,以确保公平对待亚组。第三是完全抛弃算法。他说,知道哪种选择最合适,将需要更好地理解出现不公平现象的广泛环境。

为此,Pfohl说,试图开发用于临床的公平预测算法的计算机科学家需要与利益相关者(临床医生,患者和社区成员)保持联系。“以您要帮助的人群的价值观为基础,谨慎地提出问题是至关重要的。”

算法公平性方法的有限用处

为了评估为修正不公平的预测模型而提出的各种方法,Shah和Pfohl首先训练了机器学习算法,以预测三个大型数据集中数千名患者的少数健康结局。例如,他们使用了斯坦福大学10多年的电子健康记录数据来预测医院的死亡率,长期住院和30天的再次住院。首先,他们按年龄,种族,性别和种族划分了数据集。然后,使用几种不同的公平性定义,他们将相关的算法公平性修正应用于结果预测。Pfohl说:“最终,我们得到了一个巨大的矩阵,即每个子组的公平性和模型性能的不同观念如何变化。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关推荐