优化目标(致命的偏差当优化目标成为问题的根源)

优化目标(致命的偏差当优化目标成为问题的根源)

adminqwq 2025-12-20 信息披露 1 次浏览 0个评论

致命的偏差:当“优化目标”成为问题的根源

刚才我们已经说了预测式AI在实际应用中表现不佳的两个层次的原因,分别是,“可预测的局限”和“隐藏的陷阱”。第三个层次的错误,可以称为“致命的偏差”:这是最值得警惕的一类问题,因为它直接源于AI优化目标的设定。这是很多人都不知道的一个点,值得你仔细听听。

AI模型训练的核心,是首先要人为设定一个明确的优化目标。这个目标的确立,是整个训练过程的“指挥棒”。目标设定完,就可以开始启动模型的训练。模型的训练,就是一个不断调整模型内部参数、以求最优化该目标的过程。举个图像分类的例子:我们的目标可以是在平均意义上,让模型的预测结果与真实标签之间的差距越小越好。那么,参数调整的全部意义,就在于如何让这个差距不断缩小,直至最优。然而,关键在于,这个优化目标是由AI的设计者——“人”——来定义的。这意味着,如果最初设定的目标本身存在偏差或不够全面,那么无论模型训练得多么“完美”,最终也无法达到我们预期的理想效果,甚至会产生严重的问题。与优化目标相关的一个错误,被称为代理指标的谬误(The Proxy Problem)。

这个问题的本质是:我们希望AI去优化一个至关重要的“真实指标”,但由于现实的限制,开发者选择了一个更容易量化的“代理指标”(Proxy)来作为替代。问题在于,许多“代理指标”虽然表面看似合理,但当AI将其作为唯一的优化目标时,模型的最终表现往往会与我们的初衷背道而驰,甚至引发严重问题

一个例子是关于AI如何预测谁应获得更优先的医疗护理。自2010年《平价医疗法案》在美国推行以来,医院为了控制成本,普遍采用AI技术来识别“高风险”患者,并为他们提供预防性护理,以避免未来产生更昂贵的治疗费用。数十种AI模型因此诞生,其中就包括了Optum公司的Impact Pro模型。然而,一项针对该模型的研究揭示了一个惊人的结论:在健康状况完全相同的情况下,该模型系统性地认为,白人患者比黑人患者具有更高的患病风险。这是一个极其反常的现象。从医生的专业判断来看,高风险病人通常是那些病情危重、合并症多、需要更密切治疗和干预的个体,这完全取决于其生理和病理状况,而绝非肤色。这意味着,Optum的AI模型会使白人比同等健康状况的黑人更容易被纳入优先护理项目,从而享有本不应有的资源倾斜。那么,这个旨在预测健康风险的AI,为何会得出如此带有偏见的结论呢?

Optum的设计者在训练这个AI模型的时候,要准备数据集。这个数据集中的每一个样本,应该包括某个患者的所有信息,以及该患者的“真实健康风险”。但研究者很快发现,“真实健康风险”这个标签很难收集。我们如何知道一个病人的真实健康风险呢?是死亡率?是住院时间?还是康复所需的时间?可能都不准,这需要临床专家的复杂评估、患者的主观反馈以及长期的健康跟踪。这个数据收集成本极高且难以标准化。为此,该AI的设计者找到了一个看似巧妙的代理指标:患者入院期间总的医疗费用。这个逻辑表面上颇具说服力:一个病人的医疗花费越高,其病情更严重,入院时的风险也越高,而且“医疗花费”这个量化数据唾手可得。然而,正是这个代理指标,成了问题的根源。因为,一个病人的医疗花费高,不一定是其健康风险大,很可能是因为他有钱或者有保险。在美国,这一部分人是白人的比例更高。

致命的偏差:当“优化目标”成为问题的根源

当AI被指令去优化“医疗花费”这个代理指标时,它就会从输入的病人信息中,寻找一切能够帮助其更好地预测“医疗花费”的相关信号,于是它发现了“肤色”这个特征:如果一个人是白人,那么其医疗花费更高;如果是黑人,那么其医疗花费更低。所以出现的结果是,那些在过去已经享受到更多医疗资源的白人患者,由于历史花费更高,被AI标记为“更高风险”,从而在未来分配到更多的预防性护理资源。而那些未能获得足够医疗资源的人(通常是黑人患者),因为历史花费更低,被AI标记为“更低风险”,从而在未来进一步被剥夺了本应属于他们的资源。

这完美地诠释了代理指标的谬误:AI被要求去预测一个重要但难以衡量的真实目标(“真实的医疗需求”),开发者却选择了一个容易衡量但存在根本性缺陷的代理指标(“实际的医疗花费”)作为替代,却未能充分考虑到代理指标与真实目标之间的差距。AI精准地优化了错误的目标,最终导致了系统性的不公。可能有人会想,如果AI的设计者不把“肤色”作为模型的输入,是否就能避免这种偏见呢?答案是否定的。即使模型的输入数据中完全不包含肤色或种族这类敏感信息,由于这个“医疗花费”代理指标的设定,模型依然会“学会”这种偏见,只不过更加隐晦。比如,AI会发现,像邮政编码、保险类型等看似中立的特征,都是预测“高花费”的绝佳线索。而这些特征,在美国社会中,恰恰又与种族分布高度相关。

除了“代理指标谬误”这种无意的偏差,还存在一种更值得警惕的情形:设计者为了自身利益,有意将目标函数设定为服务于特定目的,即便这会牺牲用户或社会的公平性。更关键的是,绝大多数模型的开发者并不会公开其目标函数的具体设计。这种不透明性制造了一个危险的漏洞:开发者可以利用复杂的算法和海量数据作为掩护,让AI悄无声息地为其谋利。我们所熟知的“大数据杀熟”,正是这种意图的体现。提到了这样一个例子。2013年,好事达保险公司尝试使用预测式AI来调整汽车保险费率。其明确设定的目标函数是:在不流失过多客户的前提下,最大化利润。

为达成此目标,模型需要解决的实质问题是:如何识别哪些客户对价格上涨不敏感?

模型被输入大量客户数据,包括年龄、住址、驾驶记录、信用评分等,经过训练后输出每位客户的价格敏感度。于是模型生成了一份“可榨取客户名单”,其中62岁以上老年人的比例异常之高。模型发现,老年人更少货比三家,更换保险公司的倾向更低。因此,该人群被系统性地给予更少的折扣和更高的保费涨幅。这种操作的本质是歧视。虽然保险公司并未主观宣称“要歧视老年人”,但其设定的“利润最大化”目标函数与数据的结合,必然导向了这一歧视性结果。更值得警惕的是,开发者常以“算法复杂性”为挡箭牌,声称歧视性结果是“数据驱动的客观最优解”,以此规避道德和法律责任。当AI被应用于金融、医疗、司法等攸关民生的领域时,这种对目标函数的隐蔽操控,足以使其沦为高效、精准且冷酷的剥削工具。所以我们最需要警惕的,或许并非科幻作品中耸人听闻的“机器人觉醒”,而是那些隐藏在冰冷数据和“客观”算法之下的、由错误的代理指标和商业利益所驱动的、无声无息却影响深远的系统性偏见与歧视。

所以,对于刚才我们说过的,预测式AI的这些问题,我用一句话来总结:技术之上应有理性,理性之上应有良知。

转载请注明来自海坡下载,本文标题:《优化目标(致命的偏差当优化目标成为问题的根源)》

每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,1人围观)参与讨论

还没有评论,来说两句吧...