确保人工智能的安全与公平

ai and fairness

许多以前由人类做出的决定将在未来留给机器。但我们真的能依赖人工智能做出的决定吗?在敏感领域，人们希望能保证决策实际上是明智的，或者至少排除了某些严重错误。

来自维也纳理工大学和AIT奥地利理工学院的一个团队现在已经开发出了一种方法，可以用来证明某些神经网络是否安全、公平。研究结果将于本周7月22日至27日在加拿大蒙特利尔举行的第36届计算机辅助验证国际会议(CAV 2024)上公布。

该研究项目是维也纳工业大学(TU Wien)博士项目Secint的一部分，该项目开展跨学科和合作研究，将机器学习、安全和隐私以及计算机科学中的形式化方法联系起来。

模仿人类的决定

众所周知，人工智能有时会犯错误。如果这只是导致在计算机生成的图像中人类一只手上有六个手指，这可能不是一个大问题。

然而，来自维也纳理工大学逻辑与计算研究所和AIT数字安全和安全中心的Anagha Athavale认为，人工智能也将在安全问题发挥核心作用的领域得到建立:“让我们想想，例如，由自动驾驶汽车或用于医疗诊断的计算机系统做出的决定。”

Athavale分析经过训练的神经网络，将特定的输入数据分类为特定的类别。例如，输入可能是道路交通状况，神经网络经过训练，可以决定在哪种情况下应该转向、刹车或加速。或者输入的是银行不同客户的数据，经过训练的人工智能可以决定这个人是否应该获得贷款。

公平性和稳健性

“然而，我们需要这样的神经网络具备两个重要的特征，”阿塔瓦莱解释说。“也就是稳健和公平。”如果神经网络是鲁棒的，这意味着只有小细节不同的两种情况应该导致相同的结果。

公平性是神经网络的另一个非常重要的特性:如果两种情况只有一个参数不同，这个参数实际上不应该在决策中起作用，那么神经网络应该给出相同的结果——这个特性被称为“公平性”。

“让我们想象一下，例如，一个神经网络应该评估信誉，”阿塔瓦勒说。“两个人的财务数据非常相似，但在性别或种族方面有所不同。这些参数应该不会对信用评级产生影响。因此，该系统应该在这两种情况下提供相同的结果。”

这绝对不是给定的:在过去，已经一次又一次地证明机器学习可能导致歧视——例如，简单地用有偏见的人产生的数据训练神经网络。因此，人工智能被自动训练来模仿人们的偏见。

局部和全局属性

“现有的验证技术主要集中在公平性和鲁棒性的局部定义上，”Athavale说。“局部研究这些特性意味着检查一个特定的输入，是否小的变化会导致不同的结果。但我们真正想要的是定义全局属性。我们想要保证神经网络总是显示这些属性，不管输入是什么。”

如果天真地对待这个问题，似乎是不可能解决的。在两个类别的边界上总会有边缘状态。在这些情况下，输入的微小变化确实可能导致不同的输出。

“因此，我们开发了一个基于信心的系统，”阿塔瓦莱解释说。“我们的验证工具不仅可以检查某些属性，还可以告诉我们置信度。在这两个类别的边界上，信心很低。在那里，如果稍微不同的输入导致不同的输出，那是完全可以的。在输入空间的其他区域，信心很高，结果在全球范围内都是稳健的。”

这种基于置信度的安全属性是神经网络全局属性定义方式的一个重要变化。“然而，为了对神经网络进行全局分析，我们必须检查所有可能的输入，这是非常耗时的，”Athavale说。

要解决这个问题，需要一些数学技巧。Athavale必须找到一种方法，在不使用某些数学函数的情况下可靠地估计神经网络的行为，这些数学函数通常被内置到神经网络中，但如果它们必须被使用数百万次，则需要大量的计算能力。她进行了简化，使她能够对整个神经网络做出可靠、严谨的陈述。

这种方法的成功表明，没有必要盲目信任人工智能，尤其是在人工智能做出重要决策时。严格测试神经网络并保证其某些特性具有数学可靠性在技术上是可能的，这是未来人机协作的重要成果。

维也纳科技大学提供
引用:确保人工智能的安全和公平(2024年7月24日)2024年7月26日检索自https://techxplore.com/news/2024-07-safety-fairness-artificial-intelligence.html本文档作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。的有限公司内容仅供参考之用。