数据在负责任AI中的作用:塑造伦理AI未来的数据决策

推特
鸣叫
linkedin
分享
Facebook
fb-share-icon

毫无疑问,人工智能(AI)将在未来几年继续快速发展,并日益与我们的日常生活联系在一起。现在,企业有责任用负责任的眼光看待人工智能,以最大限度地提高透明度,减少偏见,并指导该技术的道德应用。毕竟,运行良好的人工智能对每个人都是公平的。

现在,负责任的政策和协议的决定将决定人工智能的未来,进而决定人工智能将如何塑造我们的未来。数据在这些努力中发挥着基础性作用;它是所有直接影响模型性能的人工智能技术的核心。模型的好坏取决于用来训练它的数据,这就是为什么数据是AI实践者在决定治理实践时能够真正发挥作用的关键领域。

数据在负责AI中的作用

这一切都在数据中

在AI项目工作时,数据科学家将在数据收集和注释上花费大部分时间。在完成这些任务时,最重要的三个方面:保护数据隐私,缓解数据中的偏差和道德采购数据。

数据隐私

作为AI从业者,最重要的关注应该是数据隐私和安全性。在该地区已经立立法,您的组织的数据处理协议应保持一致。例如,ISO标准(国际公认的)存在于保护个人信息周围,GDP(一般数据保护法规)涵盖欧盟的数据管理,其他要求在全球范围内。您的业​​务必须遵循其拥有客户的所有地点的标准。

在全球某些地区,数据保护法规可能不一致或不存在;无论如何,致力于负责任的人工智能意味着采取数据安全管理措施来保护你的数据供应商。在使用个人资料前,您应征求个人同意,并采取保安措施,以保护任何个人身份资料不被不当使用。

如果您不清楚您应合并到数据管理实践中的类型的安全协议上,您可能会考虑使用已经拥有这些的第三方数据提供程序,并具有通过安全数据处理指导您的专业知识。

数据偏见

偏置数据=偏置的结果。这是一个简单的AI开发的事实,但是当你想象所有偏差都可以无意中被引入AI模型时变得更加复杂。让我们举个例子:您正在构建语音识别模型,也许是在汽车中使用。语音本身可以有不同的音调,口音,填充词和语法(更何况,不同的语言和方言)。假设您希望语音识别模型为不同人口统计数据和背景的驱动程序工作,您需要代表这些用例中的每一个的数据。

如果你收集数据大多是男性的声音,语音识别模型通常会很难认识到女性的声音,事实上,这正是所发生的一些流行的基于语音的模型产品,因为没有接触到足够的培训期间的数据类型。因此,我们面临的挑战是如何规划一个完整而公平的数据集;它涵盖了所有用例和边缘用例。创建一个对每个用户都有效的人工智能产品,首先要确保所有这些用户都出现在培训数据中。

数据来源

在这种情况下,我们正在谈论关于提供提供和准备数据的人的待遇的道德采购。理想情况下,如果您提供数据,您应该为此进行补偿(并注意您提供它)。赔偿可以是资金或服务的形式交换。

现实是,没有我们了解并且经常在没有我们的情况下收获大量数据,这条线是甚至拥有数据的谁。例如,如果您在贵公司的视频通话中,例如,谁将拥有从该呼叫产生的语音数据?你的公司?视频通话提供商?个人发言者?边界可以快速令人困惑。无论如何,致力于负责任AI的公司应该是透明的,他们是谁收集来自的数据,什么样的数据,以及何时,并努力努力适当地弥补他们的数据。

不过,获取数据并不总是问题所在。使数据处于可用状态常常是一个挑战。您需要许多人清理和过滤数据,以确保它对您的项目有价值,然后您将需要更多的人用准确的标签注释数据。这些人必须得到公平的待遇:包括公平的薪酬、开放的沟通渠道、保密和舒适的工作条件。这个领域的立法主要是关于禁止现代奴隶制的法律,但公司可以做更多来确保他们的数据注释者受到道德对待。例如,在Appen,我们依靠全球的员工群体来提供高质量的注释,并创建了一个人群道德规范以证明我们对他们幸福的承诺。

用数据塑造ai的未来

企业有责任在今天做出人工智能决策,这些决策将在未来为企业和社会带来积极的结果。数据治理特别是对任何AI努力的整体伦理性的影响重大影响,因为数据偏差和数据管理是负责技术的关键参与者。作为AI从业者,您的目标应该是建立一个反映负责任AI的关键租户的数据治理框架。在这样做时,您将成为一个更公平的技术,更好地反映了我们社会的多样性。

网站部署人工智能与世界级的训练数据
语言