什么是数据收集解决方案?

推特
推特
LinkedIn
分享
脸谱网
fb-share-icon

如何为你的人工智能计划高效、负责地收集数据

数据收集仍然是构建人工智能(AI)团队的主要瓶颈。原因各不相同:可能缺少用例所需的足够数据,新的机器学习(ML)技术(如深度学习)需要更多数据,或者团队没有适当的流程来获得他们需要的数据。无论如何,对精确和可扩展的数据解决方案的需求不断增长。

收集高质量数据的最佳实践

作为一名人工智能从业者,制定数据收集计划需要提出正确的问题。

我需要什么类型的数据?

您选择解决的问题将表明您需要什么类型的数据。例如,对于语音识别模型,您需要来自代表您期望拥有的所有客户的扬声器的语音数据。这意味着语音数据涵盖了目标客户的所有语言、口音、年龄和特征。

我可以从哪里获取数据?

首先,了解您在内部已经有哪些数据可用,以及这些数据对于您试图解决的问题是否可用。如果你需要更多的数据,有很多公开的在线数据来源。你也可以与数据伙伴合作,通过众包生成数据。另一种选择是创建合成数据来填补数据集中的空白。

这里需要记住的另一个元素是,在将模型启动到生产环境很久之后,您需要一个稳定的数据源。确保您的数据源能够在发布后为再培训目的提供连续的数据。

我需要多少数据?

这取决于你想要解决的问题以及你的预算,但通常的答案是:尽可能多。在构建机器学习模型时,通常不会有太多的数据。您需要确保您有足够的数据来覆盖模型的所有潜在用例,包括边缘用例。

我如何确保我的数据是高质量的?

在使用数据集训练模型之前,请清理数据集。这意味着在第一步删除不相关或不完整的数据(并检查您没有指望用例覆盖率的数据)。你的下一步是准确地标记你的数据。许多公司转向众包来获取大量注释器;注释数据的人越多,你的标签就越具有包容性。如果您的数据需要特定的领域知识,请利用该领域的专家来满足您的标签需求。

通过回答这些问题,您可以开始构建一个数据管道,使您能够高效地收集高质量、准确标记的数据。最终,拥有一个可重复的、一致的数据管道将有助于扩展。

什么是数据收集解决方案?

负责任的AI在哪里发挥作用

你应该始终使用负责任的人工智能镜头进行数据收集,因为道德人工智能是从数据开始的。清洁的数据来源应该是最优先考虑的,这意味着你需要以一种道德的方式获取数据。当你处理安全且机密的信息时,如医疗记录或财务状况,尤其如此。遵循您所在地区的数据保护立法在选择数据合作伙伴时,检查他们是否也符合这些规定。您的数据合作伙伴应该有适当的安全协议,您也应该有,以确保尊重和负责地对待客户数据。

David Brudenell -副总裁,解决方案和高级研究小组的专家见解

包容性好于偏见

在过去的18个月里,在Appen,我们看到了客户与我们互动方式的巨大转变。随着人工智能的发展,它变得越来越普遍,它的构建方式显然出现了差距。培训数据在减少人工智能偏见方面发挥着重要作用,我们建议我们的客户创建一个具有代表性的、包容性的人群来收集数据,创造更快、更好、更经济效益的人工智能。由于几乎所有的培训数据都是由人收集的数据,所以我们建议客户在样品设计时首先注重包容性。这增加了更多的工作和实验设计,但与更简单的样本设计相比,ROI有了很大的提高。简单地说,你会得到更多样化、更准确的ML/AI模型,拥有更具体的人口统计数据,从长远来看,这比试图通过消除生产ML/AI模型中的偏见来“填补空白”要好得多。

首先考虑用户

一个设计良好的数据收集是其各部分的总和。一个包容性的样本框架是基础,但推动吞吐量和数据质量的是对参与过程的所有部分采用以用户为中心的方法:项目邀请、资格鉴定、入行(包括信任和安全)实验体验。很多时候,团队忘记了有一个人来完成这些项目。如果你忘记了这一点,你将会因为低于平均水平的书面实验和用户体验而面临糟糕的项目吸收和数据。

在设计你的实验和用户流时,问问自己是否愿意做这件事。也要确保你总是亲自从端到端的测试这个实验。如果你陷入困境或感到沮丧,那么你就可以做出改进。

连锁配额,从六万到六万

如果你以美国人口普查为例,围绕6个数据点进行实验:年龄、性别、州、种族和手机拥有量,你有超过6万个配额要管理吗?

这来自于连锁配额的影响。连锁配额是指在需要一个以上特征的细胞中,实验所需的访谈/参与者的数量。以上述美国人口普查为例,将有一个cell,需要n个用户,具有以下特征:男性,55岁以上,怀俄明州,非裔美国人,拥有2021代Android智能手机。这是一个极端的、低发生率的例子,但是通过在你定价、写实验或进入现场之前创建你自己的连锁矩阵,你可以检查发现非常困难或无意义的特征组合,可能会影响你的项目的成功。

激励比以往任何时候都重要

最后,也是最重要的是回顾你花钱让用户完成实验的动机。在设计数据收集实验时,商业权衡是很常见的,但你不能削减用户的动机。他们是团队中最重要的部分,将为您提供及时、高质量的数据。如果你选择向用户支付更少的费用,你就会有更慢的吸收速度和质量,从长远来看,你不得不支付更多费用。

如果你预算有限,可以咨询一下全球购买力平价(PPP)方面的建议;你的美元能在世界不同地区走得更远吗?减少你的配额要求——你能把24-40岁的人分成一组而不是两组吗?这些只是您可以用来为您的项目获得最大商业价值的一些技术。

我们能为你做什么

Appen在我们的平台上提供数据收集服务,以大规模改善机器学习。作为我们领域的全球领导者,我们的客户受益于我们的能力,快速交付大量高质量的数据类型,包括图像、视频、语音、音频和文本,以满足您特定的人工智能程序需求。我们提供多种数据收集解决方案和服务,以最适合您的需求。

我们的数据收集方法始于包容性。通过我们的全球、多样化的注释者群体,我们支持我们的客户开发代表您的客户的数据。拥有超过25年的专业经验,我们将与您一起最大限度地优化您的数据管道效率。

为了讨论您的数据收集需求,联系我们

网站部署人工智能与世界级的训练数据
语言