什么是AutoML?

啁啾
推特
LinkedIn
共有
脸谱网
fb共享图标

介绍了自动机器学习的用途和方法

随着组织寻求在更加多样化的用例中使用机器学习,前后数据处理和优化的数量呈指数级增长。雇佣足够多的人来完成与高级机器学习模型相关的所有任务的困难使得机器学习的自动化工具成为人工智能未来的一个关键组成部分——这导致我们使用自动化机器学习(AutoML),这是一种在世界范围内迅速发展的工具AIOps工具箱。

AutoML是一种将人工智能(AI)应用于问题的端到端循环自动化的方法。数据科学家通常负责构建ML模型以及所有随之而来的复杂任务:数据预处理、特征工程、模型选择、超参数优化和模型后处理。AutoML框架自动完成这些步骤(或至少其中一些步骤),因此没有数据科学专业知识的人可以构建成功的ML模型。

自动化ML过程的能力为资源有限的公司提供了充分投资AI的激动人心的机会。尽管在ML管道的完全自动化方面仍有许多进展,但各公司正在构建有希望的工具,以进一步推动这一领域的发展。

为什么要使用AutoML工具?

如果我们检查当前构建机器学习模型的过程,它通常需要高度熟练的技术专家、漫长的开发过程、大量的资金和大量的迭代。AutoML的推动由以下四个因素驱动:

弥合技能差距

当涉及到AI和ML方面的技术专长时,技能差距依然存在。公司很难找到具备构建模型领域知识和技能的候选人,而这一限制限制了公司的发展。使用AutoML,非专家可以使用机器学习。公司不需要招聘高度专业化的职位,从而加快创新速度,最终提高ML采用率。

缩短上市时间

在一个发展迅速的领域,更快的上市时间提供了显著的竞争优势。机器学习管道的自动化减少了人类构建模型所需的时间。这也使得以前从未部署过人工智能的公司更容易进入这一领域并生产出成功的解决方案。

节省成本

从头开始构建ML模型不仅需要大量的时间,而且需要大量的资金。数据科学家和其他ML专家的工资很高,这是可以理解的。AutoML工具比投资于从头开始构建模型所需的技能和精力要便宜得多。

生产更好的模型

AutoML在模型和超参数中的迭代速度比手动完成时更快。在设定的时间段内,更多的迭代通常会导致选择性能更高的模型。AutoML提高了决策过程的效率,加速了模型研究。

数据科学家们也在努力寻找高性能的深层次开发体系结构神经网络. AutoML将(自动)搜索和评估体系结构,这一过程称为神经体系结构搜索,以加速ML解决方案的开发。

AutoML的实现方法

当涉及到机器学习时,有不同的方法来定义自动化。专家们现在正在努力将AutoML分类为级别(就像他们对我一样自动驾驶车辆):

  • 0级:没有自动化。数据科学家从头开始编写算法。
  • 第一级:使用高级API。
  • 第2级:自动超参数调整和型号选择。
  • 第3级:自动特征工程、特征选择和数据扩充。
  • 第4级:自动领域和特定问题的功能工程、数据扩充和数据集成。
  • 第5级:完全自动化。解决ML问题不需要输入或指导。

通常,实施AutoML的公司属于级别1到2的范围,尽管目前市场上的解决方案适合级别3。在这些自动化级别中,有几个AutoML方法值得强调:

模型选择与置乱

AutoML可以迭代在相同输入数据上训练的不同算法,以选择性能最佳的模型。软件还可以执行集成,即将多个模型组合为一个模型以获得更好的结果,通常通过混合和叠加等技术来完成。

超参数优化(HPO)

所有机器学习算法都有参数,或模型中每个变量或特征的权重。参数来自训练过程,而超参数是用于控制学习过程的可调值。超参数优化(HPO)指调整超参数以提高模型性能。AutoML工具可以自动评估各种超参数,以确定产生最高性能模型的集合。

特征工程

与AutoML中的模型选择和HPO相比,特征工程不太常见,但由于其提高模型可预测性的能力而受到关注。它是构建新的输入特征(或解释变量)从您现有的输入。它会影响模型性能,因为它会突出显示模型在进行预测时需要了解和理解的相关元素。

数据科学家必须一次手动添加一个特征,但使用AutoML工具,这一过程可以自动完成。这些工具从给定的一组输入中提取相关且有意义的特征,并测试不同的特征组合,以生成性能最高的模型。

AutoML的未来

什么是AutoML

在达到5级(全自动解决方案)之前,该行业还有很长的路要走。尽管如此,主要组织还是在较低的级别上投资了AutoML,通常将其工作重点放在模型选择和HPO上。特征工程的进步很可能是该领域创新的下一个阶段。

随着自动化需求的增长和工具的改进,随着构建机器学习变得更加平易近人、资源密集度降低,ML的采用也将增加。

来自Appen数据科学家Shambhavi Srivastava的AutoML见解

在Appen,我们作为一个团队致力于机器学习模型的制作。我和我的数据科学家、机器学习工程师和DevOps同事一起工作,构建并封装最先进的(SOTA)模型。

生产任何机器学习模型都涉及多个步骤:

  1. 从业务角度理解问题
  2. 准备数据(收集、清理和分析)
  3. 构建模型
  4. 评估绩效
  5. 将模型装箱并部署到生产环境中
  6. 在生产中观察模型对客户数据的性能。

上述每一步对于项目的成功都同样重要。数据科学家可以使用AutoML来帮助他们增加成功的机会。AutoML通过自动化工作流和显著提高各种总体假设和单个模型属性的测试速度,增强了数据科学家的工作。

在我们的日常工作中,由数据科学家决定并实施那些最适合给定业务用例的机器学习算法。然而,这项任务可能很乏味,并且容易出现人为错误和偏见。AutoML通过不断评估各种ML模型的性能,直到达到最佳参数,从而使团队能够运行各种ML模型,从而实现流程的自动化和简化。这些AutoML功能可以加速机器学习模型的生成,并通过以更高的精度推出模型来提高项目的投资回报率。

模型选择最具挑战性的部分是寻找未知。这就是为什么AutoML在科学家中臭名昭著的原因。它被视为通过使用更少的代码和避免手动超参数调整来简化ML任务AutoML中使用的核心创新是超参数搜索和找到最佳匹配。

阿彭能为你做些什么

Appen数据注释平台最流行的注释工具机器学习的动力。您可以在我们的平台上创建作业,将数据注释与模型相结合,以帮助培训、测试和优化AutoML项目。了解更多有关2020年亚博收网行动联系我们今天,与某人讨论您的AutoML需求。

用于部署具有世界级培训数据的人工智能的网站
语言