数据科学与机器学习自动化:了解人工智能自动化的现状

推特
推特
LinkedIn
共有
脸谱网
fb共享图标

在过去的十年里,人工智能(AI)建筑的自动化有了许多发展。在关于人工智能未来的对话中,你可能会经常听到数据科学自动化和机器学习自动化交替使用。在现实中,这些术语有不同的定义:当前的自动机器学习(称为AutoML)目标具体指的是模型构建的自动化,但数据科学家的工作包含的任务范围更广。在最简单的层面上,数据科学家从数据中提取知识,以解决现实世界的问题;机器学习只是他们武器库中的一种工具。

我们看到自动化发生在数据科学生命周期的每个阶段,从数据预处理一直到解决方案的部署。AutoML无疑在这个生命周期中为自动化做出了有价值的发展,特别是在建模阶段。在大多数情况下,自动化以最耗时、最复杂的任务为目标,使其更快、更容易。随着这些进步,数据科学家有更多的时间做他们被训练要做的事情:利用数据洞察为他们的组织开发差异化的解决方案。

数据科学与机器学习自动化

数据生命周期中的自动化

数据科学生命周期包括数据科学家作为解决方案开发的一部分完成的每项任务。出于我们的目的,我们将研究数据科学家在创建人工智能模型时将完成的任务。考虑到人工智能构建过程中几个步骤的时间密集性,周期的每个步骤都至少包含一定程度的自动化,这一点并不令人惊讶。

数据准备

假设他们脑子里有一个问题想要解决,数据科学家的第一个任务就是收集和准备数据。通常情况下,数据准备需要将数据转换成正确的格式,识别错误,修复异常。目前,这个步骤是部分自动化的。数据科学家可以使用简单的启发式或第三方数据清理工具来清理数据。例如,启发式可以指定自动删除实际范围以外的任何数字。数据清理工具会自动清理模式,执行统计分析,并根据需要完成其他准备步骤。

为什么数据清理还没有完全自动化?一个关键的障碍是数据科学家经常需要对数据做出主观的决定。此外,一个数据集可能包括许多边缘情况;工具或启发式方法可能不容易适应这些情况。

数据探索

数据科学生命周期的下一步是数据探索。在这个阶段,数据科学家使用可视化工具来获得数据的概述。与第一步一样,这个阶段只能部分自动化。数据科学家可以自动创建图形,但分析这些图形仍然需要他们的专业知识。

特征工程

特征工程正在逐渐成为AutoML的一部分,并且很可能是ML进一步自动化的下一个机会领域。特征工程本身就是从现有输入创建新的输入变量(与您试图解决的问题相关)。正确完成后,特征工程通过将模型的注意力吸引到数据中未明确显示的重要变量来提高模型性能。

通过自动化,工具可以从各种表格、文本、地理空间和时间序列数据以及其他来源中提取特征。这些工具可以快速评估数百(如果不是数百万)个功能,并输出与您的模型最相关的功能。对于数据科学家来说,传统的手工选择过程随着自动化变得更快、更高效。

模型制作

模型构建包括模型选择、验证和超参数优化(HPO)。这正是AutoML真正的亮点所在:完全自动化是可用的。AutoML工具可以为一组输入数据遍历各种模型,选择性能最好的模型。工具可以使用超参数优化和重复验证措施自动调整模型,以提高精度。注意,AutoML模型在准确性和置信度方面仍然表现得很高;我们不会为了效率而牺牲质量。

有关自动模型构建的更多信息,请参阅我们关于您需要了解的一切的文章AutoML.

连续部署

数据科学的生命周期并不会在部署时结束。每一个人工智能模型在生产过程中都需要持续的维护,所以建立一个再培训管道将是成功的关键。在这个领域,我们看到自动化工具的出现,这些工具为模型提供定期的维护检查,确保它们仍然满足准确性和置信度阈值。虽然保持一个循环中的人在此阶段,自动化将取代原本完全手动的流程,以更快地解决问题。

运行中的自动化示例:Github Copilot

作为人工智能自动化的一个现实例子,Github副驾驶最近推出了。该软件由OpenAI Codex提供支持,是一个人工智能配对程序员,帮助工程师编写代码。利用你正在开发的代码的上下文线索,Github Copilot会在你输入代码时提示行或函数。目标是通过提供可选的解决方案和测试用例来帮助您更快更容易地工作。Github Copilot只是机器学习自动化在人工智能和工程领域提高效率的最新令人兴奋的应用之一。

人工智能自动化的未来

当我们展望人工智能的未来时,数据科学自动化和AutoML能告诉我们什么?首先,它告诉我们构建人工智能很有挑战性,但它越来越容易了。对自动化的需求无疑源于这样一个事实,即启动人工智能解决方案需要大量的资源,需要大量的时间、金钱和专业知识投资,而这对于较小的组织来说往往是禁止的。随着自动化工具的出现,这些进入壁垒将降低,让更多的参与者在这个领域进行实验和创新。

随着AI和AutoML的发展,一个事实仍然存在:对高质量培训数据的需求继续增长。人工智能从业者将需要越来越多的数据来改进和删减他们的机器学习模型,以及维持他们在生产中的表现。寻求外部数据提供商的帮助可以为团队配备正确的工具、专业知识和流程,为长期AI目标创建可扩展的数据管道。作为最先进的人工智能辅助数据平台,Appen的解决方案是获取足够高质量数据以满足这些不断增长的需求的最可靠来源

那么数据科学家呢?机器是否不再需要它们的角色?不太可能。数据科学家拥有机器无法比拟的高度专业化的领域知识。定义和理解问题,对数据做出假设这些都是需要主观专业知识的任务。正如我们在软件工程中看到的,当它变得容易时,对软件工程师的需求只会上升;数据科学可能也不例外。

来源

https://techcrunch.com/2020/08/27/will-automation-eliminate-data-science-positions/

https://towardsdatascience.com/automation-in-data-science-f11fe389d49b

https://www.kdnuggets.com/2018/07/automated-machine-learning-vs-automated-data-science.html

网站部署人工智能与世界级的训练数据
语言