增强和虚拟现实AI数据:推动下一个大事件

AI推动AR/VR前进,解锁新机遇

增强现实(Augmented reality, AR/VR)和虚拟现实(virtual reality, AR/VR)是两项备受企业关注的前景广阔的技术。事实上,近四分之三的行业领导者报告称,他们预计这些沉浸式技术将成为现实未来五年内的主流高盛(Goldman Sachs)报告称,AR/VR行业将价值不菲到2025年达到950亿美元.与此同时,人工智能和机器学习并行运行,它们不仅迅速成为主流,而且正在被考虑关键任务现代商业。直到最近,科技界才开始揭示AR/VR与AI结合背后的好处。将两者结合起来能够推动创新、新的客户体验以及与我们的世界互动的新方式。但如果没有高质量的数据,这种合作就不会成功。

增强和虚拟现实人工智能数据

AI和AR/VR:完美契合?

首先,让我们定义一下AR/VR的含义:增强现实-物理环境和数字环境的融合;指通过融合来自相机、加速度计等的传感器数据,将数据叠加在物理现实上的技术。口袋妖怪去是一个很流行的例子。虚拟现实-计算机生成的三维图像模拟,使人能够与数字环境进行交互。AR/VR领域传统上利用计算机视觉(非人工智能驱动)等技术来推动创新。但许多企业发现,这些技术和人工智能有着深层次的互补关系。AI擅长于许多有益于AR/VR的动作:它可以追踪物体,创建3D世界的详细模型,了解这些模型中有什么特征,并对它们做出判断。AI中的深度学习模型在这里特别有用,因为它们可以识别垂直和水平面;跟踪物体的运动和位置;估算物体深度,以及其他AR/VR同步功能。换句话说,深度学习模型可以帮助AR/VR系统解释复杂的环境。理论上,汽车修理工可以使用人工智能驱动的AR系统来查看汽车的引擎,并由系统告诉哪些部件需要维修,以及如何维修。由于这些互补的特性,AI开始在AR/VR中取代传统的计算机视觉方法,许多行业领导者都预测这一点人工智能将有助于推动沉浸式技术的采用在消费者和商业领域。具体来说,AI可以通过应用更逼真的模型来增强AR/VR体验,并赋予人们更强的与场景互动的能力。AR/VR和AI的强大合作部分得益于深度学习技术的进步,该技术可应用于3D模型构建,数据可用性和数据存储选项的增加,以及计算能力水平的提高。不管原因是什么,这种整合有望在许多行业提供令人兴奋的机会。亚博技术支持专业的系统平台

企业是如何使用AI和AR/VR的

人工智能在许多方面增强了AR/VR技术:通过提高内容质量、推进和个性化用户体验,以及促进用户和技术之间更有效的互动。正是因为这些原因,许多初创公司和科技公司已经开始使用人工智能驱动的沉浸式技术。下面是一些值得关注的令人兴奋的例子:

航空航天

利用图像识别深度学习技术,带AV的AI可以帮助工程师处理航空维修方面的问题通过精确定位飞机的哪些部件需要改进,并提供如何改进的详细说明。

零售

人工智能驱动的AR/VR在零售领域有很多应用。这些包括,例如:
  • 当购物者在商店的过道中浏览时,会在数字环境中出现弹出优惠券。
  • 虚拟汽车展厅显示根据购物者的兴趣或需求定制的产品。
  • 顾客可以在舒适的家中试穿衣服的虚拟试衣间。
  • AR显示客户放置在他们自己家里的家具。
在创意产业之后,零售可能是AR/亚博技术支持专业的系统平台VR领域的最大受益者。

军事

AI-powered VR能引导军队成员通过模拟的危险环境,目标是在面对真实情况时降低错误率。

技术

智能眼镜最终可能成为我们所有人的眼镜标准。这些可以给我们提供关于我们遇到的人的有用信息。例如,如果我们遇到一位同事,我们的眼镜可以识别出这位同事在公司的职位。

电信

AR/VR可能会出现在你身边的虚拟会议上。可能的应用包括提供身临其境的虚拟体验,让用户感觉他们是在办公室里和同事在一起,而不是在家里的电脑前。人工智能可以添加摄像头跟踪功能(就像Facebook Portal提供的功能一样),所以焦点总是会被带到正在说话的人身上。

安全

安全部门可以利用人工智能驱动的虚拟现实技术进行身份检测和标记可疑人物的图像。

游戏

当提到AR/VR时,游戏可能是人们想到的第一个例子,特别是随着几年前在世界许多地方传播的Pokémon围棋热潮。事实上,AR/VR技术需求强劲来自创意产业,从视频游戏开始,以现场活动和视频娱亚博技术支持专业的系统平台乐结束。人工智能可以帮助创造越来越逼真的游戏体验,并为玩家提供更多与数字环境互动的机会。在上面的许多案例中,创业公司和科技公司已经在努力实现,所以这些更多的是现实而不是虚构。然而,AI和AR/VR的结合可能需要几年的时间才能真正在我们的生活中无处不在。

数据如何推动AI和AR/VR

人工智能驱动的AR/VR系统的生成只能通过使用大量的数据来完成,这使得数据收集和注释在构建这些类型的技术过程中的关键步骤。数据可能会从传感器(比如智能手机摄像头)、产品图片、社交网络和很多很多其他位置收集。根据用例的不同,数据可以包括图像、视频、音频和文本,所有这些都需要用模型识别的关键特性进行标记,使这些系统成为非常复杂的项目。例如,以下是AI和AR/VR项目常见的几种数据注释类型:

图像和视频

对象检测:模型学习识别图像中的物体及其位置。这将触发能够让用户与环境进行互动的碰撞框和碰撞器。分类:模型学习分类图像中的目标对象,然后触发该图像的标签显示。市场细分:通常在像素级完成,模型学习分割图像中的目标对象。

音频

音频识别:模型处理音频,如语音,并相应地进行解释。某些关键字可能会触发AR/VR效果,比如在游戏环境中。

文本

文本识别与翻译:模型学习检测和读取图像中的文本,然后将其翻译为适当的语言。AR技术可以将翻译后的文本叠加到现实世界中。在上面的例子中,你可以感受到AI和AR/VR技术是如何结合在一起为用户提供互动体验的。收集的数据越多,环境就可能越真实。就数据的质量而言也是如此:高质量的数据将产生同样高质量的环境。此外,更多的数据,尤其是关于用户本身的数据,可以为该用户创建更个性化的环境。AR/VR数据通常包含个人识别信息(PII),用于创建定制环境和交互。PII可能包括地理位置数据、生物识别、购买历史和其他PII。在构建这些应用程序时,数据安全性至关重要,以确保客户信息得到保护和保密。使用PII意味着要有严格的安全协议,以实现对区域和数据类型的最高遵从性。

使用数据提供商获得进步

虚拟世界是复杂的,构建它们并不是一项简单的任务。许多公司寻求第三方数据提供商的帮助,以在沉浸式领域获得竞争优势。数据提供商可以为AI和AR/VR模型收集相关数据提供巨大的提升。正确的数据提供者同样应该拥有用于对数据进行精确注释的工具和过程,以确保生成的环境尽可能真实。通过与数据提供者合作,您可以设置可伸缩的数据管道,以帮助您使用新的标记数据持续改进模型。模型改进将与增强的用户体验直接相关。随着现实世界的变化,您的虚拟模型也应该发生变化,数据提供者将帮助您监控系统,以便定期进行再培训。人工智能有望在未来几年成为推动AR/VR行业前进的引擎,获取正确的数据并准确地注释数据应该被视为驱动引擎的燃料。考虑到这项任务需要的复杂性,利用正确的数据合作伙伴可以使您在竞争中获得竞争优势。考虑到人工智能和沉浸式技术的快节奏本质,这可能是你的人工智能之旅的关键一步。

来自Appen高级解决方案工程师Don Blaine的专家洞察

从根本上说,一个出色的AR/VR应用程序所需要的是理解环境以及用户将如何在该环境中交互的能力。

理解VR和AR的环境

在VR中,环境是通过数字方式从头开始创造的,这意味着环境的每个组件都可以根据环境定义的方法被明确地识别并通过编程进行交互。这里的好处是,从一开始,环境和其中的一切都是可互换的,而不需要获取任何额外的数据。此外,因为VR环境是从零开始创造的,而不是从物理世界中获取的,所以对于该环境是什么有更大程度的规范。与在虚拟空间中模拟这些环境相比,捕获满足特定需求的物理环境通常非常乏味。使用AR,环境是一个物理区域,如街道或购物通道,或你当前正在看的区域。因为这个环境是直接从物理世界中获取的,它可以比VR环境密集得多,必须使用一个或多个传感器来捕获,以提供数据格式,如(激光雷达/雷达/视频/音频/图像/等),经常结合另一个。从环境中捕获数据后,我们需要知道环境中的内容。这通常需要创建一个ML模型,用于检测/分类/分割/识别数据中与当前应用程序相关的组件。例如,如果我们有一段汽车行驶在路上的视频,我们可能需要一个模型,给定一段视频,识别视频中每一帧中每一辆汽车的边界。另一个例子可能是识别写在菜单上的单词以进行自动翻译。 In both cases, we will first need to create human-labeled training data that consists of individuals detecting the relevant areas from the data, segmenting those areas from the full data, and then classifying that data. The end result here is that, like VR, we have an environment where some of the elements can be identified and interacted with programmatically, which is needed if we want users to interact with the environment.

与环境互动

每个应用程序要求用户与环境交互的方式都是独特的。在某些情况下,是智能手机,在其他情况下是智能眼镜,以及特定的AR/VR设备。在每种情况下,用户正在执行的动作必须被设备传感器捕获,然后处理/分类为该动作在AR/VR环境中的含义。一个例子是在你的设备摄像头前打响指;这意味着你的应用程序需要处理视频,捕捉并识别你的手,然后检测你正在做的动作是“打响指”。要做到这一点,您需要创建一个模型,使用带有人类注释的数据来识别视频中的手,以及识别应该将某些手的位置分类的模型。

如何开始

最好的开始方法是完全定义哪些数据可以通过编程方式捕获,哪些数据需要一个模型来处理。一旦您知道需要创建什么模型,下一步就是连接像Appen这样的数据提供者,以收集适合该用例的训练数据。收集高质量的训练数据可能与构建模型本身一样乏味,而模型的好坏取决于它所基于的数据,因此最好尽可能客观地定义您正在寻找的数据,以避免任何主观混淆。问问你自己:你会如何告诉人们去判断某人是否在“打响指”?仅仅是拇指和中指之间的接触吗?如果没有声音产生呢?如果他们用拇指和无名指或拇指和食指啪地一声呢?一个模型的好坏取决于它所基于的数据,这就是为什么与Appen这样的合作伙伴一起开始AR/VR之旅,测试和迭代项目的潜在解决方案是最好的开始方式。

我们能为您做什么

Appen收集并标注图像、文本、语音、音频和视频,用于构建和持续改进世界上最创新和最复杂的人工智能系统。凭借超过25年超过235种语言的专业知识,全球超过100万名熟练承包商,以及行业最先进的人工智能辅助数据注释平台,Appen解决方案为全球技术、汽车、金融服务、零售、制造和政府领域的领导者提供所需的质量、安全和速度。我们可以帮助您的组织进行数据收集,数据注释,以及后期模型的再培训和改进。机器学习辅助内置在我们行业领先的注释工具中,为您节省时间、精力和金钱,加速您的AR/VR或其他AI计划的ROI。了解更多关于我们基于“增大化现实”技术/ VR解决方案,或联系我们今天直接和某人说话。
部署具有世界一流训练数据的人工智能网站
语言
Baidu