什么是光学字符识别?

啁啾
推特
linkedin
分享
脸谱网
fb-share-icon

人工智能如何给予OCR

人工智能正在改变光学字符识别(OCR)工具的功能。面积计算机视觉,OCR处理文本的图像并将该文本转换为机器可读形式。换句话说,它需要物理文档中的手写或键入文本,并将它们转换为数字格式。

在20世纪90年代,许多企业所有者使用OCR,有时称为文本识别,将物理文档转换为数字文件。从那时起,OCR技术的质量有所改善,但需求增加了更广泛的可用性。由于更高的精度和更高的速度,最新与AI的发展具有扩大的OCR的实用性。随着AI的好处,每一步都不需要人类监督。

OCR和AI:对企业的好处

在OCR发明之前,将物理文本转换为数字文本是一项手工工作:一个人必须重新键入每个文档,这是一项耗时的任务,容易出错。使用OCR,转换速度很快,对原始内容的保真度更高。一旦OCR将硬拷贝转换为数字形式,观众就可以编辑、格式化和搜索文档。他们还可以通过电子邮件轻松发送,将其包含在网站中,并将其存储在压缩文件中。自然地,这消除了对物理存储空间的需要,这对于严重依赖文档的企业(如抵押贷款经纪人或律师事务所)来说是一种成本节约。

由于团队将OCR与AI和机器学习(ML)技术相结合,他们能够使用机器更准确地转换文本,并检查转换过程中可能出现的错误。人工智能还可以更好地解释手写,为更广泛的文档数字化提供了机会。由于每个人的独特性,手写仍然对人工智能提出了挑战,但随着手写训练数据的增多,机器在这方面的能力也越来越强。

作为AI供电的OCR的示例,Imagine OCR工具将打印发票转换为数字副本。假设扫描仪将发票识别为500美元,当时真的$ 5,000。在AI之前,OCR工具不会接受这个错误,并达到人类审查以捕获它。然而,使用AI工具,算法可以查看整个文档,计算所提供的服务的小计应加入5,000美元,并在没有人类需要监督的情况下解决错误。

这种文档理解能力帮助企业分析大量的文档,而无需人工操作。减少繁琐的行政工作对于最大化员工敬业度和减少人员流动率至关重要。研究人员预计,随着这些工具变得更高效和更具成本效益,人工智能OCR的需求将持续下去。

OCR如何工作

OCR系统的特点是硬件和软件的结合。该系统的目标是扫描物理文档的文本,并将该文档中的字符转换为代码,然后用于数据处理。在邮政和邮件分拣服务的背景下考虑这一点–OCR是其快速处理目的地和返回地址以更快更有效地分拣邮件的能力的核心。系统分三个步骤执行此操作:

1.图像预处理

在步骤1中,硬件(通常是光学扫描仪)将文档的物理形式处理到图像中 - 例如信封的图像。这一步骤的目标是在其再现中准确,也可以去除任何不需要的扭曲。得到的图像被转换为​​黑白版本,然后分析光区域(背景)与暗区(字符)。如果需要,OCR系统还可以将图像分为单独的元素,例如表,文本或插图图像。

2.智能字符识别

AI分析图像的暗区以识别字母和数字。通常,AI使用以下方法之一时针对一个字符,单词或文本块:

  • 模式识别:团队在各种文本、文本格式和手写方面培训AI算法。该算法将扫描信封图像上的字符与已学习的字符进行比较,以识别匹配项。
  • 特征提取:为了识别新字符,该算法应用有关特定字符特征的规则。特征可能包括角色中的斜线、交叉线或水平线和曲线的数量。例如,“H”有两条垂直线,中间有一条水平线;机器将使用这些特征标识符来识别信封上的所有“H”。

机器已识别字符后,它们转换为可用于进一步操纵的ASCII代码。

3.后处理

在第三步中,AI纠正生成的文件中的错误。一种方法是在文档中找到的单词的特定词典上培训AI。仅将AI的输出限制为仅那些单词/格式,以确保在Lexicon之外没有解释。

OCR的应用

什么是光学字符识别?

OCR有很多应用;任何管理实体文书工作的企业都会从其使用中受益。以下是几个突出显示的用例:

文字处理

也许OCR最早和最常见的用途之一是文字处理。用户可以扫描打印的文档,将其转换为可编辑和可搜索的版本。人工智能有助于确保以尽可能高的精度转换这些文档。

法律文件

OCR可以将重要的已签署法律文件(如贷款文件)放入电子数据库,以便于参考。多方也可以轻松查看和共享文档。

零售

零售商使用序列号来表示他们的产品。在零售店或仓库中,机器人可以扫描产品条形码,应用OCR从这些条形码中提取序列号,并使用该信息跟踪库存。

历史保存

OCR将历史文档转换为可搜索的PDF。这对于归档旧报纸、杂志、信件和其他历史记录尤其有用。

银行业

今天,您可以使用智能手机拍摄您想要存入的支票的前后照片。AI-Powered OCR技术可以自动查看检查以确认其有效性,并且它与您要存入的金额匹配。

如果没有人工智能的推动,OCR技术将不会像今天这样先进。人工智能与OCR相结合可以减少错误,显著提高转换精度,并为文档提供额外的分析。对于希望获得更高效的文档管理方法的公司来说,减少的管理和成本负担是一个主要的吸引力。

来自阿彭光学字符识别专家Kirsten Gokay的见解

在Appen,我们依靠我们的专家团队来帮助您建立利用OCR的尖端模型。Appen高级产品经理Kirsten Gokay作品旨在确保使用OCR的Appen客户型号成功执行。

Kirsten在利用光学字符识别方面的三大见解包括:

  1. 使用正确的数据进行模型,确保它映射到您期望在现实世界中看到的数据类型。例如,如果您正在培训自动转录收据的模型,则您的数据应由包含您要查找的值的收据组成。您的数据也应该是圆圆的:不同角度的图像,不同类型的图像质量,依此类推 - 特别是如果该模型将应用于用户生成的内容。
  2. 正确的工具很重要!因为您的培训数据需要全面,所以用于注释数据的工具必须能够处理所有类型的文档。
  3. 人类循环方法对于成功至关重要。为确保模型的准确性,最好不要仅依赖AI。将人们带入注释过程允许您在培训前找到和纠正错误。

发生在你身上的事

Appen提供现成的数据集,包括手写识别数据集该网站收录了超过40万个手写姓名的抄本。我们还提供一套图像注释工具,包括一些专门用于OCR的工具,以帮助您获得自己模型所需的高质量培训数据。

学习更多关于2020年亚博收网行动, 或者联系我们今天直接和某人说话。

网站部署人工智能与世界级的训练数据
语言