Introduction To Google Vision OCR

由柏拉图重新发布

关注： 0

谷歌视觉 OCR 简介

光学字符识别（OCR）是一种将手写/打印的文本转换为机器编码的文本的方法，由于其在各个领域的众多应用，一直是计算机视觉研究的一个主要领域。政府使用OCR收集调查反馈。

由于手写和印刷文本样式的多样性，OCR的最新方法结合了深度学习来获得更高的准确性。由于深度学习需要大量数据来进行模型训练，因此像Google这样的公司在利用OCR服务产生令人鼓舞的结果方面处于优势。

本文深入探讨了 Google Vision OCR 的详细信息，包括简单的 Python 教程、应用范围、定价和其他替代方案。

什么是 Google Cloud Vision OCR？
一个简单的教程
为什么选择OCR？
示例用例
定价
Google Cloud Vision OCR的主要功能
备择方案
常见问题

什么是Google Cloud Vision？

Google Cloud Vision OCR是Google Cloud Vision API的一部分，可从图像中提取文本。具体来说，有两个注释可帮助识别字符：

文字注释: 它从任何图像（例如，街景照片或风景照片）中提取并输出机器编码的文本。由于最初将其设计为可在不同的照明情况下使用，因此该模型在某种意义上在读取不同样式的单词时更加健壮，但只能在更稀疏的水平上使用。返回的JSON文件包括整个字符串以及各个单词及其对应的边界框。
文档_文本_注释: 这是专为密集显示的文本文档（例如，扫描的书）设计的。因此，尽管它支持阅读更小，更集中的文本，但它不太适合野外图像。输出的JSON文件中包含诸如段落，块和分隔符之类的信息。

寻找一种克服 Google Cloud Vision 缺点的 OCR 解决方案或区域 OCR？给予纳米网™ 旋转以获得更高的准确性，更大的灵活性和更大的文档类型！

一个简单的教程

以下部分介绍了有关Google Vision API入门的简单教程，特别是如何将其用于Google Cloud Vision OCR服务。

简单概述

其背后的想法是非常直观和简单的。

1）本质上，您将图像（远程或本地存储）发送到Google Cloud Vision API。

2）图像在Google Cloud上进行了远程处理，并针对您调用的函数生成了相应的JSON格式。

3）调用函数后，JSON文件作为输出返回。

设置Google Cloud Vision API

要使用Google Vision API提供的任何服务，必须配置Google Cloud Console并执行一系列认证步骤。以下是有关如何设置整个Vision API服务的分步概述。

在Google Cloud Console中创建项目-必须创建一个项目才能开始使用任何Vision服务。该项目组织了诸如协作者，API和价格信息之类的资源。
启用帐单-要启用视觉API，必须首先为您的项目启用帐单。定价的详细信息将在后面的部分中介绍。
启用视觉API
创建服务帐户-创建服务帐户并链接到创建的项目，然后创建服务帐户密钥。密钥将被输出并作为JSON文件下载到您的计算机上。
设置环境变量GOOGLE_APPLICATION_CREDENTIALS；要设置此环境变量，请在 Mac/Linux 或 Windows 上运行它。
Mac / Linux的代码块
Windows的代码块

可以从以下位置的Google Cloud给出的官方文档中找到上述步骤的更详细过程：

https://cloud.google.com/vision/docs/quickstart-client-libraries

Python中的简单Google Vision OCR函数

Google Cloud Vision API可与多种流行语言一起使用，从Java，Node.js，Python到Google自己的语言Go。为了简单起见，我们在Python中引入了一个简单的调用方法。

def detect_text(path):    """Detects text in the file."""    from google.cloud import vision    import io    client = vision.ImageAnnotatorClient()    with io.open(path, 'rb') as image_file:        content = image_file.read()    image = vision.Image(content=content)    response = client.text_detection(image=image)    texts = response.text_annotations    print('Texts:')    for text in texts:        print('n"{}"'.format(text.description))        vertices = (['({},{})'.format(vertex.x, vertex.y)                    for vertex in text.bounding_poly.vertices])        print('bounds: {}'.format(','.join(vertices)))

Google Cloud Vision OCR – Python调用方法

换句话说，该方法因此调用了该函数 文本注释，然后进一步提取响应并打印出信息。 文档文本注释 也可以使用相同的方式来检索密集文本。也可以通过以下方式设置图像来远程检测图像：

image.source.image_uri = uri

其中 uri 是图像的 uri。

可以在这里获取代码的更多详细信息：

https://cloud.google.com/vision

您是否正在寻找一种可以克服Google Cloud Vision缺点的OCR解决方案？给纳米网™ 旋转以获得更高的准确性，更大的灵活性和更大的文档类型！

提供的产出水平

为了帮助进一步分析文本，两个Google OCR函数提供了不同级别的输出供用户使用： 文本注释，包括整个字符串（如果被Google视为一个句子或短语）以及其中的单个单词；为了 文档文本注释，因为该模型针对密集文本进行了优化，所以页面的全部内容，页面，块，段落，单词和分隔符都将作为输出的一部分提供。

不过效果如何？

这些模型有多强健？

如前所述，Google在两种不同情况下为OCR提供了两种功能。下面描述了两种功能检索不同类型数据的能力。

列印资料

最容易解释的数据类型是打印的文本数据，即打印和扫描的计算机编写的文本。当我们只有这些数据的印刷副本而不是原始的机器编码文本时，则需要OCR。由于这些文本大部分都紧紧地塞在了书页中， 文档文本注释 会是一个更好的选择。

手写数据

内容可能包含手写文本，并且手写数据的样式可能会大不相同。不过，只要手写笔记不太混乱，Google Vision OCR就能提供不错的准确性。根据呈现的手写数据介质的包装方式，我们视情况使用两个功能之一。

旋转/野外数据

当图像或扫描的照片以非正统或未对齐的角度显示时，我们将其视为野外数据。首先可能会更难检测到文本，因此我们通常使用 文本注释 该功能最初旨在处理野生数据。根据一些通过垂直文本和以不同角度捕获的路标的实验，我们表明Google Vision OCR实际上可以很好地处理来自各种环境的数据。

为什么选择OCR？

我们今天拥有的许多数据都是非结构化格式。例如，给定图像，扫描的文档或照片，尽管人类可以快速识别文本并进一步解释含义，但所有文本数据都只是带有颜色的像素，没有为机器提供真正的含义。

当公司或大型公司要处理大量的文书工作时，庞大的数据量将使不可能仅靠人工就能完成任何分类或数据处理-这就是机器编码的文本变得很方便的时候。

在进行OCR转换之后，可以根据数据的性质使用多种不同的方法来分析信息：

对于数字数据，可以直接使用统计方法来分析任何相关性。我们还可以采用传统的机器学习方法（例如，KNN，K-Means，线性回归）或深度学习方法来创建用于回归和/或分类的预测模型。
对于文本数据，可能需要更多处理阶段。将文本数据分析和解释为有意义的统计数据的过程通常称为自然语言处理（NLP）。具体来说，我们可以根据给定的内容提取数字甚至语义/气氛。

所有这些分析可以使公司，尤其是每天拥有大量新数据的公司，可以创建可靠的模型，甚至可以自动化许多流程，并取代传统的劳动密集型和错误包装的方法。下一节将深入介绍如何使用OCR的一些详细示例。

您是否正在寻找一种可以克服Google Cloud Vision缺点的OCR解决方案？给纳米网™ 旋转以获得更高的准确性，更大的灵活性和更大的文档类型！

示例用例

车牌阅读

如今，OCR的最常见用法之一是在车牌读取中的应用。在发达国家，停车场经常伴随着车牌读取模型，以确定每辆车的进入时间，出口时间，甚至确切的停放位置。一些停车场甚至连接到政府网络，直接向家庭收取停车费-所有这些都减轻了多余的人力。

车牌OCR模型也可以用于交通违章的检测，从而减少了警察手动键入违规车辆数据的时间。

收据和发票扫描

财务预测和平衡公司的资产与负债对任何公司来说都是重要的活动。由于大公司一年四季都从多个行业进行大批量采购，因此在创建财务报表时，它们必须精心收集和处理所有发票和收据。

借助 OCR，我们可以创建自动化管道识别多种发票格式并将它们转换成数字。只需要人工检查，结构化的数据和数字可以让公司快速平衡流入和流出，进行财务预测，并警惕对公司财务的恶意操纵。

电子病历

根据个人的生活方式，患者的数据通常散布在一个地区，一个国家甚至整个国家。由于诊所和医院的风格不同（大型医院可能拥有组织化的数据库，而小型诊所中的医生可能只是手工写下记录），患者的年龄（较大的患者可以在翻新和合并之前插入特定的数据库中）计算机）以及个人的位置（人们可能会搬到其他城市甚至在国外），保持全民医疗实际上可能非常困难。

因此，当将EMR从一家医院转移到另一家医院，或将手写数据转换为机器文本时，训练有素的OCR变得很方便-两者都可以加快以快速简洁的方式了解患者病史的过程。

表格和调查

组织（无论是政府组织还是非政府组织）可能经常需要客户或公民的反馈，以改进其当前的促销计划和产品。由于表格通常是手写的，因此可能很难执行任何直接的统计分析。因此，OCR可以辅助并加速将非结构化数据和手写调查转换为数字以方便计算的过程。

您是否正在寻找一种可以克服Google Cloud Vision缺点的OCR解决方案？给纳米网™ 旋转以获得更高的准确性，更大的灵活性和更大的文档类型！

云视觉定价

根据谷歌官网，无论是 文本注释 和 文档文本注释 提供的价格与以下价格相同：

对于每个月，前1000个单位将免费提供，而1000-5000000则按每1.5个单位$ 1000收费。达到5000000大关后，价格降低至每0.6单位1000美元（通过Google Vision API发送的每张图像都被视为一个单位）。

上述价格表明，OCR服务对于使用频率较低的小型公司以及每月需要使用5000000万次以上的大型公司而言，都是相对可承受的。

Google Cloud Vision OCR的主要功能

Google OCR有很多好处，在这里我们介绍一些最重要的好处：

安全性 - 这两种功能根据用户的决定提供两种类型的文本文档，因此Google Vision OCR比单模型OCR引擎更强大。
语言支持- Google可能拥有最大的语言数据库，因此建议其OCR适用于60多种语言，并尝试了数十种语言，并将其余许多语言映射到另一种语言代码或通用语言识别器。
使用方便 - 该模型本身是内置的Google Vision库的一部分。在配置API密钥的过程稍微复杂一些（几乎所有OCR引擎都需要）之后，该函数调用方法可以非常简单的方式用于多种语言中。
可扩展性— Google的定价策略鼓励用户扩大API的使用量，因为更多的使用量会导致更便宜的平均价格。
速度 - Google Cloud的存储平台很好地伴随着API的使用。通过将图像上传到驱动器，API的响应时间可以非常快速且可扩展。

您是否正在寻找一种可以克服Google Cloud Vision缺点的OCR解决方案？给纳米网™ 旋转以获得更高的准确性，更大的灵活性和更大的文档类型！

备择方案

以下是除Google Vision API之外的一些替代性OCR服务，以及每种服务的优缺点。

ABBYY

ABBYY FineReader PDF是ABBYY开发的OCR，它特别专注于pdf阅读。

优点： 由于价格细分为较小的部分（1000、2000页等），因此ABBYY对个人用户而言更加节省成本。由于它是商业化的应用程序，因此也面向非工程客户。
缺点： 该软件仅聚焦于PDF格式，并且在进行大规模OCR时价格变得非常昂贵。
何时使用： 对于只想快速处理PDF的个人用户，ABBYY可能比Google Vision API更为可行，后者提供了更大的灵活性，但需要额外的代码。

微软

Microsoft Azure还提供了用于OCR的Read API。

优点： 对于要使用的更多数据，Microsoft提供了更便宜的价格。 Azure云存储提供与Google Cloud类似的服务。
缺点： 没有免费层，而其他选项则提供免费API调用以降低使用率。
何时使用： 微软的定价可能会带来超大规模的OCR生产管道。

的Kofax

与ABBYY相似，Kofax还提供OCR读取PDF

优点： 价格是针对个人使用的固定价格，并且为企业提供折扣。还提供24/7客户支持。
缺点： 声称质量不如ABBYY的质量高。
何时使用： 使用需求低的小型企业。

AWS 文本

与Google Vision API相比，AWS Textract的作用非常相似。他们的服务和价格非常相似，因此采用哪种服务完全取决于客户的偏好。

纳米网

与先前讨论的服务不同，Nanonets的OCR进一步分为特定类别，并且具有针对每种数据类型（例如，收据，发票，驾驶执照）进行训练的健壮模型。

优点： 特定于类别的OCR，因此，当公司针对特定于目标的应用程序需要OCR时，就准确性而言，甚至可以提供更好的结果。
缺点： 由于高度特定和量身定制的模型，Nanonets OCR可能不适用于野外设置
何时使用： 如果公司要求针对特定类型的数据（例如发票）使用OCR，则Nanonets可能是一种成本低廉且高度准确的选择。

您还可以在这里尝试 Nanonets Online OCR。

Cloud Vision的常见问题

在最后一部分中，我们旨在解决Stackoverflow关于文档扫描和OCR的一些问题。

使用神经网络识别文档

链接： https://stackoverflow.com/questions/63844251/how-to-detect-and-recognize-information-on-documents-using-neural-networks/63844363#63844363

这是Google OCR的确切用法！请按照上述步骤扫描文档并执行文本检索。

在OCR之后抢占最重要的细节

链接： https://stackoverflow.com/questions/64621684/how-to-parse-name-phone-number-email-from-name-card-after-using-google-cloud-vi

解析任何文档中最有意义的内容的想法称为自然语言处理。由于每个文档都包含不同格式的此类信息，因此建议采用某些ML方法来这样做。当然，如果所有卡都采用相同的格式，则基于规则的方法也可以使用带有某些关键字符的文本（例如，如果包含@则为电子邮件）来检索文本。

它可以离线运行吗？

链接： https://stackoverflow.com/questions/63315520/google-cloud-vision-api-can-it-run-offline

抱歉不行。该API会远程调用Google Cloud OCR，并且您无法离线工作，因为该API会产生费用。

它可以检测文本是粗体还是斜体？

链接： https://stackoverflow.com/questions/62947592/does-google-cloud-vision-api-detect-formatting-in-ocred-text-like-bold-italics/63098644#63098644

不会。Google OCR 很可能会检测文本内容，即使文本内容是粗体或斜体，但 OCR 模型并非旨在理解字体类型。

更新： 根据读者的询问添加了更多信息。

时间戳记： 2022 年 6 月 20 日

时间戳记： 2023 年 1 月 26 日

什么是Google Cloud Vision？

一个简单的教程

简单概述

设置Google Cloud Vision API

Python中的简单Google Vision OCR函数

提供的产出水平

不过效果如何？

为什么选择OCR？

示例用例

车牌阅读

收据和发票扫描

电子病历

表格和调查

云视觉定价

Google Cloud Vision OCR的主要功能

备择方案

ABBYY

微软

的Kofax

AWS 文本

纳米网

Cloud Vision的常见问题

使用神经网络识别文档

在OCR之后抢占最重要的细节

它可以离线运行吗？

它可以检测文本是粗体还是斜体？

更多来自 人工智能与机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自人工智能与机器学习