OCR文字识别

这项能力到底在做什么

OCR文字识别，简单说，就是把 PDF、扫描件、手机拍照、截图里的印刷文字先拿出来，再变成后续流程能继续用的数据。

很多企业流程卡住，不是因为没有资料，而是因为资料虽然在文件里，但系统接不住。人能看懂，系统却拿不到，结果就只能靠人工再看一遍、抄一遍、录一遍。

这项能力真正解决的，就是把原来“锁在图片和文件里的字”先拆出来。

它最擅长处理的是这些内容：

合同、申请表、报告、证明、通知单里的正文
编号、姓名、日期、金额、批次号、证件号这类关键字段
截图里的文字信息
多页 PDF 里的连续文本
扫描件里格式比较规整的印刷内容

要注意的是，OCR文字识别 的重点是“识别印刷文字”。如果内容主要是表格结构，通常还要配合 表格识别；如果内容主要是潦草手写，通常还要配合 手写内容识别。

它通常接收什么输入

这项能力接收的，通常不只是一个文件，还会连同业务上下文一起进来。

常见输入包括：

单页或多页 PDF
扫描件
手机拍的照片
系统截图
邮件附件里的图片文件
压缩包里批量上传的文档

一起带进来的上下文，常见有这些：

文件来源
上传时间
上传人
文档类型
业务编号
客户名、批次号、工单号这类关联字段
企业提前定义好的重点识别字段

上下文越完整，后面字段校验和归档就越稳。因为系统不只是“认字”，还知道这些字大概属于哪类材料、该挂到哪条流程上。

它能输出什么结果

这项能力最后交出去的，不该只是“一大段文字”，而应该是一组可继续流转、可检查、可回写的结果。

常见输出包括：

输出项	说明
原文文本	文件里识别出来的正文内容
关键字段	比如姓名、编号、日期、金额、批次号
页码信息	这些内容出现在第几页
位置坐标	某段文字或字段在页面上的位置
可信度	当前识别结果稳不稳
疑难标记	哪些字段模糊、缺失、可疑
原图关联	方便后面人工回看原始页面

这样下游流程拿到的，就不只是“识别过了”，而是能直接继续干活的结果。

它在内部是怎么跑起来的

OCR 在企业里真正跑起来时，一般会经过下面这条处理链。它不是拍张照立刻出字那么简单，中间其实有不少准备动作。

1. 先检查文件能不能用

系统先看文件格式对不对、页数对不对、图片有没有损坏。

如果一开始文件就打不开，后面的识别根本跑不起来。

2. 再把图片调到更容易识别的状态

很多原始文件并不干净，比如：

拍歪了
太暗
有阴影
有黑边
分辨率太低
文字区域太小

所以 OCR 前面通常会先做一轮预处理，比如拉正、裁边、去噪、增强对比度。
这一步的目的很简单，就是让后面的识别少看错字、少漏字段。

3. 再判断页面上哪些地方是文字

不是一整页所有内容都一样重要。系统通常会先把页面分成不同区域，比如：

标题区
正文区
标签区
编号区
签章附近区域
图片说明区域

先把文字可能出现的位置圈出来，后面识别会更稳，也更容易拿到字段坐标。

4. 把文字区域真正转成文本

到了这一步，系统才开始把每个文字区域里的内容转成机器可读的文本。

这一层通常会输出：

原始识别文本
每段文字的位置
每段文字的可信度

如果是多页文件，就会按页继续往下跑。

5. 再做清洗和标准化

OCR 识别出来的原文，不一定能直接拿去用。
比如同样一个日期，可能会出现：

2026/04/22
2026-04-22
2026年4月22日

同样一个编号，也可能夹着空格、符号，或者看起来像字母和数字混淆。

所以系统通常会把这些内容再做一次清洗和标准化，让下游系统更容易接。

6. 最后判断哪些结果可以直接用，哪些必须转人工

不是所有识别结果都适合直接进入流程。
如果某一页太糊，或者关键字段可信度太低，系统会把它标出来，转人工复核，而不是硬着头皮继续往下流。

真正靠谱的 OCR，不是“什么都自动过”，而是“能自动的先自动，不稳的及时交给人”。

OCR文字识别的详细内部流程图

flowchart TB
    A[输入PDF / 扫描件 / 照片 / 截图] --> B[检查文件格式、页数、清晰度]
    B --> C{文件是否可处理?}
    C -->|否| D[标记为异常文件并转人工处理]
    C -->|是| E[图像预处理<br/>拉正、裁边、去噪、增强对比度]
    E --> F[版面分析<br/>定位标题区、正文区、编号区等文字区域]
    F --> G[文字检测<br/>找到每一块文字位置]
    G --> H[文字识别<br/>把图像里的印刷文字转成文本]
    H --> I[字段清洗与标准化<br/>统一日期、编号、金额等格式]
    I --> J[可信度校验与缺失检查]
    J --> K{关键字段是否清楚且完整?}
    K -->|否| L[标记疑难字段<br/>进入人工复核]
    K -->|是| M[输出文本、字段、页码、坐标、可信度]
    L --> N[人工修正后回流]
    M --> O[交给归档、审核、录入、比对等下游流程]
    N --> O

它最后会把什么交给下游流程

OCR 真正对业务有用，不是因为它能“认字”，而是因为它能把文件里的字，整理成别的能力接得住的结果。

下游常见会接到这些内容：

可搜索的全文文本
可单独取用的关键字段
字段对应的页码和位置
哪些内容可信度高
哪些内容需要人工补看
原始文件和识别结果的对应关系

有了这些结果，后面的流程才能继续做：

资料录入
字段校验
文件归档
数据对账
审核分流
系统回写

它怎么接入业务才真正有价值

OCR 最怕的，不是识别不出来，而是识别出来以后没人接。

真正有价值的接法，通常有下面几种：

1. 接在资料上传入口后面

用户一上传文件，系统就先跑一轮 OCR。
这样后面所有流程拿到的，就不再只是附件，而是“附件 + 可用文本 + 关键字段”。

2. 接在人工录入前面

原来需要人工一条条抄录的字段，可以先由 OCR 提出来，再由人工做确认。
这样能明显减少重复录入。

3. 接在审核和归档前面

审核人员不必先翻完整文件找重点，系统可以先把页码、字段、可疑项标出来。
归档系统也能根据识别结果先自动分类、挂号、归档。

4. 接在比对流程前面

如果后面还要做字段核对、金额比对、批次核对，OCR 就是最前面的“取数入口”。
没有这一层，后面的比对能力往往也没法真正自动跑。

什么情况下必须转人工

OCR 很有用，但边界也很清楚。下面这些情况，最好直接转人工复核：

图片太糊、太暗、反光太重
拍摄角度太斜，文字严重变形
关键字段被遮挡、裁掉、压住
原件印刷本身就不清楚
同一页里章、线条、底纹特别复杂
数字和字母容易混，比如 0 和 O、1 和 I
文件内容排版很乱，找不准字段位置
识别结果和业务上下文明显冲突

企业里真正稳的做法，不是强行让 OCR 百分之百自动，而是先自动做掉大部分清楚、标准、重复量大的内容，把高风险部分留给人把关。

为什么这项能力站得住

OCR 文字识别之所以在企业里一直很常用，是因为它解决的是一个非常基础、非常真实的问题：
信息明明已经写出来了，但系统却拿不到。

1. 它先解决的是“文件里的字拿不出来”

很多流程慢，不是因为后面的审批慢，而是因为第一步录入就很慢。
OCR 先把这一步接住，后面的自动化才有可能发生。

2. 它特别适合处理重复量大的印刷内容

只要文件格式相对稳定、印刷质量还可以、字段规则比较明确，OCR 的价值就会很明显。
这类工作如果完全靠人工，一般都又慢又容易出错。

3. 它和别的能力很容易接起来

OCR 很少单独存在。它前面接文件，后面接归档、审核、比对、录入、回写。
正因为它处在链路前面，所以虽然看起来只是“认字”，但实际是很多自动流程的入口。

4. 它边界清楚，所以反而更容易落地

OCR 最适合做的是印刷文字提取，不是去替代所有理解、判断和拍板。
能力边界清楚，接业务时反而更稳，也更容易设计人工兜底。