印章识别

这项能力到底在做什么

印章识别，简单说，就是从扫描件、图片或 PDF 文件里识别印章位置、印章类型和关键盖章情况，方便后续核查文件有效性。

很多企业并不是完全看不见印章，而是文件多了以后，人工一页页找章、看章、核章很费时间。
常见情况通常是这样：

想确认文件有没有盖章
想看盖的是公章、合同章还是骑缝章
想知道关键页有没有章位
想在一堆扫描件里快速筛出有效文件

印章识别真正解决的，不是替企业做最终法律判断，而是先把“章在哪里、有没有、像不像关键章位”快速拉出来。

它通常接收什么输入

这项能力接进来的，通常是带印章的文件或图片。

常见输入包括：

扫描 PDF
文件图片
合同页
资质证书页
盖章申请表

一起带进来的上下文，常见还有这些：

文件类型
关键页范围
章位要求
印章类型规则
识别置信度要求
文档版本信息

这些上下文很关键。因为印章识别不是只看见一个红圈就结束，还要知道：

这是不是关键页
章位是否合理
是不是当前流程需要的章

它能输出什么结果

印章识别最后交出去的，不应该只是“有章”，而应该是一份方便后续人工核查和流程流转的结果。

常见输出包括：

输出项	说明
是否检测到印章	当前文件或页面有没有章
印章位置	大致出现在文件哪里
印章类型判断	公章、合同章、骑缝章等
关键页覆盖情况	关键页是否存在盖章
识别置信度	当前判断稳不稳
异常提示	章位缺失、疑似不完整等问题

这样下游拿到的，就不是只能靠肉眼慢慢找章的文件，而是一份更可用的核查结果。

它在内部是怎么跑起来的

印章识别真正难的地方，不是发现红色区域，而是分清哪些是有效印章位置，哪些只是噪声。
它在内部通常会经过下面这条链。

1. 先读取目标文件页面

系统先把文件页、扫描页或图片页拿进来。

2. 再识别可能的印章区域

通过页面特征、颜色区域、形状特征先找出疑似章位。

3. 再判断印章类型和位置

系统会继续看：

是不是常见章形
在不在关键位置
是否跨页

4. 再比对关键页要求

如果当前业务要求某几页必须有章，系统会继续核对是否满足。

5. 再输出异常提示

比如：

没有章
章位不完整
关键页缺章
识别结果不稳

6. 最后输出识别结果

这样人工只需要对重点页快速复核，不用从头找。

详细内部流程图

flowchart TB
    A[输入扫描件、PDF 或图片文件] --> B[识别疑似印章区域]
    B --> C[判断印章类型、位置和关键页覆盖情况]
    C --> D[结合业务规则检查是否满足盖章要求]
    D --> E[标记缺章、章位异常或低置信度情况]
    E --> F[输出印章识别结果]
    F --> G[交给投标、合规、归档等下游流程]

它最后会把什么交给下游流程

印章识别真正交给下游的，不只是“有没有章”，而是一份方便继续核查的结果。

常见会交出去这些内容：

印章存在与否
印章位置
印章类型
关键页覆盖情况
识别置信度
异常提示

这样后面的流程才能继续做：

投标材料检查
合规初审
文件归档
人工复核

它怎么接入业务才真正有价值

印章识别最怕的，不是识别不到，而是识别出来以后仍然没人知道哪些页最值得先看。

真正常见、也最有价值的接法，一般有下面几种：

1. 接在文件整理前面

先把有章和无章文件分开，效率会高很多。

2. 接在投标材料准备前面

关键页缺章这类问题越早发现越好。

3. 接在合规审核前面

人工审核应该花在重点页上，而不是整份慢找。

4. 接在归档前面

归档时先标好章位信息，后面复查更方便。

什么情况下必须转人工

印章识别虽然很适合自动化，但下面这些情况最好让人工确认：

扫描质量差
页面背景复杂
印章残缺不全
文件法律风险高
骑缝章跨页关系复杂
系统判断不稳

真正稳的企业做法，不是把识别结果直接当最终结论，而是让系统先圈重点，再让人确认。

为什么这项能力站得住

印章识别之所以在企业里很有价值，是因为很多文件检查工作并不难，但非常耗眼力和时间。
只要把章位先圈出来，人工效率就会明显提高。

1. 它先解决的是“找章太慢”

这在文件量大的场景里尤其明显。

2. 它能明显提升前置核查效率

关键页是否有章，能更早被看见。

3. 它特别适合扫描件多的团队

扫描件越多，这项能力越实用。

4. 它边界清楚，适合人工最终确认

系统先识别，人再判断有效性。
这种分工很稳。