手写内容识别

这项能力到底在做什么

手写内容识别，简单说，就是把纸面照片、扫描件、截图里的手写字、手写备注、手写批注，先转成系统能继续处理的文字结果。

这项能力和普通 OCR文字识别 最大的不同，是它面对的内容更乱、更不稳定。
印刷文字通常长得比较统一，手写内容却经常会出现这些情况：

字很潦草
连笔很多
同一个字每个人写法都不一样
数字和字母容易混
会夹着箭头、圈画、勾选、下划线
会出现口语缩写、行业简称、现场习惯写法

所以，手写内容识别真正解决的，不只是“把字认出来”，而是尽量把那些原本只靠当事人自己看得懂的内容，先变成别人和系统也能继续使用的结果。

它最擅长接住的内容，通常有这些：

表单上的手写备注
手写签批意见
巡检记录里的补充说明
报告上的手写批注
病历、课堂批改、纸面记录上的短句说明
圈改、勾选、符号旁边附带的文字说明

它通常接收什么输入

这项能力接进来的，往往不是标准文档，而是“现场味很重”的原始材料。

常见输入包括：

手写表单照片
纸面记录扫描件
带手写备注的 PDF
手机上拍的纸面批注
含有签字、意见、说明的截图
混合了印刷文字和手写内容的文件

一起带进来的上下文，常见还有这些：

记录时间
记录人
文档类型
所属对象编号
所属业务环节
企业常用术语表
常见缩写和字段规则

这些上下文很重要。因为手写内容很多时候不是标准句子，而是几个词、几个箭头、几处勾画。
如果没有上下文，系统就算把字认出来，也不一定知道它到底指什么。

它能输出什么结果

手写内容识别最后交出去的，不应该只是“猜出来的一段字”，而应该是一组带边界、带可信度、能回看原件的结果。

常见输出包括：

输出项	说明
手写原文	识别出来的文字内容
行或区域位置	这段手写字出现在页面哪里
关联字段	这段备注大概对应哪个栏目、哪条记录
可信度	当前结果稳不稳
疑难词标记	哪些字词不确定、建议人工确认
特殊符号结果	勾选、圈画、箭头、删改等附加标记
原图回看链接	方便人工回到原始页面确认

有了这些结果，下游系统才能继续做归档、审核、提醒、对账、补录和分析。

它在内部是怎么跑起来的

手写识别真正难的地方，是内容不整齐，而且人的写法差异特别大。
它在内部通常会经过下面这条链。

1. 先把手写区域找出来

很多文件不是纯手写，而是“印刷内容 + 手写补充”混在一起。
系统通常会先把页面里哪些地方是手写内容圈出来，避免把印刷字和手写字混在一起处理。

2. 再把图像调到更容易看清的状态

手写内容经常会遇到：

笔画太细
墨色太浅
拍照反光
纸张有褶皱
页面阴影很重
斜着拍，行距变形

所以在识别前，通常会先做拉正、增强、去噪、局部放大这些准备动作。

3. 再按行、按块拆开

手写字往往没有标准排版。
有些是一整句，有些只是在某一栏里补了两个字，有些则写在表格外面，用箭头指向某一项。

系统通常会先判断：

哪些字是一行
哪几块内容属于同一条备注
它是写在栏位里，还是写在旁边补充说明

4. 再做手写文字识别

这一层会把每段手写内容尽量转成文本。
但和印刷 OCR 不一样，这里往往需要同时参考：

字形本身
上下文位置
附近的印刷字段名
企业常用术语
常见缩写写法

也就是说，它不是只盯着笔画看，还会参考“这段字大概率会出现在什么位置、表达什么内容”。

5. 再处理缩写、符号和口语写法

现场手写内容经常不是完整句子，而是：

缩写
代号
箭头
勾叉
简写日期
数字和字母混排

所以系统通常会再做一轮解释和标准化，比如把明显的简称和字段对应起来，把勾选结果转换成更稳定的结构化标记。

6. 最后判断哪些结果可以直接用，哪些必须转人工

如果字迹太潦草、关键字看不清、符号关系不明确，系统就不应该硬猜到底。
这时更稳的做法，是把疑难词和疑难区域标出来，让人工确认。