文件分类归档

这项能力到底在做什么

文件分类归档，简单说，就是让系统先判断“这是什么文件、该放到哪里、该挂到谁下面、后面谁还能找得到”。

很多企业文件并不是没有存下来，而是存得太散、太乱、太靠人记忆。
常见的问题通常不是“文件丢了”，而是：

找不到最新版
不知道这一份属于哪个项目、哪个客户、哪个批次
同样内容存了很多份，名字还都不一样
文件在聊天记录、桌面、群附件、邮箱、共享盘里到处都是
需要时翻半天，还是不确定找的是不是对的

文件分类归档真正解决的，就是把文件从“随手存一下”，变成“有类别、有位置、有归属、有版本、有检索入口”的状态。

这项能力处理的重点，不只是“存文件”，而是把文件整理成后面业务还能继续接得住的资料。

它通常接收什么输入

这项能力接进来的，往往是来源很多、格式很杂的原始文件。

常见输入包括：

PDF
Word、Excel、PPT
图片和扫描件
邮件附件
聊天工具里上传的文件
压缩包
系统导出的报表或单据

一起带进来的上下文，常见有这些：

文件名
上传时间
上传人
来源系统
业务编号
客户名、项目名、批次号、工单号
已知的文档类型规则
权限范围和保存位置规则

这些上下文很重要。因为很多文件光看文件名是判断不准的，必须结合来源和业务对象，才能知道它到底该挂到哪里。

它能输出什么结果

文件分类归档最后交出去的，不应该只是“这个文件收到了”，而应该是一套能继续管理和检索的结果。

常见输出包括：

输出项	说明
文件类别	这份文件大概属于什么类型
归属对象	它属于哪个客户、项目、批次、工单或流程
标准命名结果	是否需要重命名，重命名后叫什么
存储位置	应该落到哪个目录、哪个资料夹、哪个系统对象下
版本标记	是首版、更新版、补充版还是重复件
检索标签	方便后面搜索和筛选
异常提示	类别不清、归属不明、重复冲突、缺关键字段等
留痕信息	谁上传、谁归档、什么时候归档

有了这些结果，后面的审核、协作、查询、复盘才真正有统一入口。

它在内部是怎么跑起来的

文件分类归档真正难的地方，不是“移动一个文件”，而是先判断清楚这个文件到底是什么、和谁有关、是不是已经有了。

它在内部通常会经过下面这条链。

1. 先接住文件和基础信息

系统先把文件本体、文件名、上传时间、上传人、来源渠道这些基础信息收进来。
这一层是后面所有判断的起点。

2. 再看文件里到底写了什么

很多文件不能只靠文件名判断。
所以系统通常会结合：

文件名
正文内容
首页标题
表头字段
附件说明
来源位置

先猜这份文件大概属于哪一类。

3. 再判断它应该挂到哪个对象下面

文件分类只是第一步，更重要的是归属。
系统通常会继续判断它属于：

哪个客户
哪个项目
哪个批次
哪条工单
哪个流程节点

只有这一步挂对了，文件后面才真正找得到。

4. 再检查有没有重复件或新版本

企业里很常见的一种乱，就是同一个文件反复上传很多次，或者旧版本、新版本混在一起。
所以系统通常会做这些判断：

内容是否高度重复
文件名是否只是改了日期或后缀
是不是同一资料的新版本
是不是补充件而不是替换件

5. 再生成标准命名和检索标签

就算文件挂对了，如果名字乱、标签乱，后面还是难找。
所以系统通常会按规则补这些东西：

标准文件名
资料类别标签
对象标签
时间标签
版本标签

6. 最后再真正归档并留下过程记录

到这一步，系统才会把文件落到目标位置，或者回写到对应业务对象下面。
同时把归档动作、版本关系、异常说明一起记下来。