线索去重

这项能力到底在做什么

线索去重，简单说，就是把重复进入系统的线索尽量识别出来，避免同一个客户被当成多条新机会反复分发、反复跟进。

很多企业的线索问题，不是数量不够，而是重复太多。
常见情况通常是这样：

同一个人在官网和活动页都留过资
同一家公司不同联系人重复提交表单
市场导入过一次，销售手工录入又来一次
一个手机号换了不同姓名写法

线索去重真正解决的，不是把数据删干净，而是尽量看清哪些是同一条机会，哪些只是看起来像。

它通常接收什么输入

这项能力接进来的，通常是一批新线索和一批历史线索。

常见输入包括：

姓名
手机号
邮箱
公司名
职位
来源渠道
提交时间

一起带进来的上下文，常见还有这些：

线索来源活动
地区信息
历史负责人
线索状态
去重规则
保留主记录规则

这些上下文很关键。因为去重不是只看手机号一样不一样，还要看：

是不是同一个人
是不是同一家公司里的新机会
重复了以后该保留哪条
该合并还是该提醒人工判断

它能输出什么结果

线索去重最后交出去的，不应该只是“删掉重复项”，而应该是一份清楚说明哪些重复、为什么重复、最后保留哪条的结果。

常见输出包括：

输出项	说明
重复识别结果	哪些线索被判断为重复
主记录	最终保留哪条作为主线索
关联记录	其他重复来源保留在哪里
重复依据	手机、邮箱、公司名、时间等依据
低置信度提醒	哪些只是疑似重复
处理动作	合并、忽略、转人工确认

这样下游拿到的，就不是一批混乱线索，而是一份更干净、更能继续流转的名单。

它在内部是怎么跑起来的

线索去重真正难的地方，不是找相同，而是避免把不同客户误当成一个。
它在内部通常会经过下面这条链。

1. 先读取新线索和历史库

系统先拿到这次新进来的线索，以及当前已有的历史线索。

2. 再统一基础格式

比如统一：

手机号格式
邮箱大小写
公司简称和全称
姓名中的空格和符号

3. 再生成重复候选集

系统会按手机号、邮箱、公司名、联系人组合等规则，先找出疑似重复对象。

4. 再综合判断是否真的重复

这一层通常会继续看：

关键字段相似度
时间间隔
来源关系
历史负责人和状态

5. 再决定保留和关联方式

如果确认重复，系统还要决定：

保留哪条为主
其他记录是否作为来源历史挂上去
是否需要提醒当前负责人

6. 最后输出去重结果

清楚的情况直接处理；
模糊情况则标记待人工确认。

详细内部流程图

flowchart TB
    A[输入新线索和历史线索库] --> B[统一手机号、邮箱、公司名等格式]
    B --> C[按关键字段生成疑似重复候选]
    C --> D[比较相似度、时间、来源和历史状态]
    D --> E{是否可判定为重复}
    E -->|否| F[保留为新线索]
    E -->|是| G[确定主记录和关联记录]
    G --> H[输出去重结果和处理动作]
    H --> I[交给打分、分配、跟进等下游流程]
    F --> I

它最后会把什么交给下游流程

线索去重真正交给下游的，不只是“剩下多少条”，而是一份更可用的线索结果。

常见会交出去这些内容：

主线索记录
重复记录清单
重复依据
低置信度提醒
去重后可分发名单
负责人提醒信息

这样后面的流程才能继续做：

线索打分
销售分配
首联跟进
报表统计

它怎么接入业务才真正有价值

线索去重最怕的，不是识别不到，而是去重完以后业务还在按旧名单跑。

真正常见、也最有价值的接法，一般有下面几种：

1. 接在线索导入后面

只要新线索一进来，先去重，后面很多动作都会更省事。

2. 接在销售分配前面

如果不先去重，再好的分配也会把重复客户推给不同人。

3. 接在报表前面

不先去重，线索数量、转化率、有效率都会失真。

4. 接在多渠道获客场景里

渠道越多，重复线索越多，这项能力越有价值。

什么情况下必须转人工

线索去重虽然很适合自动化，但下面这些情况最好让人工判断：

公司同名情况很多
关键信息缺失
同一家公司不同联系人可能代表不同机会
线索金额或价值很高
历史状态复杂，自动合并风险大
去重结果会影响销售归属

真正稳的企业做法，不是盲目合并，而是让系统先把明显重复的清掉，把边界模糊的交给人。

为什么这项能力站得住

线索去重之所以在企业里很有价值，是因为重复线索不仅浪费时间，还会直接伤害客户体验和内部协作。

1. 它先解决的是“同一个客户被多次打扰”

这个问题如果不管，客户感受会很差。

2. 它能明显减少无效工作

少一次重复联系，销售就多一份时间去做更有价值的事情。

3. 它特别适合多渠道投放企业

来源越多、活动越频繁，去重越重要。

4. 它边界清楚，适合做人机协同

明显重复自动处理，复杂重复人工确认。
这种方式很稳，也很常见。