电话实现大规模姓名匹配01

客户有这样的需求,公司500-1000名员工,通过姓名、昵称转接给当事人。

初看觉得是个简单问题,提取姓名+匹配即可。

你期望的而输入 query == 姓名,然后做匹配。

真实情况可能是:

A: query== 帮我转接给李鬼(姓名)

B: query== 那个叫李奎的帮我转接

C: query== 帮我转给黑旋风

………………

所以,这个简单的需求,其实是ner命名实体识别+多维相似匹配。

ner命名实体识别,我们可以采用bert等+crf来实现。

对应提取的姓名而言,这只是实现了第一步。

现在需要将姓名和近1000个进行相似匹配。

实现了相似匹配还需要考虑一个问题,1000个姓名,包含了n个昵称。

同时,还得考虑asr转写之后的口音问题。

我们下一篇文章来介绍,我是如何处理的。