当前位置:首页 > 资讯 > 正文

基于模板的文字识别结果结构化处理技术

基于模板的文字识别结果结构化处理技术

嘉宾 | 向宇波

编辑 | suiling

来源 | AI科技大本营在线公开课

出品 | AI科技大本营(ID:rgznai100)

随着行业的发展和技术的成熟,文字识别(OCR)目前已经应用到了多个行业中,比如物流行业快递包裹的分拣,金融行业的支票单据识别输入,交通领域中的车牌识别,以及日常生活中的卡证、票据识别等等。OCR(文字识别)技术是目前常用的一种AI能力。但一般OCR的识别结果是一种按行输出的半结构化输出。

本次公开课我们邀请到了百度高级研发工程师向宇波老师,他将在12月20日(周四)带来一场主题为《基于模板的文字识别结果结构化处理技术》的分享。本课程从百度自定义模板文字识别展开,从理论到案例,详细介绍OCR结构化的相关技术,并理清OCR和结构化之间的关系和适用场景。

向宇波:大家好,我是来自百度AI技术生态部的研发工程师,我叫向宇波,今天给大家带来的分享是基于模板的文字识别结果结构化处理技术,我们主要讲的是文字处理结果的结构化。

我们从一个财税案例的角度出发。大家在公司里肯定都做过报销,报销的时候我们都会有出租车票、定额发票等,我们需要将贴到纸上然后提交上去,由财务来做后面的事情。通常来说,他们其实做的都非常辛苦,要耗费大量的人力来进行人工录入。这样的话,不仅成本很高,而且耗时也很长,人工录入的话还有可能会出错。我们能不能够通过用文字识别的方式来解决这个问题呢?比如把这个流程变成这样,我们在中间加一层,不是人工录入,而是通过一个识别系统,首先我们把这些票据通过图像采集设备,例如高分辨率扫描、拍照这种方式转换成图像,然后通过文字识别技术把图像上的文字识别出来,再经过一个数据的结构化,最后输入到财务系统。这样能节约大量的人力物力,也能够提高效率及准确率。其关键部分是在识别之后做一个结构化处理。

我们来看一下多模板的结构化识别。首先来说,我们从刚刚的例子也能看得到,哪怕是一个很简单的报销过程,也涉及到很多种票据,例如火车票、定额发票等等。现实生活中这种票据非常多。所以,我们的结构化方案要能够支持多种模板。

一般来讲,OCR识别出来的结果是单纯的一行一行文字,这样业务处理起来会比较困难,key value形式的结构会比较好处理。我们用一个例子来解释,比如我们识别一张火车票,这个火车票上面有一行文字是始发站,然后是车次、到达站。如果直接处理识别出来的那一行文字相对麻烦,因为需要去切分出各个字段。但是,如果我们的识别结果有结构,那处理起来就会容易很多。通过key value的形式检索,我就能够知道我的始发站(北京南),然后到达站(天津)、车次。所以结构化给业务处理带来了极大的便利。

接下来我们看一下文字识别分类。通常来说文字识别分为两个大类,一种是通用文字识别,另一种就是专用垂类识别。通用文字识别就像刚刚提到的,对一个图片来说,识别结果会以行的形式输出,同时会有比较准确的文字坐标,这种按行输出的结构可以称之为半结构化,它只能告诉你在这一行,在这一行,从上到下罗列,没有真正意义上的key value结构。

专用垂类识别的结果有结构,比如说对于身份证,其实我们知道所有身份证都长的一样,我们能够知道身份证上这个地方是姓名,这个地方是性别,这个地方是民族,所以我们能够返回的时候就告诉你姓名是什么,性别是什么,生日是什么。常见的专用垂类还覆盖几类常见卡证,像身份证、银行卡、增值税发票这些。但是开发一个专用垂类识别,通常来说需要花比较多的人力物力,才能够达到一个比较高的准确度,所以它的开发周期和人力成本都比较高。

整个看来,业务处理需要不同板式的文字识别,并且希望能够结构化,但是如果把它们变成专用的垂类模板来,就会面临成本很高,周期很长的情况。

基于这些矛盾,我们推出了一个基于模板的文字识别结果的结构化方案。给大家做一个例子来演示,比如用火车票。我有一个火车票的模板,就是就拿我自己的火车票举例,大家可以看到我的始发站、终点站都有了。然后我们可以再做一个模板,这次可以换一个增值税发票的。首先我们上传一张模板的底图,所有的增值税发票都长的差不多。然后我现在来选一些参照字段,选这个纳税人、开票日期、税率、开票人、小写、收款人、价税,这样就差不多了。比如说我想要识别这个,大写的金额,保存。就可以选择另外一张,这两张显然是不一样的。我们来看一下,应该是这张,可以看到这里写的是1000元整,这样的话我们也可以多框选一些别的字段,就可以像刚刚火车票一样,在这边,在页面上就可以测试出来我们想要的字段都能够给它结构化,按key value的形式找到。

刚刚说的看起来操作很简单,但其实在它的背后我们做了一系列的操作。这个就是我们对整个文字识别结构化的流程,它经历了4个大的步骤(4大流程)。首先是图片摆正,然后是模板匹配多次摆正最后是结构化

最新文章