小米表格识别技术官方解读,支持智能提取图片中的表格
如果有更好的建议或者想看更多关于生活常识技术大全及相关资讯,可以多多关注茶馆百科网。

小米创始人、董事长兼首席执行官雷军通过社交媒体表示,小米工程师开发了一种表格识别算法,可以高效准确地将图片中的表格转换为可编辑的Excel文件,极大地改善了用户体验。
同时,小米技术官方还发布了一份文件,了解了表单识别算法的一些技术实现原理,涉及到总体框架、表单检测算法、表单识别算法、对齐算法等内容。
以下是小米技术的官方解读:
表格识别是指将图片中的表格结构和文本信息识别成计算机可理解的数据格式,在办公、商业、教育等场景中具有广泛的实用价值,一直是文档分析和研究的热点问题。围绕这个问题,我们开发了一套表格识别算法,可以高效准确地提取图像中的表格,并将其转换为可编辑的Excel文件。目前,该算法已成功登陆小米10S系列、MIX Fold 2等旗舰机型。您可以从相册-更多-表中识别它,或扫描它以进入体验。
图1雷军在MIX Fold 2发布会上介绍小米表单识别算法
人民日报的办公文书大多以表格和文件为主,其中表格的重要性是毋庸置疑的。Excel和WPS是跨行业桌面办公场景中电子表格的事实上的标准。我们经常遇到需要将表格图像的内容导入Excel的情况。
过去,我们只能逐图一点一点地将内容输入到Excel中,效率低下,容易出错。近年来,随着技术的发展,OCR(光学字符识别)的可用性得到了提高。在OCR软件的帮助下,用户可以自动从图片中提取文本信息。
然而,对于表格场景,仅提取文本是不够的,用户必须手动重复复制和粘贴以恢复电子表格,这仍然消耗大量时间。因此,我们实现了一套表图像提取方案,可以有效地提高用户的办公效率。图2显示了我们的识别效果:
图2表识别效果显示
图3给出了我们目前算法的总体框架,主要包括移动表检测算法和服务器表识别算法。
图3表格识别技术框架
表检测算法主要是从图像中准确提取表区域,对表进行校正,得到平面的表图像,进行下一步的表识别;表格识别算法主要是从图片中提取表格结构和表格文本内容,然后将这些信息有效地组合在一起,输出可编辑的Excel表格。下面详细介绍表检测算法和表识别算法。
一、背景
表单检测存在以下困难:一方面,手机上的算法和内存有限,另一方面,表单检测结果要求非常高,表单周围往往包含其他单词,如果检测结果不正确,会对后续的识别结果造成负面影响。我们的表检测算法可以同时检测表的面积和表的四个角点。通过透视变换和我们自主研发的抗畸变算法,得到了一个只有表面积的平面表格,效果如图4所示。
表检测算法框架如图5所示。由于算法运行在移动端,需要保证运行速度和模型大小,所以我们使用了非常轻量级的单阶段检测框架。shuffleNetV2由骨干网使用。当检测到表框架时,返回关键点信息,以方便表的透视校正。采用机翼损失代替L1损失,使关键点回归更加准确。在数据方面,该算法以较低的成本从公共数据中挖掘出大量的表单检测数据,显著提高了表单检测效果。最终型号的尺寸约为1M,在小米手机上运行顺畅。
图5表检测算法框架
表识别算法如图3所示。该算法运行在服务器端,主要包括以下几个模块:文本检测、文本识别、表格结构预测、单元格匹配、对齐算法和Excel导出。文本检测识别模块采用的是我们之前上线过的OCR服务,这里就不介绍了。下面主要介绍表结构预测算法和Cell坐标聚合算法。在数据方面,由于表数据标注困难,我们完成了一套表渲染工具,可以综合各种样式的表数据,大大降低标注成本。
表格样式多样,如有线表格、无线表格、赛格威表格等,表格中有很多复杂的组合单元;此外,图片中包含阴影、光线、失真、变形等,这也增加了表预测的难度。以往关于表结构预测的研究很多,都是基于传统的算法提取表行,然后从表行中推断出行、列和合并单元格的信息。在目标检测的基础上,对单元格进行检测,通过后处理方法对单元格进行组织,恢复表结构。在语义分割的基础上,对表行进行分割,然后对分割结果进行后处理,恢复表的结构。以上算法都有一个共同的问题。后处理复杂,鲁棒性差。通常,需要对特定表的算法进行调整。
目前,主要的方法是使用HTML超文本来表示表格,然后对HTML进行编码来预测HTML序列和相应的坐标信息。该方法在开源数据集上取得了很好的效果。中国平安科技和百度也采用了这种方案,但是HTML中标签过多导致表结构识别错误。针对该方法的不足,我们采用了一种新的表编码方法,只需四个标签即可表示任意结构的表,大大提高了表结构的识别精度。
如图6所示,表被定义为M*N个单元格的矩阵,具有内部合并的单元格组成。0:普通单元格。1:表示左归并单元格。2:向上归并单元格。每个单元格对应一个坐标框,以便后续的OCR识别结果与之匹配。这个定义的优点是:没有人为的语法规则;数据组织具有自然的二维对齐属性,使网络不易发生漂移。几个标签就可以恢复任何表结构,不存在开集分类问题。
图6表结构定义
我们采用表结构预测框架,如图7所示。该方法基于cnn+变压器解码器的图像到序列学习网络。在解码阶段,包含两个预测头,分别预测表序列和表单元的坐标信息。
图7表结构预测框架
表结构的效果如图8所示。表结构识别算法预测每个细胞的位置信息和每个位置对应的序列信息。图8周围的两个图是一一对应的。相同颜色的检测框对应右侧的Cell。细胞是有序的。
图8表结构识别效果展示
在部署过程中,采用了Fastertransformer推理框架进行加速,我们的推理速度提高了约20倍,显著改善了用户体验。
Cell坐标聚合算法主要是将文本检测到的内容与表格预测的Cell正确匹配。算法过程如图9所示。文本框与单元格框匹配。最大的借据首先匹配。如果IOU=0,则两个盒子中最近的中心是匹配的。如果单元格包含多个文本框的结构,则应按单元格内的顺序读取输出,并应实现智能换行以改善用户体验。
0
最后,我们的算法在表结构提取和端到端表恢复精度方面领先于业内主要竞争对手。
以上算法基本恢复了表信息。但是,同一表中单元格的对齐方法是不同的。“左对齐”、“右对齐”和“中对齐”可能同时存在。我们设计了一套对齐算法,通过分析表格中单元格的位置信息,实现自动对齐,完全还原真实表格,显著提升用户体验。对齐算法的效果如图10所示:
图10对齐算法效果
本文主要介绍了关于小米表格识别技术官方解读,支持智能提取图片中的表格的相关养殖或种植技术,生活常识栏目还介绍了该行业生产经营方式及经营管理,关注生活常识发展动向,注重系统性、科学性、实用性和先进性,内容全面新颖、重点突出、通俗易懂,全面给您讲解生活常识技术怎么管理的要点,是您生活常识致富的点金石。
以上文章来自互联网,不代表本人立场,如需删除,请注明该网址:http://23.234.50.4:8411/article/1486392.html