5月7日,由中国图像图形学学会(CSIG)主办、金山办公承办的“CSIG企业行”系列活动在珠海金山软件园成功举行。活动以“AI大模型时代文档识别和理解前沿技术探讨”为主题,特邀来自中科院、北京科技大学、华中科技大学、华南理工大学等院校的专家学者,与金山办公技术团队共同探讨文档识别领域的前沿技术研究及实践成果。
ChatGPT的问世,引发了大众对AI大模型技术的关注。金山办公副总裁姚冬在致辞中表示,金山办公自2017年就创立了AI团队,多年来持续深耕AI技术的研发和落地。目前的大模型技术不仅可以理解人类的语言,还可以进行推理甚至写代码等创意性工作,对传统技术领域带来了巨大挑战和机遇。金山办公不久前在产品中落地的部分新功能,正是源于对大模型技术的研究成果。
中国科学院自动化研究所副所长刘成林表示,大模型时代的开启为文档识别带来了新的机遇和挑战。从早期的单字识别到字符串整体识别,再到手写文档版面分析和自然场景、视频文本中的文本检测,文档识别目前已历经三个研究阶段。而近年来人工智能深度学习等技术的成熟,使大模型成为文档识别与理解的全新研究方向。
针对文字的识别技术,北京科技大学计算机与通信工程学院院长殷绪成表示,ChatGPT在问世后之所以表现出色,正是源于其积累了大批高质量的训练数据,而开放集模式识别,是文字识别未来的一条技术新路径。
华中科技大学白翔教授针对视觉与语言模型的研究做了详细介绍,他认为这几年多模态和跨模态对各个领域都带来非常深远的影响,各行各业围绕大模型去做定制化方案,包括对大模型本身进行调整,都有重要意义。
华南理工大学金连文教授分享了面向文档图像的篡改文本检测的最新研究成果,金连文教授表示,SSL OCR 技术(使用SSL加密协议的OCR技术)、大模型与OCR结合、视觉大模型等是值得关注的技术方向。AI大模型技术无论是在垂直领域还是通用领域,均具备很大发展空间。
除前沿理论研究分享外,金山办公CV技术总监熊龙飞以扫描件PDF编辑为案例,分享了AI大模型时代文档识别技术的最新实践成果:扫描件PDF编辑新模态。扫描件PDF因变成了图片,其排版、内容、字体、段落等信息丢失,还可能存在污染、变形、对象层叠等问题,解决这些挑战对算法和服务架构有非常高的技术要求,金山办公经过多年研发已经将该领域做到了令人耳目一新的效果。据了解,该功能已于2023年3月逐步上线,在未来还将持续迭代。
针对大模型技术的实际应用,姚冬表示,大模型技术不仅可极大提高办公软件的工作效率,同时此类软件庞大的基础用户量,又为不断改进大模型提供了数据支撑。“金山办公在这个领域扮演的角色就是落地应用,金山办公具备大量的功能API接口,通过结合大模型可以调动这些能力,实现很多对用户很便利的功能。这些API能力背后是金山办公35年来在文档处理和排版领域的技术积累。”
据悉,金山办公基于大语言模型的人工智能应用“WPS AI”,第一站搭载在金山办公在线内容协作编辑产品轻文档上,未来WPS AI还将以用户体验为优先级,逐步嵌入金山办公全线产品。