用Java语言编写的印刷体科技文档识别系统:MathOCR
MathOCR是一个用Java语言编写的印刷体科技文档识别系统,在GNU通用公共许可证版本3或(按你的意愿)更新版本下发布。
MathOCR具备基本的图形预处理、版面分析和字符识别能力,特别是能够识别数学公式。MathOCR可以不依赖于标准Java库以外的库而独立工作,但也可以作为Tesseract、GNU Ocrad或GOCR等OCR系统的前端。
MathOCR项目在2014年作为中山大学大学生创新训练计划项目《图片中数学公式的自动识别》的副产物而于2014年3月开始开发,同年9月发布首个版本,是少有的作为自由软件的印刷体数学公式识别系统。其后,在2014年12月至2015年4月又作为开发者的本科毕业论文项目加入了文档逻辑版面分析功能,从而扩展为一个印刷体科技文档识别系统。
项目主页:http://www.open-open.com/lib/view/home/1431671376591
本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!