水工混凝土材料非结构化文本解析与表格数据库构建Unstructured text analysis and table database construction of hydraulic concrete materials
杨华美,刘乐平,李文伟,邓旭方,李曙光,陈正虎,邓伦
摘要(Abstract):
在水利工程历史建设过程中,受到文本信息化水平的限制,积累了大量以纸质文本和扫描图像形式保存的水工混凝土材料不可编辑文档,难以直接有效利用材料数据,极大增加了材料知识应用的难度。提出一种基于机器视觉和深度学习的文档解析方法,准确高效地将水工混凝土材料文本信息和表格数据转化为可编辑形式。进一步,基于已解译的表格信息,构建了水工混凝土材料表格数据库,实现了混凝土材料数据的高效查询和统一管理。以实际工程的水工混凝土材料文档为例验证新方法的可行性,结果表明,文档解析方法各项子任务的准确率均达90%以上,有助于混凝土材料不可编辑资源的自动化再利用。
关键词(KeyWords): 水工混凝土材料;版面结构划分;文本检测与识别;表格数据库
基金项目(Foundation): 中国长江电力股份有限公司科研项目资助(Z212302036)
作者(Author): 杨华美,刘乐平,李文伟,邓旭方,李曙光,陈正虎,邓伦
DOI: 10.13928/j.cnki.wrahe.2025.S2.016