摘要:模型未知表格的分析是表格识别中文本分析阶段的一个重要且具有挑战性的问题.目前的一般方法仅能容忍表格线的微小断线.文章提出一种基于抽取表格线的分析结构未知表格的策略.利用抽取的表格线的特征知识和局部约束可以选择一些有效边.在扫描水平和垂直表格线时,如果环绕边都有效,则产生一个矩形块,引入迭代可以更好地利用全局信息并使抽取结果满足约束关系.这种矩形块的抽取可以容忍表格线大的断线或不合适的分割,可以处理诸如嵌入矩形块的复杂结构.矩形块被抽取后,表格的其他部件可以通过搜索剩余的部分来抽取.表格测试实验证明,该方法