查 询 高级检索+
共找到相关记录1条
    全 选
    显示方式:|
    • 针对模板生成网页的一种数据自动抽取方法

      2008, 19(2):209-223.

      关键词:Web自动数据抽取信息抽取模板发现Wrapper生成
      摘要 (8859)HTML (0)PDF 871.10 K (8142)收藏

      摘要:当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于列表页面和详细页面两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率.

    上一页1下一页
    共1页1条记录 跳转到GO
出版年份

您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号