星空网站建设

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 7|回复: 0

看看手机网站建设网页正文内容抽取方法

[复制链接]
  • TA的每日心情
    难过
    20 小时前
  • 签到天数: 45 天

    [LV.5]常住居民I

    10万

    主题

    36

    回帖

    30万

    积分

    超级版主

    Rank: 8Rank: 8

    积分
    304533
    发表于 2025-8-7 11:34:40 | 显示全部楼层 |阅读模式

    非基于DOM的W页面提取技术比较著就是微软亚洲研究院提出的VIPS基于视觉的页分块算法。该算法从用户的视觉感官体验出发,根据W页面的背景色、前景色、元素之间的间距来对W页面进行视觉划分,建立相应的分割条和页分块集,基于此基础再进行文本信息的抽取,算法规则十分复杂。目前很多W页面的视觉特点也很复杂,VIPS算法针对此类页面时准确率和效率较差。因此,高乐等人提出一种改进的VIPS算法,算法针对标签的处理进行化处理,并通过验证明了改进算法正确率得到了提升。此外,还有一些不基于DOM树对页文本提取的方法,例如《基于权值化的页正文内容提取算法》的通过统计分析W页面正文内容特点,得到页面中各个文本内容块属性特征,并使用粒子群化算法对特征权值及阈值进行了确定及化。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表