TA的每日心情 | 难过 20 小时前 |
---|
签到天数: 45 天 [LV.5]常住居民I
超级版主
 
- 积分
- 304533
|
非基于DOM的W页面提取技术比较著就是微软亚洲研究院提出的VIPS基于视觉的页分块算法。该算法从用户的视觉感官体验出发,根据W页面的背景色、前景色、元素之间的间距来对W页面进行视觉划分,建立相应的分割条和页分块集,基于此基础再进行文本信息的抽取,算法规则十分复杂。目前很多W页面的视觉特点也很复杂,VIPS算法针对此类页面时准确率和效率较差。因此,高乐等人提出一种改进的VIPS算法,算法针对标签的处理进行化处理,并通过验证明了改进算法正确率得到了提升。此外,还有一些不基于DOM树对页文本提取的方法,例如《基于权值化的页正文内容提取算法》的通过统计分析W页面正文内容特点,得到页面中各个文本内容块属性特征,并使用粒子群化算法对特征权值及阈值进行了确定及化。 |
|