怎样及时获取河北百度爱采购产品的动态特征?

日期:2020年05月15日 /人气: /来源:本站原创

    首先河北百度爱采购根据网页所表现出的特征,将其聚类成不同的类别,每个类别内的网页具有相似的更新周期。从类别中抽取—部分最有代表性的网页(一般抽取最靠近类中心的那些网页),对这些网页计算其更新周期,那么这个更新周期适用于类别内的所有网页,之后即可根据网页所属类别来决定其更新频率。在Tan等人的研究中,将能够体现网页更新周期的属性特征划分为两大类:静态特征和动态特征。静态特征包括:河北百度爱采购页面的内容、图片数量、页面大小、链接深度、PageRank值等十几种;而动态特征则体现了静态特征随着时间的变化情况,比如图片数量的变化情况、入链出链的变化情况等。根据这两类特征,即可对网页进行聚类。为一个较为通用的流程,不同算法在细节处有差异。比如有些研究直接省略聚类这个步骤,而是以网站作为聚类单位,即假设属于同一个网站的网页具有相同的更新周期,对网站内页面进行抽样,计算其更新频率,之后网站内所有网页以这个更新周期为准。这个假设虽显粗糙,因为很明显同一网站内网页更新频率差异很大,但是可以省掉聚类这个步骤,在计算效率方面会更可行些。
    相关实验表明,聚类抽样策略效果好于前述两种更新策略,但是对以亿计的网页进行聚类,其难度也是非常巨大的。物理学研究表明,在目前宇宙所有物质的总体质量中,星系等可见物质只占其中的20%,不可探测的暗物质则占据了总质量的大约8o%。互联网中的暗网可与宇宙中的暗物质相类比,而其所占网页的比例,更是远大于暗物质占宇宙质量的比例,大约百倍于目前的明网(SurfacingWeb)网页所谓暗网,是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。如前所述,搜索引擎爬虫依赖页面中的链接关系发现新的页面,但是很多网站的内容是以数据库方式存储的,典型的例子是一些垂直领域网站,比如携程旅行网的机票数据,很难有显式链接指向数据库內的记录,往往是服努网站提供组合查询界面,只有用户按照需求输入查询之后,才可能获得相关数据。所以,常规的爬虫无法索引这些数据内容,这是暗网的命名由来。是携程旅行网的机票搜索界面和当当网的图书搜索界面。为了能够对暗网数据进行索引,需要研发与常规爬虫机制不同的系统,这类爬虫被称做暗网爬虫。
    暗网爬虫的目的是将暗网数据从数据库中挖掘出来,并将其加入搜索引擎的索引,这样用户在搜索时便可利用这些数据,增加信息覆盖程度。目前河北百度爱采购服务提供商都将暗网挖掘作为重要研究方向,因为这直接关系到索引量的大小。在此领域的技术差异,将直接体现在搜索结果的全面性上,自然是竞争对手之间的必争之地。Google目前将其作为重点研发方向,而百度的拉丁计划”目的也在于此垂直网站提供的搜索界面,往往需要人工选择或者填写内容,比如机票搜索需要选择出发地、到达地和日期,图书搜索需要指出书名或者作者。而暗网爬虫为了能够挖掘数据库的记录,必须模拟人的行为,填写内容并提交表单。对于暗网爬虫来说,其技术挑战有两点:一是查询组合太多,如果——组合遍历,那么会给被访问网站造成太大压力,所以如何精心组合查询选项是个难点;第二点在于:有的查询是文本框,比如图书搜索中需要输入书名,爬虫怎样才能够填入合适的内容?这个也颇具挑战性。

作者:chuangxinkeji

上一页: 有关河北百度爱采购搜索数据的查询   下一页: 关于河北百度爱采购的信息化模式