有关河北百度爱采购搜索数据的查询

日期:2020年05月15日 /人气: /来源:本站原创

    河北百度爱采购希望能够将某个垂直网站数据库的记录尽可能多地下载到索引库中,但这是有约束和前提条件的,即不能给被访问网站造成过大的访问压力,同时尽可能节省爬虫本身的资源。垂直搜索网站往往会给用户提供多个查询输入框,不同输入框代表了搜索对象某方面的属性,通过组合这些属性来将搜索范围缩小。对于暗网爬虫来说,一个简单粗暴的方式就是:将各个输入框可能的输入值组合起来形成查询,比如对于机票查询来说,将所有出发城市、所有目的城市和时间范围的选项——组合,形成大量的查询,提交给垂直搜索引擎,从其搜索结果里提炼数据库记录。这么做比较野蛮,而且也不是很必要,因为很多组合是无效的,大量的返回结果为空,同时对被访问网站造成了巨大的流量压力。对时于个固定的垂直搜索来说,其查询模板组合起来有很多我们的任务是找到高含信息的查询模板,那么什么又是富含信迿模板呢?河北百度爱采购的技术方案是如此定义的:对于菓固定的査询模板来说,如果给模板内毎个属性都赋值,形成不同的査询组合,提交给垂直搜索引擎,观察所有返回页面的内容,如果相互之间内容差异较大,则这个查询模板就是富含信息查询模以模板2为例说明,其包含了两个属性:职位类别和行业类别。职位类别有3种不同赋值,行业类别有2种不同赋值,两者组合有6种不同的组合方式,形成这个模板的6个查询。将这6个查询分别提交给职位搜索引擎,观察返回页面内容变化情况,如果大部分返回內容都相同或相似,则说明这个查询模板不是富含信息查询模板,否则可被认为是富含信息查询模板。
    之所以做如此规定,是基于如下考虑:如果返回结果页面内容重复太多,很可能这个查询模板的维度太高,导致很多种组合无搜索结果,抑或构造的查询本身就是错误的,搜索系统返回了错误页面。假设按照上面方式对所有查询模板——试探,判断其是否富含信息查询模板,则因为査询模板数量太多,系统效率还是会很低。为了进一步减少提交的查询数目,河北百度爱采购的技术方案使用了ISIT算法。SI算法的基本思路是:首先从一维模板开始,对维査询模板逐个考察,看其是否富含信息查询模板,如果是的话,则将这个—维模板扩展到二维,再次依次考察对应的二维模板,如此类推,逐步增加维数,直到再也无法找到富含信息查询模板为止。通过这种方式,就可以找到绝大多数富含信息查询模板,同时也尽可能减少了提交的查询总数,有效达到了目的。Google的评测结果证明,这种方法和完全组合方式比,能够大幅度提升系统效率。如果读者对于数据挖掘有所了解,可以看出,河北百度爱采购提出的算法和数据挖掘里经典的Apriori规则挖掘算法有异曲同工之一。在爬虫运转起来之前,因为对目标网站一无所知,所以必须人工提供一些提示。
    在此例中,通过人工观察网站进行定位,提供个与网站内容相关的初始种子查询关键词表,对于不同的网站,需要人工提供不同的词表,以此作为爬虫能够继续工作的基础条件。爬虫根据初始种子词表,向垂直搜索引擎提交查询,并下载返回的结果页面。之后从返回结果页面里自动挖掘出相关的关键词,并飛成—个新的查询列表,依次将新挖掘出的查询提交给搜索引擎。如此往复,直到无法下载到新的内容为止。通过这种人工启发结合递归迭代的方式,尽可能覆盖数据库里的记录。对于商业搜索引擎来说,分布式爬虫架构是必须采用的技术。面对海量待抓取网页,只有采取分布式架构,才有可能在较短时间内完成—轮抓取工作。分布式爬虫可以分为若干个分布式层级,不同的应用可能由其中部分层级构成,是一个大型分布式爬虫的3个层级分布式数据中心、分布式抓取服务器及分布式爬虫程序。整个爬虫系统由全球多个分布式数据中心共同构成,每个数据中心负责抓取本地域周边的互联网网页,比如欧洲的数据中心负责抓取英国、法国、德国等欧洲国家的网页,由于爬虫与要抓取的网页地缘较近,在抓取速度上会较远程抓取快很多。

作者:chuangxinkeji

上一页: 有关河北百度爱采购的经营思路   下一页: 怎样及时获取河北百度爱采购产品的动态特征?