• 注册
    • 查看作者
    • 深入了解搜索引擎算法的网页去重原理

        在互联网技术比较发达的今天,相同资料会在多个网站更新,相同新闻报道会被绝大多数媒体网站报导,加上小站长和SEO人员不辞劳苦地进行网络收集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键字时,搜索引擎必然不愿展现给用户的百度搜索都是相同的内容。抓取这些重复的网页页面,在一定实际意义上就是对搜索引擎自身资源的浪费,因此除去重复内容的网页页面也变成搜索引擎所遭遇的的一大问题。

        在一般的搜索引擎架构中,网页页面去重复一般在Spider抓取部分就存在的,去重复步骤在整个搜索引擎架构中执行的越快,越可以节省后续处理系统的资源。搜索引擎一般会对已经抓取过的重复页面进行分类处理,例如,判断某个站点是否包括大量的重复页面,或者该站点是否完全收集其他站点的内容等,已决定之后对该站点的抓取情况,或者决定是否直接屏蔽掉抓取。

      深入了解搜索引擎算法的网页去重原理

        去重复的工作一般会在词性标注之后和数据库索引之前进行(也有可能在词性标注之前),搜索引擎会在页面已经分离出来的关键字中,获取部分具有象征性的关键字,随后计算这些关键字的“指纹”。每一个网页页面都会有一个这样特点指纹,当新抓取的网页页面的关键字指纹和已索引网页页面的关键字指纹有重叠时,那么该新网页页面就可能会被搜索引擎视作重复内容而舍弃数据库索引。

        实际工作上的搜索引擎,不仅使用词性标注步骤所分离出来的更有意义的关键字,还会使用持续激光切割的方式获取关键字,并进行指纹计算。持续激光切割就是以单独字向后移动的方式进行切词,例如,“百度搜索开始严厉打击买卖链接”会被切割成“百度搜索开”“度开始”“开始打”“始严厉打击”“严厉打击买”“击交易”“交易链”“卖链接”。随后从这些词中获取部分关键字进行指纹计算,参加是不是重复内容的对比。这只是搜索引擎鉴别重复网页页面的基本算法,还有很多其他应对重复网页页面的算法。

        因此网络上流行的绝大多数伪原创工具,不是不能蒙骗搜索引擎,就是把内容做的完全读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常百度收录和排行。但是由于并不是对所有的重复页面都直接抛下不索引,而是会根据重复网页页面所属网站的权重值适度放开索引标准。

        另外,不仅是搜索引擎需要网页页面去重复,自己建网站也需要对同站页面进行去重复。

      本文源自互联网转载,不代表本站观点

    • 0
    • 0
    • 0
    • 52
    • 请登录之后再进行评论

      登录
    • 单栏布局 侧栏位置: