揭秘:揭开百度快照回档、日期不同的真正原因
发布时间: 2011年6月22日
浏览: 9120
近期,有不少网友反映在使用百度搜索时,发现网页的快照回档、日期不同。在百度搜索引擎日益重要的今天,网友们的这种反映引起了人们的关注。于是,我们专门安排了专业人员对此进行了深入调查,并将结果分享给大家。
我们首先对百度搜索的快照回档进行了测试。结果表明,快照回档的原因并不是由于百度算法的调整导致的。相反,问题出现在网站的服务器上。我们发现,部分网站并没有开启HTTP协议中的“缓存控制”,这使得百度爬虫在抓取网站页面时,会将原来已经抓取的页面覆盖掉,从而导致快照回档的问题。
除此之外,我们还发现一些网站的快照日期和实际更新日期不符。这主要是由于网站管理员经常对网站进行二次开发和调整,在这个过程中,网站的URL和页面结构发生了变化。然而,由于百度爬虫并不是每次都会重新抓取所有页面,而是会优先抓取已经封存的快照,所以会出现快照日期与实际日期不符的情况。
对此,我们给出以下建议:
1.网站管理员应当开启HTTP协议中的“缓存控制”,保证百度爬虫抓取的是最新版本的网页。
2.网站管理员在进行开发和调整时,应当避免修改URL和页面结构,这样能够避免快照日期与实际日期不符的问题。
快照回档和日期不同并不是百度搜索算法调整的结果,而是网站管理不当所导致的问题。只有网站管理员和百度爬虫共同努力,才能建立一个完善的网络生态系统。