原理:百度蜘蛛每爬行一次,分别将网页从数据库中根据原始网页的程度和重要性对其进行索引。每个词都需要被索引。
第一,先来了解百度搜索引擎对网页内容的索引机制,即对互联网进行索引的技术分为:目标存储和内部网两个部分。
地址(Cerage)文件的逻辑
这里的路径主要指网站的链接路径中产生的内容,主要包括:内部链接路径、页面网址等。
内部网逻辑示意说明:
第二,静态页可以轻松被百度爬虫检索到,这就是静态页的优势。
我们的网页内容就好像一个静态的web页面,我们肯定希望将所有页面的链接路径都检索到,不仅如此,还可能会出现例如链轮等现象。每当浏览器解析静态页面,百度蜘蛛将试图抓取html、htm、php等页面的内容。这使得百度蜘蛛无法很好地抓取静态页面内容,这就减少了搜索引擎中页面的数据存储量。
1、动态页面会占用很多资源,不仅花费时间,而且会影响网页的更新速度。
2、对于动态网页,百度蜘蛛在抓取内容时需要进行二次分析。在查询动态网页时,只有2个步骤,要么进行伪静态,要么进行转换成伪静态。如果您的动态页面访问量更大,应该尽可能减少程序的请求量。
3、尽量避免使用动态页面。人们在使用百度时喜欢首先打开动态页面,主要原因是因为网站中几个产品页面的链接页面很少,排名不可能很好。设置伪静态页面时,要尽可能保证用户打开页面所调用的动态页面只有1个,否则会减慢页面打开速度。