前几天我还说我的网站搞了这么多的原创内容,还交换了一些友情链接、发了不少的外链,但是始终没有看到百度蜘蛛主动抓取我的网页。这不,昨天已经来了大量的百度蜘蛛,完全是自然抓取的,几乎每隔1分钟就会来多次访问,这不禁让我欣喜若狂。毕竟之前出现这种迹象时,我的网站都会很快被百度收录。那么百度蜘蛛大量多频次抓取之后,究竟多久才会收录呢?
其实百度蜘蛛大量多频次抓取之后,一般不会超过一周时间就能被百度收录。
当然了,下这个结论不仅是有实践经历的,也是有理论支撑的。
百度蜘蛛抓取是收录的先行官,是搜索引擎收集数据、建立索引、筛选网页的基础。我们先来看一下百度从蜘蛛爬取到收录索引之间经历了什么。
1、爬行和抓取
百度蜘蛛的抓取就好比是“顺藤摸瓜”,它顺着一定集合中的网址链接不断进行爬行,抓取链接所对应的页面内容,包括文本、图片、链接等。在蜘蛛抓取过程中,它还会注意网站的结构,屏蔽一些无法识别出来的FLASH、JS等等影响抓取效率的内容。
2、存储
蜘蛛将抓取到的页面内容存储到原始数据库中,这时并不意味着就会被收录,而是方便接下来的操作。
3、预处理
搜索引擎收录机制会将抓取入库的内容进行分析、去重、对比等等,还会检测网页内容的原创性和质量,如果网站权重低且内容多为抄袭,则可能不被收录。
4、建立网页索引
搜索引擎机制通过分词技术,把抓取过来的内容简化到关键词,并且和其对应的网址制成表格建立索引。
总的来说,从百度蜘蛛抓取到网页到被收录之间,经历了爬行抓取、存储、预处理、信息过滤、建立索引等多个步骤,我们要想推测网页是否会被收录,需要了解百度蜘蛛的工作原理,了解百度蜘蛛的抓取频率和深度,优化网站结构和内容质量,千方百计地去提高网站的抓取频率。
本文网址:http://www.xalmi.com/article/190.html转载请注明出处!文章内容为作者原创或者采编,不代表本站立场,如有侵犯,请联系a5b5_su@163.com。