心情碎语:暂无碎语

您的位置:慕轲博客 >建站心得> 百度蜘蛛不一定喜欢所有的食物

百度蜘蛛不一定喜欢所有的食物

有的时候,一个网站并不是所有页面都希望被收录,如正在测试的页面,死链接,复制页面等等。这些页面抓取会消耗搜索引擎分配给网站的总抓取时间,造成真正有意义的页面反倒不能被抓取和收录。

c1d02555xd3dd69901512&690.png

如果通过检查日志文件发现这些无意义的页面被反复大量抓取,想要收录页面却根本没被抓取过,那应该直接禁止抓取无意义的页面。抓取和收录是不同的两个过程。要确保页面不被抓取,需要使用robots文件。

搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。

6597612925400860960.jpg

一、现在教大家使用几个常用的robots指令:

A:允许所有搜索引擎抓取所有页面和内容

User-agent:*

Allow:/

B:禁止所有搜索引擎抓取所有页面和内容

User-agent:*

Disallow:/

C:禁止网站某一个页面被抓取(比如该页面是“ xinwen”)

User-agent:*

Allow:/

Disallow/xinwen/

... ...

当然robots还有很多指令叔就不一一列举了,想要了解更多的请订阅叔。

robots文件一定要根据自身网站的抓取收录情况来设置,需要查看网站日志,看看蜘蛛抓取了哪些页面,这些页面是否对网站整体流量排名有作用?实际情况实际分析。

二、网站地图:

Sitemap.png

这里说的网站地图不是网站上面显示公司地址的百度地图。正解如下:

(一)定义:网站地图,又称站点地图,它就是一个页面,上面放置了网站上需要搜索引擎抓取的所有页面的链接(注:不一定是所有页面),是网站所有链接的容器,蜘蛛非常喜欢网站地图。

网站地图是一个网站所有链接的容器。很多网站的连接层次比较深,蜘蛛很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,网站地图一般存放在根目录下并命名为sitemap,为搜索引擎蜘蛛指路,增加网站重要内容页面的收录。网站地图就是根据网站的结构、框架、内容,生成的网站导航网页文件。

(二)形式:

1.HTML版本,是用户可以在网站上看到的、列出网站上所有主要页面链接的页面。这个根据你网站的情况而定,如果导航太多,内容太多,可以列出一个主要页面的网站地图方便用户浏览。

普通Html格式的网站地图,类似 http://www.amuker.com/sitemap.html ,它的目的是帮助用户对站点的整体有个把握。Html格式的网站地图根据网站结构特征制定,尽量把网站的功能结构和服务内容富有条理地列出来。一般来说,网站首页有一个链接指向该格式的网站地图。

2.XML版本,sitemap.xml。是搜索引擎蜘蛛抓取的地图,网站地图给蜘蛛爬行构造了一个方便快捷的通道。

XML Sitemap 通常称为Sitemap(首字母大写 S),而不叫“网站地图”。类似:http://www.amuker.com/sitemap.xml 简单来讲,Sitemap 就是网站上链接的列表。制作Sitemap,并提交给搜索引擎可以使网站的内容完全被收录,包括那些隐藏比较深的页面。这是一种网站与搜索引擎对话的好方式。

(三)作用:大多数人都知道网站地图对于提高用户体验有好处:它们方便蜘蛛爬行,方便访客浏览网站,可以提高网站的权重同时提高网站的收录率,为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。对于SEO,网站地图的好处就更多了:

为搜索引擎蜘蛛提供可以浏览整个网站的链接简单的体现出网站的整体框架出来给搜索引擎看;

为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面;

作为一种潜在的着陆页面,可以为搜索流量进行优化;

如果访问者试图访问网站所在域内并不存在的URL,那么这个访问者就会被转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容。

(四)技巧:网站地图的作用非常重要,它不仅要满足访问用户的需求,还要取悦搜索引擎蜘蛛。在设计上也有一些技巧来让用户和蜘蛛都获得满意:

1.网站地图要包含最重要的一些页面

如果网站地图包含太多链接,人们浏览的时候就会迷失。因此如果网站页面总数超过了100个的话,就需要挑选出最重要的页面。建议挑选下面这些页面放到网站地图中去:

产品分类页面。

主要产品页面。

FAQ和帮助页面。

位于转化路径上的所有关键页面,访问者将从着陆页面出发,然后沿着这些页面实现转化。

访问量最大的前10个页面。

如果有站内搜索引擎的话,就挑选出从该搜索引擎出发点击次数最高的那些页面。

2.网站地图布局一定要简洁,所有的链接都是标准的HTML文本,并且要尽可能多的包含关键字

不要使用图片来做网站地图里的链接,这样蜘蛛就不能跟随了。一定要使用标准的HTML文本来做链接,链接中要包括尽可能多的目标关键字。比如:可以使用“网站优化、网络营销和网站运营”来代替“我们的服务”为标题。

3. 尽量在站点地图上增加文本说明

增加文本会给蜘蛛提供更加有索引价值的内容,以及有关内容的更多线索。为了使网站地图吸引网络蜘蛛与访问者,一定要在链接后写上一定的描述性的短句和与此链接相关的关键词,切记不要使用过多的关健词。

4. 在每个页面里面放置网站地图的链接

用户一般会期望每个页面的底部都有一个指向网站地图的链接,你可以充分利用人们的这一习惯。如果网站有一个搜索栏的话,那么可以在这个搜索栏的附近增加一个指向网站地图的链接,甚至可以在搜索结果页面的某个固定位置放置网站地图的链接。

5. 确保网站地图里的每一个链接都是正确、有效的

如果在网站地图里出现的链接是坏链和死链,对搜索引擎的影响是非常不好的。如果链接比较少,你可以把所有的链接都点一遍,以确保每一个链接是有效的。如果链接比较多,可以使用一些链接检查工具来检测。

6. 可以把sitemap写进robots.txt里

在引擎爬虫进来抓取网页的时候,会首先查看robots.txt、如果首先把sitemap写进robots.txt里那么在效率上会大大提高,从而获得搜索引擎的好感。格式为:Sitemap: http://www.amuker.com/sitemap.xml。

(五)生成与提交:可以通过软件sitemapx生成,比较方便的软件,也可以通过百度站长工具去提交。网上有很多sitemap地图生成的方法,比如在线生成、软件生成等,sitemap地图可以提交给各大搜索引擎,从而使搜索引擎更好的对网站页面进行收录,我们也可以通过robots.txt来告诉搜索引擎地图的位置。将制作好的网站地图上传至网站根目录下,最关键是把网站地图链接地址加入在robots文件中以及做好网站地图在页面方便蜘蛛抓取的位置,一般把网站地图放在页眉和页脚位置。

1.普通Html格式的网站地图

它的目的是帮助用户对站点的整体有个把握。Html格式的网站地图根据网站结构特征制定,尽量把网站的功能结构和服务内容富有条理地列出来。一般来说,网站首页有一个链接指向该格式的网站地图。

2.XML Sitemap 通常称为Sitemap(首字母大写 S)

简单来讲,Sitemap 就是网站上链接的列表。制作Sitemap,并提交给搜索引擎可以使网站的内容完全被收录,包括那些隐藏比较深的页面。这是一种网站与搜索引擎对话的好方式。

3.搜索引擎识别的地图

因为每个搜索引擎主要识别地图格式效果不同,建议分别采用以下格式:

百度:建议使用Html格式的网站地图

Google:建议使用Xml格式的网站地图

Yahoo:建议使用Txt格式的网站地图

Sitemap-网站地图分类

96f0004430d766d39de.jpg

(六)总结:以上我们了解到网站地图即站点地图,它就是一个页面,上面放置了网站上所有页面的链接。大多数人在网站上找不到自己所需要的信息时,可能会将网站地图作为一种补救措施。搜索引擎蜘蛛非常喜欢网站地图。

通过提交XML网站地图通知搜索引擎要收录的页面,只能让搜索引擎知道这些页面的存在,并不一能保证一定被收录,搜索引擎还要看这些页面的权重是否达到收录的最低标准。所以网站地图只是辅助的办法,不能代替良好的网站结构。


---

转载请注明本文标题和链接:《百度蜘蛛不一定喜欢所有的食物