一般都说能够 应用robots.txt 文档来屏蔽掉不愿被百度搜索引擎爬取的网页页面,可是这种“不愿被爬取的网页页面”般都是有什么呢?下边我来举好多个简易的事例。
(1)多版本号URL状况下,非主显URL 的别的版本号。例如网页链接伪静态后也不期待百度搜索引擎爬取动态性版本号了,这时候就可以应用robots.txt 屏蔽站内全部动态链接。
(2) 假如网址内有很多的交叉式组成查寻所转化成的网页页面,毫无疑问有很多网页页面是沒有內容的,针对沒有內容的网页页面能够 独立设定一个URL 特点,随后应用robots.txt 开展屏蔽掉,防止被百度搜索引擎觉得网址生产制造废弃物网页页面。
(3) 假如网站SEO或由于种种原因忽然删除了很多网页页面,大家都知道。网址突然冒出很多死链对网址在百度搜索引擎上的主要表现是不好的。尽管现在可以立即向百度提交死链,可是还比不上立即屏蔽掉百度搜索对死链的爬取,那样理论上百度搜索就不容易忽然发觉网址多了过多死链,或是二者另外开展。自然网站站长自身最好是把网站内部的死链清除整洁。
(4) 假如网址有相近UGC 的作用,且以便提升客户出示內容的主动性并沒有严禁客户在內容中参杂连接,这时以便不许这种连接消耗百度权重或拖累网址,就可以把这种连接制成网站内部的自动跳转连接,随后应用robots.txt开展屏蔽掉。现在有许多社区论坛早已那样实际操作了。
(5) 基本的不期待被百度搜索引擎数据库索引的內容,例如隐私保护数据信息、客户信息、后台管理系统网页页面等都能够应用robots.txt 开展屏蔽掉。