百度蜘蛛被github拒绝了

作者: | 更新日期:

之前做这个博客主要为了记录生活的点点滴滴, 所以并没有在意SEO什么的, 今天发现百度蜘蛛被github拒绝了

背景

很早之前曾在百度的站长平台提交了 sitemap, 之后就不管它了.
今天无意见发现百度几乎搜不到自己的记录集, 于是进入百度的站长平台, 发现百度没收录我的几篇记录, 后来找到原因了.
github 直接把百度蜘蛛的请求拒绝掉了.

如下图:

以下是百度Spider抓取结果及页面信息:
提交网址:	http://github.tiankonguse.com/
抓取网址:	http://github.tiankonguse.com/
抓取UA:	Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
抓取时间:	2015-10-13 14:19:13
网站IP:	185.31.18.133 已反馈,预计几分钟内完成更新
下载时长:	0.769秒
抓取异常信息:	拒绝访问  查看帮助 
返回HTTP头:
HTTP/1.1 403 Forbidden
Cache-Control: no-cache
Content-Type: text/html
Transfer-Encoding: chunked
Accept-Ranges: bytes
Date: Tue, 13 Oct 2015 06:19:15 GMT
Via: 1.1 varnish
Connection: close
X-Served-By: cache-lcy1122-LCY
X-Cache: MISS
X-Cache-Hits: 0
X-Timer: S1444717155.292409,VS0,VE98
Vary: Accept-Encoding

罗嗦两句

做了一个网站, 如果空间提供商直接把搜索引擎的蜘蛛屏蔽了, 那将是一件很可怕的事情.
但是我们使用gitpage作为我们的静态网站, 免费使用, github 要拒掉百度的蜘蛛我们也没啥说的.
毕竟之前有人劫持百度流量攻击github这件事摆在眼前, 还是自身的安全第一.

说了这么多, 问题已经存在: github 把百度的蜘蛛屏蔽了.

从表面上看, 我们只好弃用 github 的静态网站了, 这样找个没有屏蔽百度蜘蛛的地方就行了.

但是, 这对于一个码农来说, 是不现实的一件事.

当初我的经历也蛮复杂的.

解决方案

既然不能放弃github, 那就想能不能让百度抓取自己的网站时, 抓的不是github, 而是自己网站的一个镜像.

恩, 经过搜索, 发现已经有这样的提供商了.

这里我使用 gitcafe 来镜像我的网站的.

操作步骤大概如下:

tiankonguse:tiankonguse.github.io $ git remote add gitcafe https://gitcafe.com/tiankonguse/tiankonguse.git
tiankonguse:tiankonguse.github.io $ git checkout -b gitcafe-pages
切换到一个新分支 'gitcafe-pages'
tiankonguse:tiankonguse.github.io $ git push gitcafe master:gitcafe-pages
Username for 'https://gitcafe.com': tiankonguse
Password for 'https://tiankonguse@gitcafe.com': 
Counting objects: 17, done.
Delta compression using up to 4 threads.
Compressing objects: 100% (10/10), done.
Writing objects: 100% (10/10), 1.06 KiB | 0 bytes/s, done.
Total 10 (delta 8), reused 0 (delta 0)
To https://gitcafe.com/tiankonguse/tiankonguse.git
   f0d0296..51611d7  master -> gitcafe-pages

好了, 到现在为止, 百度蜘蛛应该可以访问我们的网站了.

如有疑问,可以评论或者给我发邮件.

finish

参考资料

点击查看评论

关注公众号,接收最新消息

关注小密圈,学习各种算法

tiankonguse +
穿越