↑点击上方“”免费订阅
在微博上看到 @ 的关于“收集转载文章不添加原文链接的网站”的一文,我不禁想忍着这该死的手部神经压迫来写一篇文章说说我的经历及感受。
本文主要分成四个部分来讲博客发展历程、聚合网站的危害、与聚合网站斗争、吐槽聚合网站。
博客的发展历程
从我开始写技术博客到现在,共计已经有639篇博客了,加上此文共计640篇。最开始写博客的时候是在CSDN上面写,一是CSDN是最大的中文社区网站博客聚合,二是上面会有很多读者。
在写了几十篇后发现,文章开始被转载。这里说的转载是指“带有原文链接”的转载,同时这个链接也会被、百度、必应的爬虫抓取。然而,在第三方博客上写文章总会缺少很多关键性的数据,如流量来源、用户设备信息等等。同时在这些网站上也会有对应的推荐机制,而如果我们的文章很难被推荐的话,那么我们的读者就特别少。
接着,我就开始建立我自己的博客,详细可见:《听我说说我的博客》。后来,发现这是一个明智的决定。在使用和分析的过程中,我学到了很多的东西:
同时,也从扩展博客的功能上实践了一些不错的新技术,如、Ionic、HTTP 2.0、微信公众号集成等等。而随着流量的增大 ,便遇到越来越多的被“复制”问题。之所以说是复制是因为连转载都不配。
作为一个创作者,我不希望自己的作品出现在不喜欢的地方。
聚合网站的危害
当我开始意识到我需要与聚合网站作战的起因是,我的博客在中的索引在不断地下降。如我在《博客反爬虫 策略一——根据User Agent》 所看到的索引值一样在下降。
索引值下降通常不外乎几个简单的原因:
修改爬虫算法
认为你作弊了(一些不合法的SEO规则)
认为你的内容对用户无用 (如重复,太短)
等等
而我们面对的降合网站应该属于第三种结果,他们复制我们的文章,然后认为我们作弊了!!!这是什么概念?
别人抄了你的作业,然后老师说你抄袭!
别人抄了你的作业,然后老师说你抄袭!
别人抄了你的作业,然后老师说你抄袭!
长此以远,你在中就看不到你的文章了。当时我也遇到了类似的情形,于是我开始反击。从禁止特爬虫到限制RSS的长度,也才有了下面的结果:
但是第二个网站仍然是聚合网站,What's the fuck。对于我来说,这已经是很好的结局,在中的第一个结果是自己的文章。对于必应来说也是一个不错是的结果,然而下面仍然是一堆的聚合网站:
而这是聚合网站的索引,在百度、360搜索、搜狗等等的搜索引擎就没有那么好运。
与聚合网站斗争
你辛辛苦苦写地东西就这样无情地被盗取了,想想便觉得还是好,至少可以看到有多少人Fork你的代码。虽然是不同类似的网站博客聚合,但是作为一个技术人员我们总是应该做出点什么。
首先,我们要理解为什么他们的排名会比我们高——主要是因为他们的Rank高,即他们的网站排名比我们高。毕竟,他们抄袭了那么多的网站,很容易就排到我们前面去了。
他们主要有下面两种行为:
限时特惠:本站持续每日更新海量各大内部创业课程,一年会员仅需要98元,全站资源免费下载
点击查看详情
站长微信:Jiucxh