储能机厂家
免费服务热线

Free service

hotline

010-00000000
储能机厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容

发布时间:2020-03-09 16:34:14 阅读: 来源:储能机厂家

经常有站长抱怨高权重网站采集了自己辛辛苦苦的原创内容,导致自己的原创变成其他网站的了,今天我通过实例和大家分享如何解决这个问题。

大家可以想象一下现实生活中知识产权的认定,最简单的情况,如果A在杂志上发表了一篇原创文章,B看到后不加改变的抄袭并发表到其他杂志,A要起诉B者,法院很容易根据作品发表时间来判断B抄袭了A,因为A发表作品在先(如果B经过修改等二次加工手段再发表,那就要依据法院的鉴别和双方的证据了),回到网络世界,特别是回到由百度制定规则来判别谁是原创的体系中,假定百度已判定发表于两个不同网站的某文章内容一样,谁是原创呢,很简单,谁先被百度收录谁就是原创而不是谁先发表,有站长就说了,我的文章先发表,但过了n小时百度才收录,而对方网站在百度收录之前就采集了我的并被百度立即收录了,所以我的就变成不是原创的了,对,问题就在这里,收录时间!

既然百度收录我们的网页内容速度慢,如何解决呢?要让百度第一时间收录网页,一般有2种方法,一是使用PING服务,就是你发表了一篇文章后立即PING下百度告诉它文章的地址(关于PING服务介绍和使用请参考百度站长平台,也可以联系笔者),这一般针对权威的新闻源网站,小网站百度似乎不理睬,第二种方法就是本文重点讨论的-选择合适的发布时间。

一、 百度蜘蛛爬行的间隔性和规律性

百度蜘蛛只是百度的一个程序,它自动访问网页抓取网页内容,和我们俗称的新闻小偷是一个原理,只不过这个小偷我们都欢迎。蜘蛛不会时刻停在某网站上的,对于一个大型网站,可能会存在很多蜘蛛访问很多不同的网页,造成一个网站上每一秒都有蜘蛛在活动,但即使是这样的大型站点,具体到某个网页(比如网站首页),蜘蛛造访一般也会有一定的间隔,时间从几秒到几个小时,也有几天来一次的,这就是蜘蛛爬行的间隔性;

再谈规律性,对特定网站(网页)按照比较固定的周期爬行,如隔几分钟、几小时访问一次,下面通过一个例子来说明(数据通过Web Log Explorer分析并导出到excel分类汇总)。

上图是笔者统计的网站首页蜘蛛爬行规律(本来想列出2天内共小时数据,发现数据太多不便组图发表,只好选取1天内的上午8点到下午18点之间的数据分析)。

上图的时间列表示蜘蛛的实际爬行首页时间,总结列是笔者根据时间进行粗略概括(个别数据可以剔除),从上图可以发现蜘蛛大致的爬行规律:

上午一般每个小时分为4个时段,分别为10-15分钟、25-30分钟、40-45分钟、55-60分钟

下午的每个小时也分为4个时段,但表现为整点(左右),分别为0分钟、15分钟、30分钟、45分钟,同时我分析第二天的数据,基本上也是如此,这坚定了我对蜘蛛规律性的判断,实际上我统计了近10天数据,也有类似规律。

二、蜘蛛规律性实践应用

摸清了蜘蛛爬行的规律,我们就可以提前一点准备好食物,我的试验结果,17:43发布文章并更新首页成功,结果蜘蛛在17:44左右如期而至爬行首页,并收录相关文章。

三、总结:

本文对“秒收”的概念做了详细的描述,秒收仅仅说明发布的文章恰好在特定的时间被蜘蛛捕获,从这个意义上说,只要蜘蛛还爬行网站、内容为原创,也能做到秒收而无所谓网站权重的高低,至于被蜘蛛拖进百度索引库里后期如何加工提炼那排序是另外的话题了。本文也为那些坚持写原创文章而被采集被误为李鬼的站长提供了一种保护原创的思路,有能力的站长可以在首页添加一个自己的统计工具,专门记录特定搜索引擎爬行的时间,对照规律来有选择的控制发表文章时间,做到胸有成竹,每次蜘蛛来都有食物,慢慢的,蜘蛛会提高爬行频率的,那样就可以做到任何时间发表文章都能秒收,如同笔者演示的站点 蜘蛛爬行首页时间间隔大约15分钟以内,基本上任意时间发布文章都可以称为“秒收”,文本由中国农业人才网-国内成立最早的农林渔牧行业人才网原创,成稿于2013年新年第一天,有转载的希望能留下链接欢迎交流,祝各位站长在新的一年里心想事成,远离K站!

污泥运输车

玄参芽子

料杯印刷机