文章是否原创,搜索引擎应该也没法从技术上作出绝对正确的判断,甚至大致正确的也不能,无数的站长辛辛苦苦原创的文章经常排在许多垃圾博客的转载甚至是采集之后。到目前为止,本人认为搜索引擎判断文章是否原创的标准已经运用的有以下几点:文章收录时间、网站上的链接、网站的权重。
文章收录时间:你的文章是十年前就收录了,我的一篇一模一样的文章十年后才收录,当然你的文章是原创的了。但是如果收录时间距离较短的话就难以判断了,因为权重高的博客收录更快,我的文章五天前就发表了结果一直不收录,结果你转载了我的文章几分钟后就收录了,如果搜索引擎认为你的文章是原创的而我的是抄袭的,那我岂不是太冤了吗?
网站上的链接:这个应该是判断原创标准最主要的一点了吧。如果你的文章结尾有一句:文章转载于某某SEO博客,或者网站中某些关键词上有链向该关键词的链接,那么判断你的文章是转载该博客的应该会比较准的。因为如果你链向了该文章的页面判断还是比较准的,如果链向该站域名的话判断还是很难的。总不能你文章链向了他的博客结果他转载你的文章都被搜索引擎认为是原创吧?
网站的权重:这个做SEO的人应该更能理解一点。搜索引擎认为一个高权重、高PR的博客文章原创的可能性更大一些。
其实还有一个标准可以判断文章是否原创,即查看网页的创建时间。例如你的文章是页面是去年创建的,我的是今年才创建的,并且文章内容一模一样,那么十有八九我是转载你的。如果还不能理解的话,就想想一下我们常用的 Word、Excel吧,是不是经常看到他们的最后修改时间呢?我们还经常用修改时间进行排列呢。相信这个记录修改时间的技术对百度和谷歌来说绝对不是问题,这个技术性问题应该随便一个程序员都可以解决的吧?不知道现在百度和谷歌有没有利用这种技术。当然这个技术也是有缺陷的,就是如果我的文章是原创的那么我可能会经常改动,那么我的文章的最后一次修改时间可能要比转载我的文章要晚,这个搜索引擎可以记录同一文章的所有修改时间来解决,这个技术上也很容易实现。但是这又遇到了两个问题:第一、这意味着多大的工作量?百度、谷歌索引的可不是一台电脑上的东西,也不是一个网站的东西,而是数千亿的页面,记录每次页面的修改时间不知道在工作量和搜索引擎服务器反应能力上意味着怎样的压力;另一方面即使判断出那个页面时最先创建的了,但是如果站长把最先创建的页面原内容删除替换成转载别人的文章,这又该咋判断啊?
写了这么多,大家可看到了每种判断方式各有优缺点 ,搜索引擎应该也特别希望能做出正确的判断,不过先不说技术问题,光是判断标准就够令人抓狂的了。毕竟搜索引擎只能根据人的命令才运行,如果我们无法给出绝对正确的判断标准,那么搜索引擎也是没法解决这个问题的……