行业新闻  首页 > 新闻中心

谷歌如何分辨文章是否原创还是伪原创

谷歌的文章是否原创还是伪原创首先我们要先掌握几个概念:

1.相似度

相似度是搜索引擎去重用的最多的算法,用的比较多的一种是TF/IDF算法,TF-IDF的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。

TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。

IDF反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

当一篇文章根据TF/IDF进行计算后,形成了一个多维的向量,这个向量就是这篇文章的内容特征向量,当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。

关于TF/IDF与向量算法的详细请参看 Google黑板报的数学之美12-余弦定理与新闻分类

2.数据指纹

当搜索引擎通过相似度把文章收集起来后,要判别文章是否重复,一般用的就是数据指纹,,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频等等来判断。

3.代码噪音

一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我们在做模板的时候,就要注意了。这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。

以上由外贸网站建设 http://www.68160.com 编写