安静
PHP技术博客

130125 百度内部网页搜索培训资料分享 关于恶劣低质网页特征标注[恶劣作弊手段详解]

 

第三部分,恶劣作弊手段详解

6. TITLE堆积关键词

 

6.1 什么叫TITLE堆积关键词

目的:使网页在众多搜索结果中脱颖而出,吸引更多人的注意和点击。

特点:

beizhu

“堆积”在这里为贬义词,指重复放置对用户没有帮助的关键词,以达到吸引人眼球的目的。

 

 

6.2 TITLE堆积关键词的查看步骤

第一步:TITLE是否由多个关键词组成?如果是,继续看第二步;

第二步:是否有三个或三个以上与网页主要内容有关的关键词,在共同描述同一件事情?如果有,继续看第三步;

第三步:这些相近的关键词与网页的主要内容符合吗?能用来描述网页内容吗?

l  如果不能,可以认为这是一个恶劣低质网页,手段为“TITLE堆积关键词”(详见:是TITLE堆积关键词的case1);

l  如果部分符合(只要不是完全符合),也属于恶劣低质网页(详见:是TITLE堆积关键词的case2);

l  如果TITLE完全符合内容或你判断不准是否符合,再看第四步;

第四步:想一下网页制作者在TITLE上放这么多关键词是为什么?如果在网页上找不到相应内容,完全是为了吸引用户,那属于恶劣低质网页(详见:是TITLE堆积关键词的case3和case4);如果是为了更好的描述网页的内容,且TITLE上的内容在网页上全有体现,那则属于正常,不需要标记。(详见:不是TITLE堆积关键词的case1和case2)

 

 

 

 

 

 

 

 

 

 

 

思维逻辑图如下:

beizhu2

 

6.3 TITLE堆积关键词的示例

是TITLE堆积关键词的case1:

http://www.yjtuomao.net/archives/category/yjtuomaofangfa

TITLE怎么永久脱毛_怎样永久脱毛_如何永久性脱毛 | 永久脱毛网

需要评估的部分:怎么永久脱毛_怎样永久脱毛_如何永久性脱毛

(注解1:在第一部分评估必备基础里的2.2常用述语解释里的TITLE概念里提到:评估只针对去掉浏览器信息和站点信息后的部分。该站就叫永久脱毛网,所以TITLE上的“永久脱毛网”不属于要评估的部分,所以要评估的部分只有“怎么永久脱毛_怎样永久脱毛_如何永久性脱毛”)

beizhu3

说明:

①     TITLE上的三个关键词正好三个——“怎么永久脱毛”“怎样永久脱毛”“如何永久性脱毛”,且都与脱毛有关。

②     打开该网页可以看到,最明显的地方就是吸引用户消费的购买链接,下面不起眼的地方才是一些与脱毛有关的、排版很奇怪的文章。

③     这个网页,用TITLE上的关键词吸引用户进来,并不是想分享讨论关于脱毛的话题,而是想推销商品,所以应该属于恶劣低质页面。

(注解2:该网页最主要的问题是内容与标题不相符,点击进来的人想要寻求永久脱毛的小妙招,但是却得到了一大堆商业广告,如此堆积标题,只为骗取大家的点击)

 

 

是TITLE堆积关键词的case2:

http://v.youku.com/v_show/id_XMjM3MDUyODAw.html

TITLE江门大旗广告 昵图网 素材图片 素材网 设计图库 昵图 昵图网图片 昵图网素材 昵图网图库 昵图库 –视频- 优酷视频 – 在线观看

需要评估的部分:江门大旗广告 昵图网 素材图片 素材网 设计图库 昵图 昵图网图片 昵图网素材 昵图网图库 昵图库

beizhu4

说明:

①     TITLE上放置了 “昵图网”、“昵图”、“昵图网图片”、“昵图”,相当于4个相关内容的关键词。

②     这个页面的主要内容是个视频,整个视频在宣传一家叫江门大旗的广告公司,虽然与TITLE上的“江门大旗广告”这个关键词吻合,但却与其它关键词无关,尤其与堆了4次的“昵图”等关键词无关。至此我们就可以判断出这是一个恶劣低质网页了。

③     视频是广告公司的介绍,TITLE却重复多次一个知名素材设计共享平台网站的名字,这个行为本身就是对用户的欺骗,必是恶劣低质无疑。

(注解3:这个网页的问题还是在于标题和内容不相符,除此之外它还想借用别人的名气,多次堆积他人名字,以增加自己的点击率)

 

 

是TITLE堆积关键词的case3:

http://www.hdrmvb.com/  ——请直接打开

TITLE最新电影排行榜2012_周星驰电影全集_看电影的好网站 -HD电影网

需要评估的部分:最新电影排行榜2012_周星驰电影全集_看电影的好网站

(注解4:在第一部分评估必备基础里的2.2常用述语解释里的TITLE概念里提到:评估只针对去掉浏览器信息和站点信息后的部分。该站就叫HD电影网,所以TITLE上的“HD电影网”不属于要评估的部分,所以要评估的部分只有“最新电影排行榜2012_周星驰电影全集_看电影的好网站”)

说明:

①     TITLE上的三个关键词正好三个——“最新电影排行2012”“周星驰电影全集”“看电影的好网站”,且都与电影有关。

②     网页本身是很多电影电视剧的索引,点进去下载相应的播放软件后的确可以在线观看

③     如果TITLE是真实的,那么网页上应该有电影排行和周星驰全集的专辑内容,但是事实上却没有。网页的内容与TITLE不符,说明TITLE的目的在于吸引用户,增加点击量,所以该网页属于恶劣低质网页。

 

 

是TITLE堆积关键词的case4:

http://www.wuk.cc/  ——请直接打开

TITLE2012最新电影电视剧 一一影院 66影视 西瓜影院 第一放映室 放放电影 百度影音-悟空影院

需要评估的部分:2012最新电影电视剧 一一影院 66影视 西瓜影院 第一放映室 放放电影 百度影音

说明:

这个网站的名字是“悟空影院”,可是TITLE上有很多其它影音网站的名字,而且超过3个,可以明显的看出,这个标题的目的就是想要搜索知名影音网站的用户,点击进入,借助他人的名气,增加自己的点击率,因此视为使用了“TITLE堆积关键词”的恶劣手段。

提示1:在自己的TITLE中加入一些有名气的网站名或网站代表词是TITLE堆积关键词中

常见的现象,目的在于借用他人的价值,增加自己被点击的机会。(case2和case4)

 

 

※当然也有一些网页,虽然TITLE有很多关键词,但是却是合理宣传。

不是TITLE堆积关键词的case1:

http://frxz2.4399.com/ ——请直接打开

TITLE: 凡人修真2网页游戏|4399凡人修真2官网|凡人修真2攻略|凡人修真2宠物|凡人修真2新手卡|凡人修真2答题器

需要评估部分:凡人修真2网页游戏|4399凡人修真2官网|凡人修真2攻略|凡人修真2宠物|凡人修真2新手卡|凡人修真2答题器

网页内容:与凡人修真网页游戏有关的各种信息

说明:TITLE上的确堆了6个与“凡人修真”有关的关键词,但这六个关键词并不重复,也并不是表达的同一个意思,细心观察可以发现,这六个关键词分别指网页游戏、官网、攻略、宠物、新手卡和答题器六个部分,分别对应页面上不同的模块,在网页中可以找到相应的内容,用户进入这个网页可以找到想要的信息,这就说明TITLE上的关键词是对网页本身合理的说明,目的是为了看网页的人知道这个页面上有什么内容,不属于TITLE堆积关键词。(这也就是6.1图中的描述一件事的几个方面)

 

 

不是TITLE堆积关键词的case2:

www.115.com ——请直接打开

TITLE115网盘|网盘|115,我的网盘|免费网络硬盘|网盘搜索|网盘下载-115,改变分享!

需要评估的部分:115网盘|网盘|115,我的网盘|免费网络硬盘|网盘搜索|网盘下载

内容:115网盘首页

说明:TITLE放置的关键词都是与该网站有关的内容,属于正常。面对用户的不同搜索词,为了能够让大家找到115网盘,在TITLE中用不同的词语描述115网盘,是合理的现象。(这也就是6.1图中的共同描述一件事)

工作小Tip:

在判断TITLE堆积关键词时,最重要的衡量标准就是关键词与内容是不是全部吻合,把握好这个方面,就可以很清楚的判断出这个网页是不是属于TITLE堆积了

 

 

 

 

 

 

 

 

 

7. TITLE放置恶劣长尾词

 

7.1 什么叫TITLE放置恶劣长尾词

恶劣长尾词,重点在“恶劣”

除此之外它还需要具有以下特点:

l  16字节,也就是说多于8个汉字,但有字母和汉字结合时需要注意字节的换算。

l  它需要包含一个很热门的主题词,热门主题词定义为很多人感性趣的话题或事物,例如快男20进12武艺快男武艺视频2010”,“快男武艺”便是热门主题词。

l  判断一个字节较长的关键词是否为恶劣长尾词时,还要看关键词的构成,以及网页制作者这样写TITLE的目的:是因为内容需要,还是为了欺骗搜索引擎和用户。如果是前者我们标为正常,如果是为了欺骗别人,那么就是恶劣长尾词

l  有些恶劣长尾词是网页制作者生造出来的,用于吸引用户,如“杨幂版冯绍峰版何晟铭版宫全集在线观看”,至少你在平时的搜索中很少会主动输入这样的关键词;有些恶劣长尾词没有真正的内容,纯为了吸引用户点击,如“日本美女被虐吸奶图”。

 

特点:

恶劣长尾词   ≥16字节 +  包含热门词 + 刻意

 

请注意,并不是一个较长字节的关键词就叫恶劣长尾词。像“华为EC1261原装电信EVDO”,虽然的确够16字节,但属于商品的正常描述,不能算是恶劣长尾词。

 

 

7.2 TITLE放置恶劣长尾词的查看步骤

 

第一步:观察TITLE上的长关键词是否够16字节,如果够,继续看第二步;

第二步:长关键词内是否含热门主题词,如果含,继续看第三步;

第三步:如果你是用户,你在搜索时,是否会主动想到输入这样的长关键词;且这个长关键词给你巨大的吸引力。如果不能主动想到这样的长关键词,那这个网页就可以判断为恶劣低质网页,手段为“TITLE放置恶劣长尾词”。如果这时你还有些犹豫,继续看第四步:

第四步:想一下网页制作者为什么要在TITLE上放这个长关键词?如果网页上找不到相应内容,放在这里完全是为了吸引用户,那就属于恶劣低质网页。

 

思维逻辑图如下:

beizhu5

7.3 TITLE放置恶劣长尾词的示例

是TITLE放置恶劣长尾词的case1:

http://www.tudou.com/listplay/T6vaAj8g_eg.html

TITLE: 最新奇艺网高清电影_在线观看1个视频_土豆网

需要评估的部分:最新奇艺网高清电影_在线观看1个视频

beizhu6

说明:

①     “最新奇艺网高清电影”足够16字节

②     含热门主题词“奇艺网”

③     虽然用户有可能主动输入这样的长关键词进行搜索,但这个关键词的确非常吸引人。

④     内容视频是一段网聊片断,根本不是什么奇艺网的高清电影频道,需要找奇艺网的用户进到这个网页来无法满足需求,网页上没有相应内容。所以这是恶劣低质网站,手段是“TITLE放置长尾词”

 

 

为了能够更好的区分什么样的网页是恶劣的,什么样不是恶劣的,下面我们将采取对比的方法,例举两个类型相似的页面进行对比,以供大家深入理解!

是TITLE放置恶劣长尾词的case2:

http://www.duduwo.com/info/0/6.htm

TITLE斗破苍穹TXT全集下载,斗破苍穹吧,斗破苍穹sodu 天蚕土豆

需要评估的内容:斗破苍穹TXT全集下载,斗破苍穹吧,斗破苍穹sodu 天蚕土豆

提示2:有些TITLE是不包含网站名称的,不要随便删东西哦

 

 

 

 

内容:

beizhu7

说明:

①       TITLE上有大于16字节的关键词“斗破苍穹TXT全集下载”,其中斗破苍穹是一本超人气小说,因此这个关键词中包含热门词汇,用户是否会主动输入这样词进行搜索我们暂时无法判断。

②       网页上虽然有下载地址(见红下划线部分),但点击下载处却把用户引向另外一个网页。在这个页面用户无法直接进行下载,与TITLE中全集下载不相符。所以可以断定这个网页使用了TITLE放置恶劣长尾词,是个恶劣低质网页。

提示3:这个网页除了TITLE放置恶劣长尾之外,还有第一种类型的TITLE堆积关键词,因为TITLE中斗破苍穹吧与网页内容不符,在第三步的判断后就可以判断为TITLE堆积关键词了,由此我们可以知道,在判断一个恶劣低质网页时,很可能会同时出现好几种恶劣的手段,所以在判断这个网页时,如果没有某种手段,我们只能进行排除,而不能直接标为正常,当五种类型都排除后,我们才可认为在内容维度上这个网页是一个正常的网页。

 

 

 

 

 

 

 

 

 

 

不是TITLE放置恶劣长尾词的case1:

http://www.bookzx.net/htm/114023/txt.html ——请直接打开

TITLE结婚后恋爱下载,结婚后恋爱txt全集下载 – 小说者

需要评估的部分:结婚后恋爱下载,结婚后恋爱txt全集下载

内容:小说《结婚后恋爱》的TXT版本下载,下载地址有效可用

说明:

①       TITLE上的关键词“结婚后恋爱txt全集下载”大于16个字节,用户是否会主动输入这样的词进行搜索暂时我们无法判断。

②       网页上具有与下载相应的内容,所以这不属于恶劣手段。

(注解5:与上一个case进行对比,二者都是下载名气小说的页面,对于这类功能类的页面,判断其是否有TITLE放置恶劣长尾词这种手段的重要区分点就是TITLE中所写的功能最终能否实现,在小说下载网页上的体现就是,这个小说能不能下载。如果能够下载,说明页面是真实可信的,认为它不存在放置恶劣长尾词,如果不能下载,那么认为它是故意欺骗用户,标记为TITLE放置恶意长尾词。)

 

 

不是TITLE放置恶劣长尾词的case2:

http://www.121210.com/fuzhu/4/1426/

TITLE简单2.5.5, 很多?简单2.5.5 人找这样的感觉呢,主宰挂,简单挂,冰天加速1.41免费版,冰天加速1.43免费版,冰狼,冰狼辅助,暗龙,暗龙辅助,龙天,龙天辅助

需要评估的部分:简单2.5.5, 很多?简单2.5.5 人找这样的感觉呢,主宰挂,简单挂,冰天加速1.41免费版,冰天加速1.43免费版,冰狼,冰狼辅助,暗龙,暗龙辅助,龙天,龙天辅助
beizhu8
说明:

①     TITLE中的“人找这样的感觉呢”正好是16字节,我们进行第二步,可以看出,虽然关键词非常长,但是其中并不包括我们感兴趣的部分,即不包括热门词汇。在这步我们就可以断定它不属于TITLE放置恶劣长尾词。

②     虽然这个页面没有“TITLE放置恶劣长尾词”的特征,但仔细看看内容还是有问题,属于“内容堆积关键词”,后面会讲到。

 

 

工作小Tip:

在判断是否放置恶劣长尾词时,首先的一点就是这是标题中有没有长尾词,这个标题中的关键词够长吗?有大家感兴趣的热词吗?

在我们确定它是一个长尾词之后才能开始判断这个长尾词是不是恶劣的,如果你认为这个词很确切的描写了网页的内容,并且内容真实有效,那么它就不是恶劣的。相反的,如果你看完标题后对这个网页很感兴趣,但是看完后你却觉得上当受骗了,没有相应的内容,或是内容是虚假的,那么它一定是个TITLE放置恶劣长尾词的恶劣低质网页!

 

 

 

 

 

 

 

 

 

 

 

 

8. 文不对题

8.1 什么叫文不对题

文不对题往往是指TITLE上有一两个关键词,并构成TITLE的主题。(“TITLE堆积关键词”要求关键词数要大于等于3个)

 

TITLE上显示的主题与网页内容不相关,在网页内容中找不到与TITLE主题相关的内容,也可以说用户看TITLE以为此页面中有自己需要的内容,但实际看内容很久却找不到有用的信息。

 

最恶劣的文不对题是指TITLE和内容完全说的是两码事,无任何交集。

 

8.2 文不对题的查看步骤

第一步:TITLE上的关键词,在页面上是否有相应的内容?如果有一个关键词没有对应内容,便可确认该页面为恶劣低质网页。继续第二步。

第二步:确认TITLE上的关键词个数,小于三个标记为“文不对题”;大于等于三个标记为“TITLE堆积关键词”。

有一点要注意:对于声称可以进行在线观看的网页,要看一下是否真的可以在线观看,对于不能播放或者播放的内容跟TITLE对不上的网页(比如说TITLE是“甄嬛传全集”,实际视频播放的是甄嬛传片头曲),应该标记为文不对题(TITLE上关键词数大于等于三个的标为“TITLE堆积关键词”)。

 

 

注意:这里的思路有一些绕,需要连续的两步才能判断出这个网页的恶劣手段是什么!

思维逻辑图如下:

beizhu9

 

8.3 文不对题的示例

是文不对题的case1:

http://search.zaojiao.com/bbs/%E4%BA%BA%E8%BA%AB%E4%BD%93%E6%9E%84%E9%80%A0%E5%9B%BE/

TITLE人身体构造图-育儿论坛交流——中国早教网

内容:
beizhu10
说明:

TITLE去掉站点名称“中国早教网”,去掉频道名称“育儿论坛交流”,剩下的关键词是“人身体构造图”。下面的内容虽然与“人身体”有关系,但明显没有TITLE上的内容,没法满足用户找相关图片的需求。是恶劣低质网页,特征为“文不对题”

 

 

 

是文不对题的case2:

http://www.99inf.com/shfw/ylbj/3442998.html——请直接打开

TITLE:【尖锐湿疣病毒存活期】北京武警二院 – 娱乐/保健  – 久久信息网

说明:

①       TITLE上有两个关键词:“尖锐湿疣病毒存活期”和“北京武警二院”

②       下面的内容中,虽然多次重复“尖锐湿疣病毒存活期”,但并没有具体对存活期的时长进行介绍。应标记为恶劣低质网页。

③       TITLE上只有两个关键词,所以特征是“文不对题”,而不是“TITLE堆积关键词”

 

 

是文不对题的case3:

http://www.ieche.com/kz/333619-1.html——请直接打开

部分截图:

 

说明:

①       TITLE为“外墙砖图片【外墙砖图片资料】_爱意汽车”,“爱意汽车”是网站名,不属于要评估的部分,剩下“外墙砖图片”和“外墙砖图片资料”两个关键词。

②       主要内容都是与汽车有关,没有与外墙砖有关的内容。必然是恶劣低质网页,特征是 “文不对题”。

③       你一定注意到了,截图中红圈的部分的内容与墙砖有关呀,而且还有图片呢。你看右下角,有一个百度的图标,其实这是百度提供的广告。在第一部分评估必备基础知道的常用术语解释中,在介绍“内容”时有提到:“在做内容维度的标注时,广告内容是不参与标注的”。

 

 

 

 

9. 内容堆积关键词

9.1 什么叫内容堆积关键词

顾名思义,就是说网页的内容中堆积了很多与内容无关、影响大家看网页心情的词汇。我们将内容堆积关键词大致分为以下四种。

 

 

四种类型
内容相同关键词(case1)
内容相关关键词(case2&3)
热门关键词

(case4&5)

故意出现多余关键词(case6)

 

 

 

 

 

 

 

 

 

其中:

故意出现多余关键词最主要的特征就是:如果不出现这些重复的关键词,也不会影响网页所要表达的含义(看过case6之后,相信大家会有一个非常直观清晰的理解)。

 

特别强调:在这里,“关键词”与之前两种类型不同,是一个统称,有可能就是几个词,也有可能是一段话或者是一个词组,反复多次出现在内容中。

 

9.2 内容堆积关键词的查看步骤

 

第一步:网页内是否有反复出现的热门、同一类甚至相同的关键词,如果有,继续第二步

第二步:如果去掉这些重复的内容,是否造成网页不能准确表达含义?如果没有造成重大影响,那可以判断这是恶劣低质页面,手段为“内容堆积关键词”

 

Case1

思维逻辑图如下:

1.是否有反复出现的词(热门、相同、相似)
NOOO
排除内容堆积
YES,影响表达
2.去掉这些词,是否影响表达
标为内容堆积关键词
排除内容堆积关键词

 

NO,不影响
YES,但不确定是否恶劣
标为内容堆积关键词

 

YES,大量堆积性质明显

 

 

 

 

 

 

 

 

 

 

 

 

 

9.3 内容堆积关键词的示例

是内容堆积关键词的case1:

http://cang.baidu.com/spamcase/snap/299a5a029722e17e97d83a42.html

主要内容截图:

说明:

①      “那些年我们一起追的女孩快播完整版那些年我们一起追的女孩快播完整版qvod】”,重复了5遍,属于类型1,内容相同关键词,多次重复。

②     这种重复非常无用,属于大量堆积关键词,恶劣性质明显的,此时不需要再判断删除它对网页是否有影响,仅凭重复的内容就可判断这是恶劣低质网页,手段是“内容堆积关键词”。

 

 

是内容堆积关键词的case2:

http://www.landteknet.net.cn/landteknet0420/res79575.html

主要内容截图:

 

说明:

①     “运城吧|运城人才网|运城百姓网( )是由恒信王者至尊团队提供,运城吧|运城人才网|运城百姓网运城吧|运城人才网|运城百姓网运城吧|运城人才网|运城百姓网运城吧|运城”属于类型2内容相关关键词。

②     第二步判断:删除上述关键词之后,主要内容并不受影响。由此可以判断这是恶劣低质网页,手段为“内容堆积关键词”;

③     这个case非常劣质,还涉及另一手段“恶劣采集”,在文档最后会有讲解。

提示4:目前我们看到的是内容维度恶劣低质的几种手段,除此之外还有其他维度,因此当你看到一个网页,明知道它是恶劣低质网页,但是在这八种手段中没有吻合的一种,不要着急,也许它不是内容维度的恶劣,在以后的学习中我们就会慢慢发现它是哪一种类型了

 

 

 

 

 

 

 

 

 

是内容堆积关键词的case3:

http://www.txyy.tv/daludianshiju/22352.html

网页下方

 

说明:

①       这段文字中多次重复“先结婚后恋爱”的相关词,属于类型2内容相关关键词。

②       除此之外,我们可以发现重复的内容非常多余,几乎完全是废话,如“关于电视剧先结婚后恋爱大结局、剧情介绍、上映时间、什么时候出、什么时候上映、演员表、字幕、优酷、快播、qvod、土豆、好看吗、影评、豆瓣、txt、3gp、歌曲、mp4、、铃声、插曲等信息”从中我们无法得到任何有用的信息,为了写而写,故意堆积在这里。由此我们无需判断去掉这些部分是否有影响,因为它的性质非常恶劣,可是直接将其认定为内容堆积关键词。

 

 

是内容堆积关键词的case4:

http://cang.baidu.com/spamcase/snap/3d6b300f0ebc0127a4894427.html

主要内容截图:

 

说明:

这个网页的主题是小米手机官网订购,但是内容堆积了许多热门的关键词,属于类型3热门关键词。我们可以很容易的判断它的性质是恶劣的,因此将其标记为内容堆积关键词。

 

 

是内容堆积关键词的case5:

http://3d.okooo.com/

网页下方:

 

说明:

这个case与上一个类似,都是集中堆积了很多比较热门的、较多网民喜欢的关键词。网站的友情链接应该是与网站本身有一定相关的,而不是种类庞杂热门关键词的堆积。其目的很简单,就是通过堆积热门词汇增加自己的价值。这种性质是恶劣的,因此标记为内容堆积关键词。

 

 

 

 

 

是内容堆积关键词的case6:

http://www.tuomao360.com/tym/19784.html

 

说明:

前面的分类中,类型4故意出现多余关键词,看到这个分类时,显得晦涩难懂,但是这个类型的判断非常简单,此case中,文章多次重复“腋窝下的毛怎么去掉”,虽然放在那里并不破坏语义,但读起来不通顺,觉得总是重读这一个词,阅读感到很不舒服,明显是硬加进去的。去掉之后,文章变得非常通顺连贯。因此我们可以判断,该网页属于内容堆积关键词。

提示5对于这种类型,建议在发现重复的词后,有【ctrl+F】搜索它,这样就不用阅读整篇文章,也能让它快速现形,尤其是在内容较长的文章中,效果非常明显哦

 

 

 

 

 

 

不是内容堆积关键词的case1:

http://www.cncmrn.com/reports/1220/921459.html——请直接打开

说明:

①       网页的主要内容是一个行业的研究报告

②       网页上有很多重复的关键词,如“发展趋势分析”“2007-2011年透明免清洗助焊剂行业”,但这些关键词一而再再而三的重复是研究报告必须的、不可或缺的,所以不能算是是内容堆积关键词。

(注解:类似这个不是内容堆积关键词的case,生活中也很多见,例如查阅四六级考试答案,目录显示“2009.6月六级答案、2009.12月六级答案、2010.6月六级答案…”这种重复是合理的;去食堂吃饭,菜单上“宫保鸡丁盖饭、鱼香茄子盖饭、糖醋里脊盖饭…”中多次重复盖饭两个字,这些都不是恶劣的,而是合理的。)

 

 

不是内容堆积关键词的case2:

http://blog.jxcn.cn/u/jxcdy/212702.html

部分截图:

 

说明:

看上去是“Re:今天的“新闻联播”百姓的真情和艰辛十分感人”这段话重复了很多遍,但其实下面的文字是评论——这是网站常用的方式,不属于内容堆积关键词。

 

 

10. 内容穿插

 

10.1 什么叫内容穿插

特点:

内容穿插
主体部分
2个以上关键词
破坏语义读不通

 

 

 

 

 

 

内容穿插一般出现在网页主要内容(主体内容)中,在文章中随意穿插2个以上关键词,破坏原有语义,令人无法读通。(详见:是内容穿插的case1)

提示6明显的穿插,关键词会做特殊处理,如加粗、带下划线、或斜体,还有的关键词可以点击。而不明显的穿插,关键词有可能和其它正常字体、颜色一致,很难区分,一定要仔细查看。

 

 

 

 

 

 

 

10.2 内容穿插的查看步骤

 

第一步:文章是否能读得通?如果读不通,继续第二步;

第二步:观察读不通的原因,是否是因为中间有莫名其妙出现的关键词?且这个关键词至少穿插出现2次以上。是不是去掉这些关键词,文章就能读通了。如果是,可以判断这是恶劣低质网站,手段为“内容穿插”。有些文章由于字数较多,穿插的关键词与文章文字的颜色字体字号都一样,所以较难区分,需要仔细观察。

 

思维逻辑图如下:

1.文章是否能读通?
YES
排除内容穿插
3.穿插词≥2
排除内容穿插
排除内容穿插
标为内容穿插
2.是否因为中间有奇怪的词而不通
NO,读不通
YES
NO,文章本身是不通顺的
YES
NO,只有一个

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10.3 内容穿插的示例

是内容穿插的case1:

http://cang.baidu.com/spamcase/snap/f80f64fcdfe2cf93a841c319.html

主要内容截图:

 

说明:

①     这是一篇博客,文章内容明显读不通

②     文字中间穿插的关键词为浅紫色,正常文字为黑色,去掉这些关键词后文章可以读通

③     穿插的关键词是可以点击的,且数量大于两个。所以很容易判断出,这是内容穿插

 

 

是内容穿插的case2:

http://tieba.baidu.com/p/1220436784

主要内容截图:

 

 

说明:

“长春百姓网”穿插在一篇中,颜色字体字号没有变化,较难识别,如果你不阅读这段文字的话,很难发现其中穿插着这么多“长春百姓网”去掉这些词之后,文章是连贯的。因此该网页使用了内容穿插的手段。

 

 

 

是内容穿插的case3:

http://www.erz6.cn/post/1263.html

主要内容截图:

 

 

说明:文章中穿插了大量“孙小宝”“孙小白二人转”“二人转全集”等,明显属于内容穿插。

工作小Tip:

内容穿插判断起来很容易,但是识别有一些难度,最重要的就是仔细,本着挖掘的心态将藏在文字中的无关词找到就很容易了!

提示7内容穿插v.s.内容堆积,我们一般认为整块完成的部分是内容堆积,而词语零散地分布在网页内容中的是内容穿插。

内容穿插:不去掉的时候内容不连贯,去掉后内容变通顺了

内容堆积:不影响对内容的认识,去掉后不影响文章表达

 

 

 

 

 

 

 

 

 

 

 

 

 

11. 垃圾搜索结果页

 

11.1 什么叫垃圾搜索结果页

 

先说什么是搜索结果页:

你在百度搜索一个关键词,百度返给你的结果页面就叫搜索结果页。搜索结果页TITLE上的第一个关键词往往与页面上搜索框内的关键词一样,这就是用户搜索用的关键词。页面由N个“标题+摘要”的形式组成的,关键词会在搜索结果里多次出现。

注意:搜索结果页是一种称呼,并不是百度返回的才叫搜索结果页,谷歌返回的也是搜索结果页,还有一些站点内的搜索结果,也是搜索结果页。(详见:不是垃圾搜索结果页case9)

 

垃圾搜索结果页有两种:

一种是页面本身就是一个完整的搜索结果页,但TITLE上的关键词与搜索出的结果完全不相关(详见:是垃圾搜索结果页的case1)或只有一点儿相关(详见:是垃圾搜索结果页的case5)。

 

另一种是将某搜索引擎的网页搜索结果或新闻搜索结果复制下来,贴粘到自己的网页上。由于搜索结果中穿插着原关键词,可以起到给页面增加关键词以欺骗搜索引擎、排高在搜索结果中排位的作用。

 

垃圾搜索结果页的分类:

垃圾搜索结果页
页面是完整搜索页,但TITLE关键词与搜索结果相关低
直接copy搜索引擎的网页结果
有些相关(a little)

完全不相关(none)

 

 

 

 

 

 

 

 

 

 

 

复制网页搜索结果的一般会有时间信息,在每条结果下面有网址、有“网页快照”“快照”等搜索引擎独有的语言,或者将“网页快照”等搜索引擎独有的语言换成“推广”等其它内容(详见:是垃圾搜索结果页的case2和case4)。有些恶劣低质网页的制作者会把“网页快照”“快照”等搜索引擎独有的语言去掉,甚至连URL地址也去掉。这样就只剩下“标题+摘要”内容了。

复制新闻搜索结果的,一般会有新闻的出处。(详见:是内容穿插的case3)

 

复制网页搜索结果的恶劣低质网页的主要特征:

 
垃圾搜索结果页
≥2个“标题+摘要”式内容,多种相同关键词穿插

 

 

 

 

 

复制网页搜索结果的恶劣低质网页的次要特征(这些特征不是肯定出现的):

 

OR           OR              OR

网页快照
网址
时间信息
推广等搜索引擎独有语言

 

 

 

 

 

 

 

 

11.2 垃圾搜索结果页的查看步骤

第一步:页面上是否有“标题+摘要”式的内容,如果有,看看是否是复制了某网页搜索或新闻搜索的结果,可以确定的话就可以认为是垃圾搜索结果页了(详见:是垃圾搜索结果页的case2和case3)。如果不是复制的搜索结果,继续第二步。

第二步:要看关键词与搜索结果内容是否相关,如果完全不相关或只有一点儿相关,可以确认是垃圾搜索结果页(详见:是垃圾搜索结果页的case1和case5)。如果完全相关继续第三步。

第三步:在关键词与搜索结果内容相关的情况下,可以点击各标题观察,看各标题是指向页面所在的网站还是页面之外的网站。如果都指向自己站点内的页面,就标记为普通网页(详见:不是垃圾搜索结果页的case1);如果都指向其它站点,就标记为恶劣低质网页,badcase选择“垃圾搜索结果页”

 

思维逻辑图如下:

 
1.页面上是否有“标题+摘要”式内容
YES,且copy他人结果
标记为垃圾搜索结果页
不是复制的结果
2.TITLE关键词与搜索结果是否相关
标记为垃圾结果搜索页
3.标题点击后的指向
完全相关
不相关+一点相关
排除垃圾搜索结果页
标记为垃圾搜索结果页
全部指向站内
指向其他站点或不能点击

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11.3 垃圾搜索结果页的示例

是垃圾搜索结果页的case1:

http://search.zaojiao.com/bbs/%E4%BA%BA%E8%BA%AB%E4%BD%93%E6%9E%84%E9%80%A0%E5%9B%BE/

 

说明:

①   这是一个典型的、带有搜索框的、“标题+摘要”形式的搜索结果页

②   TITLE去掉站点名称“中国早教网”,去掉频道名称“育儿论坛交流”,剩下的关键词是“人身体构造图”,下面的内容虽然与“人身体”有点儿关系,但明显没法满足用户找相关图片的需求。所以这个页面是恶劣低质网页,手段为 “垃圾搜索结果页”

③   由于TITLE和内容不完全相关,所以这个case的手段同时应该选择“文不对题”

 

 

 

是垃圾搜索结果页的case2:

http://cang.baidu.com/spamcase/snap/2cc61d3f0972e32c28a2661e.html

内容截图:

 

说明:

①     这是一个典型的复制网页搜索结果的垃圾搜索结果页,有标题、摘要、网址、时间、“百度快照”。

②     这些结果都无法点击,仅从标题和摘要看,用户无法得到全面的信息。实际上这些内容对用户来说是无用的。

提示8垃圾搜索结果页中,相当一部分都是可以一眼看出的,像case2中很明显复制了百度的搜索结果,对自己的恶劣行为毫不掩藏。

 

 

 

 

 

 

 

是垃圾搜索结果页的case3:

http://cang.baidu.com/spamcase/snap/a310392091a9544f0e303068.html

内容截图:

 

说明:

①     这是一个典型的复制新闻搜索结果的垃圾搜索结果页,有标题、出处、时间、摘要。可以清楚的看出这是搜索引擎网页的格式、

②     这些结果都无法点击,仅从标题和摘要看,用户无法得到全面的信息。这些内容对用户来说完全没有价值。

 

 

 

是垃圾搜索结果页的case4:

http://www.y568.net/sogou/%E4%BE%A0%E7%9B%97%E9%AB%20%98%E9%A3%9E%E5%9B%BD%E8%AF%AD%E9%AB%98%E6%B8%85

内容截图:

 

说明:

①       复制百度网页的搜索结果,但是把“百度快照”改为“Sogou快照 – 概览”,明显是垃圾搜索结果页。

②       网页同时使用了内容堆积关键词的手段(badcase同时要选择“内容堆积关键词”)。这个页面是把用户吸引进来,引诱用户点击上面的色情图片。

 

 

是垃圾搜索结果页的case4:

只有截图没有地址:

 

说明:

①     这是一个经过变形的垃圾搜索结果页

②     最明显的特征,是有摘要样的段落式文字,有搜索引擎独有的语言“网页快照”

常用手段

请观察截图中绿色下划线的部分,我分析是用关键词覆盖了原有网址,导致网址只有后半截。

④     这些内容放在网页上,对用户没有帮助,影响用户体验。

⑤     另外,这些文字中多次重复“黄鹤楼香烟价格表”,使用了“内容堆积关键词”的手段。

 

 

是垃圾搜索结果页的case5:

http://www.souglu.com/s/?wd=c2

说明:

是搜索结果页,但是TITEL(也可以说是搜索框里的关键词)与内容完全不相关,可以认为是垃圾搜索结果页。

 

 

 

不是垃圾搜索结果页的case1:

http://www.ej38.com/health/info-19459.html

 

说明:

①       虽然这个区域有貌似“标题+摘要”式的内容,但仔细观察一下,这并不是垃圾搜索结果页

②       仔细看内容,这是提问+回答。且每个提问都是可以点击的,点击后的结果页都是该网站自己的网页,充当了这个网站的目录。

 

提示9垃圾搜索结果页v.s.内容穿插:穿插指关键词存在于正常文字段落中,破坏内容语义。而搜索结果页中穿插的关键词出现在标题式的内容里,往往是不破坏语义的。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12. 主要内容读不通

 

12.1 什么叫主要内容读不通

“主要内容读不通”,从字面上就非常好理解,网页上最重要的内容无法读通,文章上下不能连贯在一起。

 

需要注意的是,主要内容读不通指的是网页制作者的故意为之,严重影响读者的感受,而非文章创作者水平有限而导致的语句不通顺。(详见:不是主要内容读不通的case2)

 

特点:

主要内容读不通
内容读不通,文章不连贯

原因:故意为之,制作者人为造成

 

 

 

 

 

 

12.2 主要内容读不通的查看步骤

第一步:快速从前到后扫一下文章,看前后说的是否是同一件事,中间是否有不相关的关键词插入其中。如果发现关键词插入或文章前后不连贯,主要内容肯定是读不通的。如果扫看还可以,进行第二步。

第二步:从文章中分别找三行文字,仔细阅读,看是否有插入的关键词,文字是否能读通。

 

 

思维逻辑图如下:

1.文章主题是否一致
排除主要内容读不通
2.分别找三行,检查是否通顺
标为主要内容读不通
有关键词插入

文章前后不连贯

粗略观察难以确定
标为主要内容读不通
一切正常
发现读不通的部分

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12.3 主要内容读不通的示例

是主要内容读不通的case1:

http://blog.tianya.cn/blogger/post_read.asp?BlogID=3552171&PostID=34335671

部分截图:

 

 

说明:

①       红下划线文字与上下文完全不相关,破坏了文章的整体结构;下面关于舞林大会的文章与上一篇文章没有关系,却连个标题都没有。这样的页面肯定是恶劣低质网页

②       除了上述两点外,文字中还插入了不相关的关键词“水浒传新手”,见图中绿色下划线。这是典型的主要内容读不通的特征。

③       除了主要内容读不通外,这篇文章的标题是“妙贼警探第八集曝财经郎眼主持人晒为动车追尾事”,显示与内容不匹配,badcase需要同时标记“文不对题”。

 

 

是主要内容读不通的case2:

http://www.bokone.com/a/3dzimi/2011/0619/32029.html

部分截图:

 

说明:

截图只选取了两段:与第二段相比,完全看不懂第一段在说什么,而且很明显不是作者的表达问题,而是对文字进行了特殊处理。总之就是:读不通!

 

 

不是主要内容读不通的case1:

http://wenda.tianya.cn/wenda/thread?tid=0c65529d5e4f732a&hl=ar

说明:

看上去全是奇怪的字符,但TITLE显示主要内容应该是“优雅可爱的网名”,再回过头来看看这些都是正常的网名。

 

 

不是主要内容读不通的case2:

http://www.5bcl.com/Article/Class11/200801/1997.html

 

说明:

①       文章的TITLE是“再来平民收音机综合性能最佳指数排名表”,文章的主要内容的确是对几款收音机的点评。

②       作者给点评的收音机排了序,但明显有两个“2”两个“3”。通读一下分析,红色下划绿的序列号应该是同一组,都是在讲美多66b66a收音机的优点;而绿色下划线的序列号应该是另外同一组,是给各收音机的排序。所以说,出现两个“2”“3”是作者写作时造成的,而不是采集内容时没有把版式排好,这个case不是主要内容读不通。

 

 

13. 恶劣采集

 

13.1 什么叫恶劣采集

普通采集是一种建设网站的方式,通过采集程序大量复制别人网站的内容来更新自己的站点。制作者把别人网站的内容采过来后,经过加工(删掉不必要的内容,如导航条、上下翻页等功能键),重新对内容进行排版,使用户方便阅读。

 

采集
恶劣采集
普通采集
建设网站的正常方式,使用别人有价值,与自己相关的内容,经过修改,用于充实自己的站点信息。以良好建设为目的。
不进行加工,不考虑与主题的相关性,直接copy到自己的页面。

 

 

 

 

 

 

 

 

 

 

 

 

恶劣采集,是指制作者把别人网站采过来后,不进行加工,直接复制到自己的网站。这种恶劣采集的网页也是有些特征的:

①       主要内容(即正文)中会出现明显的其它网站的痕迹,比如被采集网站的导航条、上下翻页的功能键文字——这些内容都是无法点击的。(详见:是恶劣采集的case1)

②       或者,网页上有与自己站点类型不相符的特征文字,如普通网站出现bbs中常见的“只关注楼主”等文字。(详见:是恶劣采集的case4)

③       再或者,把采集来的内容往页面上一粘了事,不对排版进行处理,用户找起信息来比较困难甚至根本无法阅读,排版差,阅读难。

④       最恶劣的采集是不把内容采集完成,甚至一段话的开头就是半句话,结尾都不完整,这样的恶劣采集网页根本无法阅读,大多数这样的网页也可以标记为“主要内容读不通”

提示10针对恶劣采集,要把握住上文中的明显特例,你可以很清晰的看到,这里的内容是从别人那里抄袭来的,对你而言,网页上的内容也许是完整的,但是看起来却不舒服。

 

 

 

 

 

 

 

 

13.2 恶劣采集的查看步骤

第一步:网页主要内容部分有没有明显的其它网站的痕迹?或者与自己站点类型不相符的文字?如果有,可以直接认定为恶劣采集(详见:是恶劣采集的case2和case3)。如果没有,进行下一步。

第二步:主要内容的文字是否方便阅读以及查找信息?是否对用户有用?如果答案是否定的,可以视为恶劣采集(详见:是恶劣采集的case1)

第三步:还应该看看主要内容的排版情况,如果几乎没有排版,内容都挤在一起不便阅读,认定是恶劣采集;如果排版问题不大,不影响阅读,可以认为是普通网页。(详见:不是恶劣采集的case1)

 

思维逻辑图如下:

1.是否有明显他人痕迹

.

 

标为恶劣采集
2.是否方便阅读及查找信息,内容是否有用
标为恶劣采集
排除恶劣采集
标为恶劣采集
3.排版是否良好
没有排版or挤在一起
排版良好
内容没有用,使用不方便
大致正常
没有

 

 

 

 

 

 

 

 

 

 

 

 

 

 

13.3 恶劣采集的示例

是恶劣采集的case1:(附被采集的原网页,供参考)

http://kuangji.net/n35944c6.shtml

部分截图1:

 

部分截图2:

 

说明:

①       先附上被采集的原网页: http://ask.39.net/question/19839472.html

②       截图1,标题转行没有做好。专家回家的最后加了一个关键词“小孩白色尿”(蓝色下划线部分)——这在原网页中可是没有的啊!

③       截图2,先看最后绿色下划线部分,这句话是不可点的,下面也没有任何评论内容。

④       截图2中,有很多“标题+问题+回答”的内容,这部分内容是从原网站ask.39.net采集过来的。最重要的是:红色下划线部分明显没有采集完整,而且这些内容都是无法点击的,也就是说,用户无法获得完整的信息。

⑤       综上,这是一个恶劣采集的页面。

 

 

 

是恶劣采集的case2:

http://cang.baidu.com/cases99/snap/c17615311af44430ba4b33a4.html

 

说明:

①       初看这个页面,不知道主要内容想表达什么

②       仔细观察,发现内容里有一些功能键文字,见红色下划线部分;还有一些可能是网站导航条里的内容,见绿色下划线部分——这两点都留下了明显的其它网站的特征。可以认定为恶劣采集。

 

 

是恶劣采集的case3:

http://cang.baidu.com/cases99/snap/06954617031377b2ebb89e43.html

部分截图1:

 

部分截图2:

 

说明:

①       截图中红圈部分——“已售:XXX(N人评论)”,这很明显是淘宝的内容

②       请注意那个“文章到此结束”,下面有大片空白,但浏览器最右边的滚动条显示这个网页还很长。在第二部分标注任务简述的第5 条注意事项中有提示,“当网页上有大片空白(即无内容)的时候,要引起注意”“网页一定从头看到尾,不要看到下面是空白就不再往下看了,也许空白下边还有另一番天地”,于是发现下面还大量采集了淘宝商品售出后的评价(见部分截图2)——从以上两点可以认定这是一个恶劣采集页面

③       另外这个页面TITLE表明是奶粉排行榜,但实际上根本没有相关内容,只是把用户引到一家淘宝店去买奶粉。这个页面要同时标记为“文不对题”

 

 

是恶劣采集的case4:

http://cang.baidu.com/spamcase/snap/73d3e909ecce25f5712ac101.html

部分截图:

 

说明:

截图只是一部分,文章中多次出现类似绿色下划线提示的“作者:XXX 回复日期:XXXXX”,文章中还有“分页”的字样,很明显是采自一个BBS。

 

 

是恶劣采集的case5:

http://cang.baidu.com/spamcase/snap/160bb1d5209ef109295e4a35.html

 

说明:

每个段落都不完整,没有结尾。对用户来说,这些都是垃圾信息。

是恶劣采集的case6:

http://cang.baidu.com/spamcase/snap/401647d3cbea8a0768fdc026.html

部分截图:

 

说明:

①       “问题详细描述”“其他网友回答”——这些字眼往往出现在一些问答平台里,如百度知道,搜搜问问。

②       这个case把问题采集过来做标题,而没有其它答案。对用户来说一点儿用都没有,广告还挂在最醒目的位置。应该被认为是恶劣采集。

 

 

 

不是恶劣采集的case1:

http://stock.stockstar.com/JI2010011200000142_1.shtml ——请直接打开

说明:

①       文章的排版初看起来很混乱,仔细观察发现是右边没有对齐,但并不影响用户阅读,用户依然可以读到一篇完整的文章。

②       在文章“(三)主要财务数据”中,很多数据原本是应该有表格的,但现在这样罗列在这里,对于长期研究证券市场的人来说,阅读起来并不非常困难。

③       虽然这个网页的文章存在排期问题,但首先对阅读的影响不是特别大;其次文章中没有多余的内容;另外观察该网页也没有其它欺骗用户或搜索引擎的行为,可以认为是普通网站。

 

 

不是恶劣采集的case2:

http://wenwen.soso.com/z/q361922044.htm?ch=wtk.title

部分截图:

 

说明:虽然页面显得很杂乱,但用户回答的内容和“相关知识”都属于正常的网页内容,不应该被视为恶劣采集。

 

 

不是恶劣采集的case3:

http://www.louzhuwang.com/baidu/Q196017234.shtml

部分截图:

 

说明:

①       有问题有回答,但是如果我也想参与回答问题却没有对话框,通过这一点儿,可以判断这个页面是采集了某问答平台的内容。请注意,我说的是采集(一种普遍的更新网站的方式),而不是恶劣采集。

②       这个页面的问题和回答都清晰地在放在那里,用户很容易对内容进行分辨,所以不属于恶劣采集。

 

赞(0) 打赏
未经允许不得转载:AJ's Blog » 130125 百度内部网页搜索培训资料分享 关于恶劣低质网页特征标注[恶劣作弊手段详解]
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏