第二部分,标注任务简述
3. 任务:从内容维度上对恶劣低质网页进行标注
上面讲到什么是恶劣低质网页,其实恶劣低质网页的种类和样式很多,本次标注仅从网页的主要内容是否使用了恶劣手段欺骗搜索引擎欺骗用户的角度去判断恶劣低质网页,并对其恶劣手段进行标注。
根据文档中给出的特征判断网页是否属于恶劣低质网页,如果是恶劣低质网页,再标注其使用的手段。
4. 内容维度的特征包括哪些方面(即需要标注的恶劣手段)
内容维度从TITLE和主要内容两部分对网页进行判断和标注,分别是:
- TITLE堆积关键词
- TITLE放置恶劣长尾词
- 内容堆积关键词
- 内容穿插
- 垃圾搜索结果页
——这五种恶劣手段,有一个共同的目的:给网页增加关键词,欺骗搜索引擎,至使网页在搜索结果中的排位升高。
6,文不对题
7,主要内容读不通
8,恶劣采集
5. 注意事项
l 由于一些恶劣低质网页随时会死掉,我们将它保存在百度搜藏(cang.baidu.com)内,方便外包人员观察
l 观察要仔细,尤其是对网页内容的观察,堆积的关键词和穿插的关键词可能会非常隐蔽不易察觉。
l 外包人员在平台上对网页进行查看,如果看不到内容或感觉网页的排版很奇怪,请点击URL进行查看,因为平台抓取有可能失败。
l 当网页上有大片空白(即无内容)的时候,要引起注意
² 网页一定从头看到尾,不要看到下面是空白就不再往下看了,也许空白下边还有另一番天地 www.5oooo.com/shuaQbi/2012/0229/9939.html
² 用鼠标刷一下空白处,看看是否有文字 http://cang.baidu.com/cases99/snap/6635cc392ca2a0a35d16a30b.html 着重观察这些文字是否涉及恶劣手段。