安静
PHP技术博客

130123 百度内部网页搜索培训资料分享 关于恶劣低质网页特征标注[评估必备基础]

第一部分,评估必备基础

 

1. 评估必备软件

为了你能正常进行评估任务,请确保安装如下软件:

1.1 Firefox浏览器

浏览器是我们工作中最基本的软件。为了保证你正常的工作,请使用Firefox浏览器,并且一般升级到最新的版本。可从此处下载:http://www.firefox.com.cn/download/

但因为Firefox对某些页面支持不够好,导致页面内容异常,如遇此情况请更换IE浏览器查看。常见的Firefox支持不够好的页面包括mp3播放页、视频播放页、软件下载页等。如下几个例子:

ü  Firefox不支持迅雷下载需要更换IE:http://kuai.xunlei.com/d/GVKWITFIEELJ

ü  Firefox不支持在线听歌需要更换IE:http://www.2651.cn/Html/2/Play_5880.html

ü  Firefox不支持在线看需要更换IE: http://www.ddoo.cc/jq/14134/play-0-0.html

 

1.2 杀毒软件

在评估中,对于抓取有问题的页面,你经常需要实际打开url网页,其中有些可能会含有病毒、损害你的电脑,所以建议你安装好杀毒软件。

 

1.3 adobe flash player、windows media、qvod等播放器

现在互联网上有很多网页,特别是含有视频、音乐等网页,需要已经安装了Adobe的flash player且为最新版本才可正常访问;部分视频需要安装qvod播放器等才能播放,举例说明:

ü  需要安装flash player的:http://www.chevrolet.com.cn/brandsite/

ü  需要安装qvod的:http://www.kxkdy.com/tid-8831/

ü  需要安装百度影音的:http://www.qire123.com/mainland/anxian/

 

 

2. 评估必备基础知识

 

2.1 什么是恶劣低质网页,为什么要对其进行标注

 

恶劣低质网页,重点在恶劣和低质上!

 

恶劣低质网页会使用一些不正当的手段欺骗搜索引擎,用以增加在搜索引擎的展现,提高在搜索结果中的排位。

 

恶劣低质网页在制作时不考虑用户的感受,没有对用户有实际帮助的内容,甚至将其它信息强加给用户,或者用户在网页内寻找信息非常麻烦。比如从标题上看网页会说如何在淘宝上开店,但实际却是在讲怎么炒股赚钱,并留下一个联系方式让你和他联系,吸引你加入他们的收费俱乐部。

 

恶劣低质网页严重伤害用户的搜索体验,用户在搜索资料时看到这样的网页会感觉非常不舒服,耽误用户的时间。有些恶劣低质网页里可能含有对用户有伤害的信息,给用户带来实际损失。百度需要把这些网页找出来,分析特征,制定策略,将它们清理出去。

 

2.2 常用术语解释

 

ü  Query

也可称查询词、搜索词,指用户输入到搜索框想要查找的字词。全文涉及到的Query,用【】标记。

 

ü  关键词

一般来说,我们把页面或者title中出现的、与Query有关的词称为关键词(后面所讲的内容堆积关键词,往往指的就是这种词)。如Query是【男人帮】,那页面或title中的“男人帮剧情”、“男人帮在线观看”、“男人帮分集”都叫关键词。

 

ü  用户需求,简称“需求

是人们输入Query想要寻找的信息。如搜索【新浪微博】,那用户需求是找http://t.sina.com.cn/。搜【如何减肥】,是想减肥,找减肥的方法、产品。搜【樱桃全集在线观看】,是想在网上收看电视全集,而不是只想看片花。

 

ü  结果,或搜索结果

指百度根据Query返回的搜索结果,可以指具体某一条,也可以指所有的结果。

 

ü  URL,也称为网页地址,简称网址

百度首页的url是“http://www.baidu.com/”。

 

ü  Title

即标题。标题通过浏览器最上方得到显示。评估只针对去掉浏览器信息和站点信息后的部分。

如下截图:

①   最右面的”Mozilla Firefox”为浏览器信息;

②   “中国网络电视台”是站点信息——这部分可以从网页左上角得到印证;

③   “新闻台”是文章所在的频道名称——频道名称往往可以从标题上面的导航中找到,一般指一个目录,所以频道名称往往都是含盖面非常广的通用词;

④   最左边的“百度搜索评测平台”是我们平台的名字;

⑤   去掉上述这些后,就剩下“北京今清理三非外国人 构成犯罪老外将被追刑责”,这才是真正的标题,也是我们要评估标注的TITLE对象。

 

ü  内容

往往指的是网页主要内容、主体内容。指的是网页中最关键、最能引起用户注意的地方。一般来说,除去网页的导航条、边框外和版权信息部位外,网页的中间偏左上的位置是网页的主体内容。对于bbs和博客来说,文章是网页的主要内容。

注意:在做内容维度的标注时,广告内容是不参与标注的。

 

ü  优化

针对搜索引擎对网站内容和结构进行优化,简称优化。优化分为善意和恶意,我们欢迎针对搜索引擎检索习惯去改善网站结构、令用户更容易找到所需内容的善意优化行为;坚决打击只在乎搜索结果排位、不顾用户感受、甚至伤害用户搜索体验的恶意优化。此文档涉及的优化在没有特殊说明的情况下,都属于恶意优化。

 

ü  受益,也称为受益方

所谓“无利不起早”,垃圾网页的背后必然有一个团体,即某些人从这个垃圾网页能得到好处。比如通过放置广告收取费用;把用户引到目标电子商务站点,如果完成交易即从中获取提成;比如放置一些联系方式,让用户与其直接联系,线下完成交易。所有受益都需要大批流量(用户的访问),垃圾网页便是骗取流量的利器,是用户和受益方的纽带或桥梁。目前我们把受益方分为:受益链接、受益联系方式、受益广告。

赞(0) 打赏
未经允许不得转载:AJ's Blog » 130123 百度内部网页搜索培训资料分享 关于恶劣低质网页特征标注[评估必备基础]
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏