安静
PHP技术博客

130126 百度内部网页搜索培训资料分享 关于恶劣低质网页特征标注[在标注环境下如何操作]

 

第四部分,在标注环境下如何操作

 

14. 标注环境内需要评估人员标记的内容

 

在网页类型处进行单项选择,三个选项分别为:普通网页、恶劣低质网页、无法评估。对被标记为垃圾网页的页面,必须进行具体手段(平台上显示的是badcase)的选择。

n  如果网页正常,没有可标注项,在网页类型处选择“普通网页”。

n  如果网页存在明显可标注项,需要先在网页类型处选择“恶劣低质网页”,然后选择badcase里的手段,这里的badcase支持多选。

n  遇到以下情况的网页,请在网页类型处选择“无法判断”。

a)         平台无法展现网页,更换浏览器后依然无法显示,且原网页也打不开

b)         BBS、BLOG页面等被站点管理员删除,通常会有“内容已被删除”等字样。

c)         因权限问题无法观察的网页,如一些论坛分区,只有高级会员才有浏览资格。

d)        视频文件或图片已删除,无法观看。

e)        点开真正URL进行查看时,发现与平台抓取的网页内容不一样,确认打开的URL与平台上显示的URL是否一样,不一样选择“无法判断”

15. 标注时遇到以下情况,请根据提示点击URL进行查看

n  有时候,平台抓取网页时会出错,如果遇到排版很奇怪的网页,我们有必要去原网页核实一下。

n  视频无法观看。有时在标注环境中视频加载失败,而原网页视频正常。

 

赞(0) 打赏
未经允许不得转载:AJ's Blog » 130126 百度内部网页搜索培训资料分享 关于恶劣低质网页特征标注[在标注环境下如何操作]
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏