安静
PHP技术博客

101030 文件抓取 snoopy类介绍

最近机房服务器不稳定 刷新缓存的时候 总是 时有时无,  failed to open stream : HTTP request failed!   …本地打开怎么都没问题 就是服务器那边跑 不行

谷歌后 修改了 apache php 的 配置 还是不行,想起了以前做 内容抓取的利器  snoopy

down下来后 随便跑了下 问题就解决了,这里介绍下 snoopy的用法。

snoopy 下载地址:

http://sourceforge.net/projects/snoopy/files/Snoopy/Snoopy-1.2.4/Snoopy-1.2.4.zip/download

snoopy 用法:

snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies

抓取博客内容:

<?
include “Snoopy.class.php”;
$snoopy = new Snoopy;
$snoopy->fetch(“http://xxxx”);
echo $snoopy->results;
?>

比如说我们抓取我的blog的文字

<?
include “Snoopy.class.php”;
$snoopy = new Snoopy;
$snoopy->fetchtext(“http://xxx”);
echo $snoopy->results;
?>

抓取链接

<?
include “Snoopy.class.php”;
$snoopy = new Snoopy;
$snoopy->fetchlinks(“http://www.lpfrx.com”);
print_r($snoopy->results);

?>

赞(0) 打赏
未经允许不得转载:AJ's Blog » 101030 文件抓取 snoopy类介绍
分享到: 更多 (0)

评论 10

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #-49

    貌似功能强大哦。测试一下,呵呵

    3G建站程序10年前 (2010-11-01)
  2. #-48

    网站好看,模板是自己写的吗?

    瘦身霜10年前 (2010-11-03)
  3. #-47

    不懂……

    感恩10年前 (2010-11-09)
  4. #-46

    看到代码就头疼~所以一直很佩服程序员。

    网络招聘10年前 (2010-11-10)
  5. #-45

    一直用curl抓取网页,然后正则去html标记,这个不知道性能如何?

    wordpress开发吧10年前 (2010-11-16)
  6. #-44

    有点道理

    匿名10年前 (2010-11-16)
  7. #-43

    看起来很好用的样子
    可惜不会PHP

    krfantasy10年前 (2010-11-27)
  8. #-42

    感觉楼主很用心,会常来看你的文章和博客的。

    Juicy Couture10年前 (2010-11-29)
  9. #-41

    向博主看

    网站很好看

    baby ugg boots10年前 (2010-12-10)
  10. #-40

    很不错

    discount coach bags10年前 (2010-12-12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏