字节跳动 一帧数据 Gitlab 多进程 gps dedecms sqlite svg vue特点 angularjs教程 matlab停止运行命令 matlab不等于怎么表示 反函数的二阶导数 mysql建表主键自增长 svn安装后右键不显示 python运算 python的开发工具 java基础学习 java中instanceof java流程 java运行 linux服务器 ILspy stata软件 raid0教程 计价软件 京东钱包客户端 羽毛球拍握法 pr放大画面 子节点 骰子gif 操作系统安装 jpg格式转换器 氤氲之息哪里爆率高 任务管理软件 电脑录屏工具 反转字符串 ps旋转图层 wps宏的使用教程 笔底春风
当前位置: 首页 > 学习教程  > 编程学习

网页抓取:PHP实现网页爬虫方式小结

2021/1/9 1:58:37 文章标签: php抓取网页内容

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 一、Ganon…

zhuaqu

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。

一、Ganon

项目地址: http://code.google.com/p/ganon/

文档: http://code.google.com/p/ganon/w/list

测试:抓取我的网站首页所有class属性值是focus的div元素,并且输出class值


<?php
 include 'ganon.php';
 $html = file_get_dom('http://www.ido321.com/');
 foreach($html('div[class="focus"]') as $element) {
   echo $element->class, "<br>\n"; 
 }
?>

 

结果:

ganon

二、phpQuery

项目地址:http://code.google.com/p/phpquery/

文档:https://code.google.com/p/phpquery/wiki/Manual

测试:抓取我网站首页的article标签元素,然后出书其下h2标签的html值


<?php
include 'phpQuery/phpQuery.php'; 
phpQuery::newDocumentFile('http://www.ido321.com/'); 
$artlist = pq("article"); 
foreach($artlist as $title){ 
   echo pq($title)->find('h2')->html()."<br/>"; 
} 
?>

 

结果:

pq

  三、Simple-Html-Dom

项目地址: http://simplehtmldom.sourceforge.net/
文档: http://simplehtmldom.sourceforge.net/manual.htm

测试:抓取我网站首页的所有链接


<?php
include 'simple_html_dom.php';
//使用url和file都可以创建DOM
$html = file_get_html('http://www.ido321.com/');

//找到所有图片
// foreach($html->find('img') as $element)
//        echo $element->src . '<br>';

//找到所有链接
foreach($html->find('a') as $element)
       echo $element->href . '<br>'; 
?>

 

结果:(截图是一部分)

shd

 

四、Snoopy

项目地址:http://code.google.com/p/phpquery/

文档:http://code.google.com/p/phpquery/wiki/Manual

测试:抓取我的网站首页


<?php
include("Snoopy.class.php");
$url = "http://www.ido321.com";
$snoopy = new Snoopy;
$snoopy->fetch($url); //获取所有内容
 echo $snoopy->results; //显示结果
// echo $snoopy->fetchtext ;//获取文本内容(去掉html代码)
// echo $snoopy->fetchlinks($url) ;//获取链接
// $snoopy->fetchform ;//获取表单 
?>

 

结果:

snoopy

 

五、手动编写爬虫

如果编写能力ok,可以手写一个网页爬虫,实现网页抓取。网上有千篇一律的介绍此方法的文章,LZ就不赘述了。有兴趣了解的,可以百度  php 网页抓取。



转载请注明:前端录»网页抓取:PHP实现网页爬虫方式小结

<script src="http://www.wozhuye.com/index.php?m=digg&c=index&a=init&id=30-8-2"></script>

本文链接: http://www.dtmao.cc/news_show_1100167.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?