设计模式 javascript bash sed variant Material UI formvalidator.js ACE vue手册 bootstrap后台模版 ddos压力测试 郑州普通话考试 jquery事件绑定方法 cmd查看mysql版本 java运行软件 android调试工具 ubuntu显示隐藏文件夹 mysql删除存储过程 python界面 python高级 python中的for循环 python中pop函数 python网页编程 python读取字典 java变量 java入门新手教程 java8的新特性 java数组添加 java中tostring java安装配置 java的框架 java定义字符串 java输出 java的多线程 路由器辐射大吗 小米5c拆机 ps校正倾斜照片 咪咕客户端下载 gilisoft 只狼鬼佛
当前位置: 首页 > 学习教程  > 编程学习

php 实现信息采集(网页内容抓取)程序代码

2021/1/9 1:58:33 文章标签: php抓取网页内容

php 实现信息采集&#xff08;网页内容抓取&#xff09;程序代码 <? //采集首页地址 $url"http://www.xz-src.com/"; //获取页面代码 $rsfile_get_contents($url); //设置匹配正则 //$fpfopen("text.txt","a"); //$fwfwrite($fp,$rs); //fcl…

php 实现信息采集(网页内容抓取)程序代码


<?
//采集首页地址
$url="http://www.xz-src.com/";
//获取页面代码
$rs=file_get_contents($url);
//设置匹配正则
//$fp=fopen("text.txt","a");
//$fw=fwrite($fp,$rs);
//fclose($fp);
/*<I class=titles><A
href="http://www.xz-src.com/"
target=_blank>留住你身边的好男人</A></I>*/
$preg='/<i\s+class=\"titles\"><a\s+href=\"[^>]+\">(.*)<\/a><\/i>/i';
//进行正则搜索
preg_match_all($preg,$rs,$title);
//计算标题数量
$count=count($title[0]);
echo $count."<br>";
//通过标题数量进行内容采集
for ($i=0;$i<$count;$i++){ 

//设置内容页地址
$pr='/<a\s+href=\"[^>]+\">/isU';
preg_match_all($pr,$title[0][$i],$jurl);
$substr=substr($jurl[0][0],9);
$curl=substr($substr,0,-18);
//获取内容页代码
$c=file_get_contents($curl);
//设置内容页匹配正则
$pc='/<a\s+href=\"[^>]+\">/i';
//进行正则匹配搜索
preg_match($pc,$c,$content);
//输出标题
echo $title[0][$i]."<br>";
echo $title[1][$i]."<br>";
$concount=count($content[0]);
echo $concount."<br>";
echo $content[0][0];
for ($j=0;$j<$concount;$j++){ 

}
}
?>



本文链接: http://www.dtmao.cc/news_show_1100161.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?