Python爬虫实战 ios5 vue响应式布局 河南省普通话考试官网 jquery使用ajax js字符串排序 bootstrap模态框传参 查看nodejs版本 mysql将时间戳转换成日期 python数据格式 react python使用教程 python的安装路径 java入门级教程 java时间戳转日期 java接口调用 linux命令行大全 路由器有辐射吗 微信超级好友 html特殊字符 防沉迷助手 pr缩放 java核心技术 隐藏进程 ps色阶快捷键 图片轮播代码 大势至usb监控 文章查重软件 网络驱动 屏幕录像专家注册机 启用宏在哪里设置 js对象转字符串 华为手机屏保怎么设置 笔底春风 骰子技巧 征战者加点 最终幻想15最强武器 精简版迅雷 机箱散热风扇安装方向 远程遥控
当前位置: 首页 > 学习教程  > 编程学习

用php抓取网页内容方法总结

2021/1/9 1:58:39 文章标签: php抓取网页内容

用php抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等,抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了&…

php抓取网页内容方法总结">用php抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等,抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的同学可以参考本站的《正则表达式》板块:http://phpzixue.cn/articles11.shtml,以下就是几种常用的用php抓取网页中的内容的方法。
1.file_get_contents
PHP代码
<?php    
$url = "http://www.phpzixue.cn"; 
$contents = file_get_contents($url); 
//如果出现中文乱码使用下面代码 
//$getcontent = iconv("gb2312", "utf-8",$contents);  
echo $contents; 
?>   

2.curl
PHP代码
<?php    
$url = "http://www.phpzixue.cn"; 
$ch = curl_init(); 
$timeout = 5; 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); 
//在需要用户检测的网页里需要增加下面两行 
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY); 
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD); 
$contents = curl_exec($ch); 
curl_close($ch); 
echo $contents; 
?> 

3.fopen->fread->fclose
PHP代码
<?php    
$handle = fopen ("http://www.phpzixue.cn", "rb"); 
$contents = ""; 
do { 
   $data = fread($handle, 1024); 
   if (strlen($data) == 0) { 
   break; 
   } 
   $contents .= $data; 
} while(true); 
fclose ($handle); 
echo $contents; 
?> 

注:
1.使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。
2.使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下;Linux下要安装curl扩展。


本文链接: http://www.dtmao.cc/news_show_1100170.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?