程序栈 windows matplotlib caching scrapy textview Ractivejs excel动态图表制作 matlab四舍五入 bootstrap模态框传参 matlab颜色代码 edate函数的使用方法 git下载代码到本地命令 oracle增加主键 python关键字 python例子 python语言编程入门 python学习网站 java时间戳转换成时间 java获取文件大小 swing布局 mounted 苹果手机老是自动重启 两表关联查询 c语言指数函数 mysql使用教程 存储过程写法 批量插入数据 babelrc 蜘蛛皮肤 cad乘号 文件粉碎工具 卸载mysql 混凝土配合比计算软件 三星打印机怎么加墨 jdk9 8700和8700k 服务器备份软件 人马上单天赋 ps怎么做印章效果
当前位置: 首页 > 学习教程  > 编程学习

PHP抓取网页内容经验总结

2021/1/9 1:58:35 文章标签: php抓取网页内容

用php 抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等,抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了…

php 抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等,抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的同学可以参考本站的《正则表达式》板块:http://phpzixue.cn/articles11.shtml ,以下就是几种常用的用php抓取网页中的内容的方法。
1.file_get_contents
PHP代码

  1. $url = "http://www.phpzixue.cn ";
  2. $contents = file_get_contents($url);
  3. //如果出现中文乱码使用下面代码
  4. //$getcontent = iconv("gb2312", "utf-8",$contents);
  5. echo $contents;
  6. ?>

2.curl
PHP代码
  1. $url = "http://www.phpzixue.cn ";
  2. $ch = curl_init();
  3. $timeout = 5;
  4. curl_setopt($ch, CURLOPT_URL, $url);
  5. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  6. curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
  7. //在需要用户检测的网页里需要增加下面两行
  8. //curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
  9. //curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
  10. $contents = curl_exec($ch);
  11. curl_close($ch);
  12. echo $contents;
  13. ?>

3.fopen->fread->fclose
PHP代码
  1. $handle = fopen ("http://www.phpzixue.cn ", "rb");
  2. $contents = "";
  3. do {
  4. $data = fread($handle, 1024);
  5. if (strlen($data) == 0) {
  6. break;
  7. }
  8. $contents .= $data;
  9. } while(true);
  10. fclose ($handle);
  11. echo $contents;
  12. ?>

注:
1. 使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。
2.使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需要拷贝ssleay32.dll和libeay32.dll到C:/WINDOWS/system32下;Linux 下要安装curl扩展

本文链接: http://www.dtmao.cc/news_show_1100163.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?