intellij idea使用教程 CoreJava idea tsql gwt knockoutjs build uiview count menu tinymce vue安装 vue下载 vue基础教程 河南普通话 jq触发点击事件 python与机器学习 ps字体旋转角度 ceb转换成pdf在线转换 android调试工具 pcm接口 java解析pdf 判断bigdecimal是否为空 python输出函数 python高级 java多态 java实现接口 java教材 配置java开发环境 java单继承 java注释规范 java文件删除 linux硬盘 python源码 战地女记者 linux操作系统原理 小米5c拆机 js数组移除指定元素 dota改键工具 maya2016教程
当前位置: 首页 > 学习教程  > 编程学习

PHP抓取小说网站内容

2021/1/9 1:58:43 文章标签: php抓取网页内容

爬取免费内容,弄到手机,听书,妥妥的。 ini_set(user_agent,Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; GreenBrowser)); ini_set(max_execution_time, 0);$base https://www.qu.la/b…

爬取免费内容,弄到手机,听书,妥妥的。

ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; GreenBrowser)');
ini_set('max_execution_time', '0');

$base = 'https://www.qu.la/book/19434/';
$start = '7504808.html';

$content_grep = '/&nbsp;&nbsp;&nbsp;&nbsp;(.*)<br\/>/';
//$content_grep = '/<div id="content">(.*)<br\/>/sS';

$next_grep = '/<a id="pager_next" href=\"(\d+\.html)\" target="_top" class="next">下一章<\/a>/';


$next = $start;
$file_name = '听书了.txt';

while($next) {
    echo 'getting ' . $next . PHP_EOL;
    $result = file_get_contents($base . $next);

    preg_match_all($content_grep, $result, $match);

    $isTitle = true;
    $content = "";
    foreach($match[1] as $line) {
        $line   = str_replace("<br/>", '', $line);
        $line   = str_replace(" ", '', $line);
        if($isTitle) {
            $content = $line . PHP_EOL . PHP_EOL;
            $isTitle = false;
        } else {
            $content .= '        ' . $line . PHP_EOL . PHP_EOL;
        }
    }

    $file = fopen($file_name, 'a');
    echo 'write length: ' . strlen($content) . PHP_EOL;
    fwrite($file, $content);
    fclose($file);

    echo '.';

    preg_match($next_grep, $result, $match);
    $next = $match[1];
}

 

 

 


本文链接: http://www.dtmao.cc/news_show_1100177.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?