Kerberos认证原理 单例模式 centos7安装 WebService makefile 深度图像 jsf servlets automation grep 后台管理模板下载 郑州网站建设 nodejs教程视频 css最后一个子元素 iot系统 bootstrap模态框传参 matlab 图像识别 jquery获取兄弟节点 python最大值 二分查找python python运行 java中的接口 java抽象方法 java如何配置环境变量 java新建文件 java中long linux安装 vbscript程序员参考手册 神龙kms ps选择反向快捷键 backtrack3 通讯录管理系统 git命令 苹果双微信 游戏python界面编程 文章查重软件 证书小精灵 手工画像 facetime要钱吗 淘宝抽奖活动
当前位置: 首页 > 学习教程  > python

爬虫学习(12):爬取诗词名句网并且下载保存

2021/2/6 22:25:12 文章标签: 测试文章如有侵权请发送至邮箱809451989@qq.com投诉后文章立即删除

用BeautifulSoup爬取并且下载。仅仅用作学习用途哈,不然又侵权了。 效果: 由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣群&#xff…

用BeautifulSoup爬取并且下载。仅仅用作学习用途哈,不然又侵权了。
效果:
在这里插入图片描述

在这里插入图片描述

由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣群:970353786,希望更多喜欢学习python的可以跟我一起学习交流。
上代码:

import requests
from bs4 import BeautifulSoup
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Edg/86.0.622.63'
}
url = 'https://www.shicimingju.com/book/hongloumeng.html'
page_text = requests.get(url=url,headers=headers).content.decode('utf-8')
soup = BeautifulSoup(page_text,'lxml')
mulu=soup.find_all(attrs={'class':'book-mulu'})
# mulu=soup.select('.book-mulu')
# print(mulu)
fp = open('./论语.txt','w',encoding='utf-8')
for ul in mulu:
    a=ul.find_all(name='a')
    for i in a:
        title = i.string
        new_url = 'https://www.shicimingju.com' + i['href']
        # print(new_url)
        # print(title)
        html=requests.get(url=new_url,headers=headers).content.decode('utf-8')
        new_soup=BeautifulSoup(html,'lxml')
        # print(soup)
        for  wenben in new_soup.find_all('div',{'class':'chapter_content'}):
            print(wenben.text)
            c=wenben.text
            fp.write(title + ':' + c + '\n')
            print('下载成功')

有问题群里找我,或者这里留言都可以


本文链接: http://www.dtmao.cc/news_show_2000083.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?