行测 XShell idea离线安装 LeetCode https xml shell magento silverlight extjs graph configuration pyqt request seo 后台管理界面 jq选择子元素 h5下拉刷新 查看nodejs版本 ssr链接解析 mysql数据库 python搭建环境 python中str函数 python字典添加 python插件 python正则匹配数字 java中的正则表达式 java语言代码大全 java接口的使用 java获取文件大小 java目录 java中接口的定义 java泛型的使用 java异常处理 java开发语言 linux入门基础 php开发实例 怪物猎人ol捏脸数据 js转int 咪咕客户端下载
当前位置: 首页 > 学习教程  > 编程语言

python正则表达式网页爬虫

2020/7/24 9:20:44 文章标签:

正则表达式

正则表达式相关知识

1,背景

字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。

2,定义

正则表达式(regular expression,rc)是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。

3,方法

(1)创建一个匹配Email的正则表达式;

(2)用该正则表达式去匹配用户的输入来判断是否合法。

4,应用

(1)验证用户名和密码:(”1\w{5,15}$”)正确格式:”[A-Z][a-z]_[0-9]”组成,并且第一个字必须为字母6~16位;

(2)验证电话号码:(”^(\d{3,4}-)\d{7,8}$”)正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;

(3)验证手机号码(包含虚拟号码和新号码段):”^1([38][0-9]|4[5-9]|5[0-3,5-9]|66|7[0-8]|9[89])[0-9]{8}$”;

(4)验证身份证号(15位):”\d{14}[[0-9],0-9xX]”,(18位):”\d{17}(\d|X|x)”;

题目

用正则判断QQ邮箱是否合法,这里的 QQ邮箱指QQ号@qq.com"">+@qq.com结尾。

分析:1)QQ最短5位最长11位数

2)以@qq.com结尾

3)不能以0开头

实现代码

在这里插入图片描述

运行结果

在这里插入图片描述

网页爬虫

目的

1、学习网络爬虫编程,掌握网络爬虫编程实例;

2、掌握利用正则表达式从字符串中提取特定字符串的方法;

3、掌握利用正则表达式实现爬虫编程,爬取网络信息的方法。

要求

1、掌握正则表达式检查字符串是否与指定模式匹配、从字符串中提取特定字符串的方法,掌握了利用正则表达式实现爬虫编程,爬取网络信息的方法。

2、掌握爬虫程序的基本操作原理以及操作过程,能设计简单的爬虫程序,对今后网络编程技术打下基础。

题目

1、利用正则表达式,编写一个爬虫程序,抓取页面中文字:桂电要闻、文明校园建设、桂电新闻、校园快讯、学院动态、媒体桂电、通知公告、招标公示。

2、利用bs4抓取主页 www.guet.edu.cn 标题

实现代码

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

运行结果

在这里插入图片描述


  1. a-zA-Z ↩︎


本文链接: http://www.dtmao.cc/news_show_50033.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?