当前位置: 代码迷 >> 综合 >> 正则表达式re,xpath,beautifulsoup
  详细解决方案

正则表达式re,xpath,beautifulsoup

热度:59   发布时间:2024-02-08 07:41:58.0

正则表达式re,记录文本规则的代码,是一个特殊的字符序列,由普通字符和元字符组成。

官方详细文档介绍:https://docs.python.org/zh-cn/3/library/re.html?highlight=re#module-re

import re:

tlt = re.findall('"objURL":"(.*?)"',  html)

元字符:

.    匹配除换行符以外的任意字符

[ ] 字符集,对单个字符给出取值范围        [abc]表示a、b、c,[a-z] 表示a到z单个字符

()  分组标记,内部职能使用 | 操作符        (abc)表示abc,(abc | def)表示abc、def

\w 匹配字母或数字或下划线或汉字,等于[A-Za-z0-9_]

\s 匹配任意的空白符

\d 匹配数字

\b 匹配单词的开始或结束

^ 匹配字符串的开始

$ 匹配字符串的结束

 

反义代码:

\W    匹配任意不是字母、数字、下划线、汉字的字符

\S    匹配任意不是空白符的字符

\D    非数字

\B     匹配不是单词开头或结束的位置

[^a]  匹配除了a以外的任意字符

 

限定符:

   前一个字符 重复零次或多次

+    前一个字符 重复一次或多次

?     前一个字符 重复零次或一次

{n}      前一个字符 重复n次

{n,}     前一个字符 重复n次或更多次

{n,m}  前一个字符重复n到m次

|   左右表达式任意一个            abc | def 表示abc 或 def

如: result = re.finall("[0-9a-z]{4}",‘’abcdn1234kl2‘’)    匹配为a-z 和 0-9 取4位,输出['abcd','n123','4kl2']

贪婪: 尽可能多的匹配

非贪婪:尽可能少的匹配,操作字符:? ,这个操作符实在* + ?  后面的

 

 

常用正则表达式

一、校验数字的表达式

1. 数字:^[0-9]*$

2. n位的数字:^\d{n}$

3. 至少n位的数字:^\d{n,}$

4. m-n位的数字:^\d{m,n}$

5. 零和非零开头的数字:^(0|[1-9][0-9]*)$

6. 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$

7. 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$

8. 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$

9. 有两位小数的正实数:^[0-9]+(.[0-9]{2})?$

10. 有1~3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$

11. 非零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

12. 非零的负整数:^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

13. 非负整数:^\d+$ 或 ^[1-9]\d*|0$

14. 非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

15. 非负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

16. 非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

17. 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

18. 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

19. 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

 

二、校验字符的表达式

1. 汉字:^[\u4e00-\u9fa5]{0,}$

2. 英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

3. 长度为3-20的所有字符:^.{3,20}$

4. 由26个英文字母组成的字符串:^[A-Za-z]+$

5. 由26个大写英文字母组成的字符串:^[A-Z]+$

6. 由26个小写英文字母组成的字符串:^[a-z]+$

7. 由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$

8. 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$

9. 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$

10. 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11. 可以输入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+ 12 禁止输入含有~的字符:[^~\x22]+

 

三、特殊需求表达式

1. Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

2. 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

3. InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

4. 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

5. 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$

6. 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}

7. 身份证号(15位、18位数字):^\d{15}|\d{18}$

8. 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

9. 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10. 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$

11. 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

12. 日期格式:^\d{4}-\d{1,2}-\d{1,2}

13. 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$

14. 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

15. 钱的输入格式:

16. 1.有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$

17. 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$

18. 3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$

19. 4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$

20. 5.必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$

21. 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$

22. 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

23 8.1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

24. 备注:这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里

25. xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

26. 中文字符的正则表达式:[\u4e00-\u9fa5]

27. 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))

28. 空白行的正则表达式:\n\s*\r (可以用来删除空白行)

29. HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)

30. 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)

31. 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)

32. 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

33. IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)

34. IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))

 

 

xpath:

from lxml import etree

*

选择所有子元素,包括注释和处理说明。例如 */egg 选择所有名为 egg 的孙元素。

.

选择当前节点。这在路径的开头非常有用,用于指示它是相对路径。

//

Selects all subelements, on all levels beneath the current element. For example, .//egg selects all egg elements in the entire tree.

..

Selects the parent element. Returns None if the path attempts to reach the ancestors of the start element (the element find was called on).

[@attrib]

选择具有给定属性的所有元素。

[@attrib='value']

选择给定属性具有给定值的所有元素。该值不能包含引号。

[tag]

选择所有包含 tag 子元素的元素。只支持直系子元素。

[.='text']

选择完整文本内容等于 text 的所有元素(包括后代)。

3.7 新版功能.

[tag='text']

选择所有包含名为 tag 的子元素的元素,这些子元素(包括后代)的完整文本内容等于给定的 text 。

[position]

Selects all elements that are located at the given position. The position can be either an integer (1 is the first position), the expression last() (for the last position), or a position relative to the last position (e.g. last()-1).

从根节点来进行选择元素                                                如:/html ;body/div   选取属于body的子元素中的所有div元素;

// 从匹配选择的当前节点来对文档中的节点进行选择         如://div  选取所有div标签的子元素,不管他们在html文档中的位置

 选择当前节点

..  选择当前节点的父节点

@ 选择属性                                                                        如:@lang   选取名称为lang的所有属性

 

通配符:

    匹配任何元素节点

@*   匹配任何属性节点

    路径表达式中,|  注意:代表的是和的关系,不是或。

如: //body/div | //body/li  选取body元素的所有div元素 和 li元素

 

//*               选取文档中的所有元素

//title[@*]    选取所有带有属性的title元素

 

Beatifulsoup:

from bs4 import BeautifulSoup

bs = Beautifulsoup(html,"html.parser")

div_list = bs.find_all('div', {'class': 'span1'})

div = bs.select('div>.el>a>.result')     #div代表标签,加上点.el 代表class属性类名,加上#代表是ID,加> 表示层级选择

 

#文档的搜索

list = bs.find_all("a")                                 #查找所有a标签

list = bs.find_all(id = "head")                    #查找id属性

list = bs.find_all(class_ = True)                #查找所有的class属性

list = bs.find_all(text = ["hao123","地图","贴吧")     #直接查找匹配的文字

list  = bs.find_all("a",limit=3)                    #只匹配3个a的内容

#CSS选择器

list = bs.select('title')                                  #通过标签来查找

list = bs.select(".mnav")                            #通过类名来查找

list = bs.select("#u1")                                #通过ID来查找

list = bs.select("a[class='bri']")                  #通过属性来查找

list = bs.select("head > title")                    #通过子标签来查找

list = bs.select(".mnav ~ .bri")                   #通过兄弟标签来查找