1. 首页
  2. Python

通过python的正则表达式re模块匹配出html标签以及内容

“u003Cdivu003Eu003Cpu003E#代码如下:u003Cu002Fpu003Eu003Cpreu003E#以下代码是通过python的正则表达式re模块匹配出html标签以及内容u003Cbru003Eimport re #必须导入内置的正则表达式re模块u003Cbru003Einfo='<html><h2>zhangsan<u002Fh2><u002Fhtml>’u003Cbru003E#上面一行代码定义info为html标签内容,包含2个标签,第1个标签是html,第2个标签是h2,标签内容是zhangsanu003Cbru003Epattern1=re.compile(r'<(\w+)><(\w+)>(.+)<u002F\2><u002F\1>$’)u003Cbru003E#上面这行代码的(\w+)代表至少1个数字字母下划线,(.+)匹配除换行符 \n 之外的任何至少1个单字符,<u002F\2>代表第2个标签的<u002Fh2>,<u002F\1>代表第1个标签的<u002Fhtml>u003Cbru003Eresult1=re.match(pattern1,info)u003Cbru003E#上面这行代码代表从头开始匹配info里符合正则规则pattern1的内容,并赋值给result1u003Cbru003Eprint(“result1:”,result1)u003Cbru003Eprint(“result1.group():”,result1.group())u003Cbru003E#上面这行代码代表要打印匹配出来的所有结果,group()代表所有的u003Cbru003Eprint(“result1.group(1):”,result1.group(1))u003Cbru003E#上面这行代码代表要打印匹配出来的第一个结果,group(1)代表第一个结果u003Cbru003Eprint(“result1.group(2):”,result1.group(2))u003Cbru003E#上面这行代码代表要打印匹配出来的第二个结果,group(2)代表第二个结果u003Cbru003Eprint(“result1.group(3):”,result1.group(3))u003Cbru003E#上面这行代码代表要打印匹配出来的第三个结果,group(3)代表第三个结果u003Cbru003Eu003Cu002Fpreu003Eu003Cpu003E代码运行结果如下:u003Cu002Fpu003Eu003Cpu003Eresult1: <re.Match object; span=(0, 30), match='<html><h2>zhangsan<u002Fh2><u002Fhtml>’>u003Cu002Fpu003Eu003Cpu003Eresult1.group(): <html><h2>zhangsan<u002Fh2><u002Fhtml>u003Cu002Fpu003Eu003Cpu003Eresult1.group(1): htmlu003Cu002Fpu003Eu003Cpu003Eresult1.group(2): h2u003Cu002Fpu003Eu003Cpu003Eresult1.group(3): zhangsanu003Cu002Fpu003Eu003Cpu003E图片示例如下:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F9127f9b3d82f4afe8a9aba3647856f77″ img_width=”1329″ img_height=”745″ alt=”通过python的正则表达式re模块匹配出html标签以及内容” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cu002Fdivu003E”

原文始发于:通过python的正则表达式re模块匹配出html标签以及内容

主题测试文章,只做测试使用。发布者:~那﹑男人是我的命﹪,转转请注明出处:http://www.cxybcw.com/13076.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code