PHP preg_match_all函数中的正则表达式问题

我想爬取新浪体育网页的信息,网页中内容格式为
<li>
<a title="" target="_blank" href="
http://sports.sina.com.cn/cba/2014-11-10/17327404918.shtml
">马布里:连续客场非输球借口</a>
</li>
使用preg_match_all函数,正则表达式为:
'#<a title="" target="_blank" href="(.*?)">(.*?)</a>#si';
为什么得不到结果
最新回答
纞嗳の方程鉽

2024-10-23 04:30:09

分析:字符串是一个基本的HTML元素,每一个DIV元素对应该一个ID和内容,并且是独立的,首先考虑如何 取出一个DIV内的ID值和内容,如:jb51.net,然后匹配其它类似的元素。一个DIV中须要取出两个值,也就是两个匹配的表达式,第一个表达式用于匹配ID值(biuuu),第二个表达式用于匹配ID的内容(jb51.net),正则表达式常用的表达式运用小括号,那么前面的元素将会变成如下形式:
<div id="(biuuu)">(jb51.net)</div>
<div id="(表达式1)">(表达式2)</div>

运用如上小括号把须要匹配的区域执行 了划分,接下来就是如何 匹配各个表达式内的内容,猜想一个ID可能是字母,数字或下划线,那这就变得基本,运用中括号就可以实现,如下:
表达式1:[a-zA-Z0-9_]+ (表示匹配大小写字母,数字和下划线)
那如何 匹配表达式2,因为ID的内容可以是任意的字符,但是要留心,不能匹配<或>字符,因为如果匹配这两个字符将会把后面运用的DIV都匹配出来,因此须要排除这两个字符开始的元素,也就是不匹配以<或>字符,如下:
表达式2:[^<>]+ (表示不匹配<和>字符)
这样,须要匹配的子表达式就实现了,但是还要须要匹配一个 的表达式,要领如下:
表达式:/ '\"(表达式1)\"'>(表达式2)<\/div>/
留心其中的双引号"和/须要运用 \转义字符转义,然后把前面两个表达式放进去。
年少轻狂不懂胜者为王-

2024-10-23 07:45:56

php自学网2< /div< div id="biuuu_3"php自学网3< /div';   PHP函数preg_match_all实例要求:分别将每一个DIV元素的ID和内容取出,如biuuu,biuuu_2,biuuu_3,php自学网,php自学网2和php自学网3(一些常用的抓站方法就是这样匹配的)   分析:字符串是一个简单的HTML元素,每一个DIV元素对应该一个ID和内容,并且是独立的,首先考虑如何取出一个DIV内的ID值和内容, 如:php自学网,然后匹配其它类似的元素。一个DIV中需要取出两个值,也就是两个匹配的表达式,第一个表达式用于匹配ID值(biuuu),第二个表 达式用于匹配ID的内容(php自学网),正则表达式常用的表达式使用小括号,那么前面的元素将会变成如下形式:   < div id="(biuuu)"(php自学网)< /div < div id="(表达式1)"(表达式2)< /div   表达式1:[a-zA-Z0-9_]+ (表示匹配大小写字母,数字和下划线)   表达式2:[^<]+ (表示不匹配<和字符)   这样,PHP函数preg_match_all需要匹配的子表达式就实现了,但是还要需要匹配一个的表达式,方法如下:   表达式:/ '"(表达式1)"'(表达式2)/   注意其中的双引号"和/需要使用转义字符转义,然后把前面两个表达式放进去,如下:
希望能解决您的问题。
追问
我太看明白,不能用我写的.*?的方式来匹配吗?必须写成[]的形式吗?
何必纠缠

2024-10-23 05:26:53

$parten = '/<li>.*href="(.*)">(.*)<\/a><\/li>/isU';
追问
谢谢你,你的表达式可以提取出信息,但是因为把title="" target="_blank"的匹配要求给省略了,得到的结果不是我想要的,我自己修改正则表达式,添加成$pattern = '/.*title="".*href="(.*)">(.*)/isU';就不能得到结果,这是为什么,应该怎么改呢?
追答
是要 必须有title和target 属性的 ?
$parten = '/.*title=""\s+target="_blank"\s+href="(.*)">(.*).*/isU';