python BeautifulSoup获取a标签问题

<tr class="row" onmouseover="this.className='row1'" onmouseout="this.className='row'">
<td height="20"><a href="/gc/123.html" target="_blank">皇马</a></td>
<td align="center">皇马</td>
<td align="center">大陆</td>

<td align="center"><a href="/gc/123.html" target="_blank">点击进入</a></td>
<td align="center">12月26日</td>
</tr>

如上述html所示网页中存在大量的<tr class="row" onmouseover="this.className='row1'" onmouseout="this.className='row'">
所以我想先用函数 findAll找到上述tr标签之后再去获取a标签中的链接/gc/123.html
该如何做呢？
采用BeautifulSoup 可以这样做
import urllib
import sys
import re
from BeautifulSoup import BeautifulSoup

fp = open("文档",'r')
for eachurl in fp:
urlhandle = urllib.urlopen(eachurl)
content = urlhandle.read()
parser = BeautifulSoup(content)
res = parser.findAll('tr',{'onmouseout':'this.className=\'row\'','onmouseover':'this.className=\'row1\''})
for my in res:
state = []
for a in my.a['href']:
if a != None:
state.append(a)
print ''.join(state)
fp.close()

举报该问题

推荐答案 2011-12-26

# encoding: UTF-8
#è¯·èªè¡ä¸è½½lxmlåº
from lxml.html import fromstring #ä¼å¤§æ æçlxmlåº
class_name="row" #åæ¾å°class=rowçææDOMå¯¹è±¡
dxpath="./td[1]/a" #åæ ¹æ®xpathæ¾å°å¯¹åºç a æ ç¾

f=open("1.TXT") #è¯»åä½ çæµè¯ææ¡£
a=f.read()
f.close()

dom = fromstring(a)
b = dom.find_class(class_name) #æ¾å°ææclass=rowçå¯¹è±¡
print len(b)
if len(b):
for b1 in b:
ddd=b1.xpath(dxpath)
if len(ddd):
for ddd1 in ddd:
print ddd1.get("href")è¿½é®

è½ä¸è½ç¨BeautifulSoupè¿ä¸ªæä»¶å¢ï¼

è¿½ç

lxml åé¨å¸¦æäºbeautifulsoup,å»ºè®®æ¹lxmlå§

温馨提示：答案为网友推荐，仅供参考

当前网址：http://22.wendadaohang.com/zd/02STfT0TT.html

其他回答

第1个回答 2013-02-01

还是BeautifulSoup好用的。
详见我的教程：
【教程】Python中第三方的用于解析HTML的库：BeautifulSoup

(此处不能贴地址，可以通过google搜标题，即可找到帖子地址)

第2个回答 2011-12-27

[url=http://dzh.mop.com]大杂烩[/url]

相似回答

大家正在搜