python如何读取网页中的数据

想读取远程指定网页中的数据，如-当前在线交流人总数。如何实现

最新回答

书生剑主

2024-11-04 12:26:01

用Beautiful Soup这类解析模块：

Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)；
它提供简单又常用的导航(navigating)，搜索以及修改剖析树的操作；
用urllib或者urllib2(推荐)将页面的html代码下载后，用beautifulsoup解析该html；

然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来，就可以进行相关处理了，例如：

from BeautifulSoup import BeautifulSoup
html = '<html><head><title>test</title></head><body><p>test body</p></body></html>'
soup = BeautifulSoup(html)
soup.contents[0].name
# u'html'
soup.comtents[0].contents[0].name
# u'head'
head = soup.comtents[0].contents[0]
head.parent.name
# u'html'
head.next
# u'<title>test</title>

萌妹子

2024-11-04 15:46:38

不知道你说的网页是指的什么，如果你说的是我保存了一网页在你的电脑上，那就直接用open函数打开，read函数读就行了。

如果你说的是某个URL指向的网页内容，那就要用urllib2模块来抓取网页咯。

心里纳凉

2024-11-04 14:26:01

就是属于网页抓取，可参考：
如何用Python，C#等语言去实现抓取静态网页模拟登陆网站

里面有逻辑解释和代码。

(此处不能贴地址，可以通过google搜标题，即可找到帖子地址)

欧尼酱

2024-11-04 11:20:16

用Beautiful Soup这类解析模块

Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。

用urllib或者urllib2(推荐)将页面的html代码下载后,用beautifulsoup解析该html

然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来,就可以进行相关处理了

例子:

from BeautifulSoup import BeautifulSoup

html = '<html><head><title>test</title></head><body><p>test body</p></body></html>'

soup = BeautifulSoup(html)

soup.contents[0].name
# u'html'

soup.comtents[0].contents[0].name
# u'head'

head = soup.comtents[0].contents[0]

head.parent.name
# u'html'

head.next
# u'<title>test</title>

剩下的自己看文档吧

我要回答

匿名回答

python如何读取网页中的数据

您可能感兴趣问答

Collapsible

热门标签

热点问答