python中正则和beautifulsoup的使用

网页内容：有很多类似于...的东西，但是我只想要类似于
<h4>overview（可以是别的）</h4>
想要的
不想要类似于内容 内容
另外再请教大神们：利用beautifulsoup中利用soup.get-text（）返回的值是什么类型的队列还是字符串还是什么？

举报该问题

推荐答案 2014-03-04

你是要里面没有其他标签的？还是要吧p里面的标签也去掉？
去掉字符串中的标签用
re.compile('\<.*?\>').sub('', 目标字符串)
查找所有p 用re.findall('[\s\S]*?',html)
查找里面没有其他标签的p，用re.findall( '[^\<\>]*？>' , html )

另外 get-text 获得的是字符串

温馨提示：答案为网友推荐，仅供参考

当前网址：http://22.wendadaohang.com/zd/T0X02fhI6IIfS2h06f.html

相似回答

Python爬虫笔记 | BeautifulSoup模块基本使用方法(解析—提取数据...答：首先，让我们来了解一下BeautifulSoup。它是一个灵活且易用的网页解析库，主要功能是抓取数据，支持多种解析器。它利用转换器实现了文档导航、查找和修改，即使不熟悉正则，也能轻松提取网页信息。安装BeautifulSoup可以通过pip3 install BeautifulSoup4命令，它默认支持Python的HTML解析库，但推荐使用lxml解析器...

BeautifulSoup详细使用教程!你学会了吗?答：BeautifulSoup，Python中用于解析HTML和XML的工具，它能将复杂结构解析成易于操作的树形结构。通过指定class或id，你可以迅速获取相关数据，操作简便。最新版本为4.4.0，3版本已停更。支持Python2.7和Python3.0，这里以Python2.7为例。在Mac上，可通过`sudo easy_install beautifulsoup4`安装，确认安装成...

大家正在搜

beautifulsoup的作用 beautifulsoup干嘛的 beautifulsoup4用法 beautifulsoup用法 beautifulsoup 官网 beautifulsoup简介 beautifulsoup翻译 beautifulsoup解析慢 beautifulsoup函数