java爬虫抓取指定数据

如图所示：抓取选中地方的a标签下面的链接，然后再控制台循环打印出url值，求解救

举报该问题

推荐答案 2021-07-29

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同，但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://22.wendadaohang.com/zd/fhff2XChIfXXhSf0f2.html

其他回答

第1个回答 2018-07-06

如何通过Java代码实现对网页数据进行指定抓取，我总结了有以下几个步骤中会使用到Jsoup.Jar包：

1、在工程中导入Jsoup.jar包

2、获取网址url指定HTML或者文档指定的body

3、获取网页中超链接的标题和链接

4、获取指定博客文章的内容

5、获取网页中超链接的标题和链接的结果本回答被网友采纳

第2个回答 2016-06-27

网页地址是啥？

第3个回答 2016-06-29

私信我我可以完成这个问题

相似回答

java爬虫抓取指定数据答：需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

java爬虫读取某一张指定图片的url,求解答答：使用jsoup解析到这个url就行，dom结构如下:look-inside-cover类只有一个，所以直接找到这个img元素，获取src属性，就可以获取到图片路径。代码实现如下：Document doc = Jsoup.connect("http://link.springer.com/book/10.1057%2F9780230290617").get();Elements imgs = doc.select(".look-inside-cover...

大家正在搜

爬虫数据抓取爬虫抓取网页数据爬虫如何抓取网页数据爬虫原理与数据抓取 java爬虫和python爬虫 https爬虫可以抓取吗网络爬虫抓取个人信息爬虫为什么不用java java实现爬虫