数据采集源代码从哪里获得?

数据采集
api、爬虫

数据爬虫代码如果自己去开发爬虫技术爬取时间跟人力起码需要在一年左右。现在有一些平台是专门提供这些接口服务,可以直接调用现成的数据获得数据。
以下是一些数据开放平台:
1.京东获取单个商品价格接口:
1.//ps:商品ID这么获取:http://item.jd.com/954086.html
2.http://p.3.cn/prices/mgets?skuIds=J_商品ID&type=1

2.淘宝商品搜索建议:
1.http://suggest.taobao.com/sug?code=utf-8&;q=商品关键字&callback=cb
2.//ps:callback是回调函数设定

3.全网商品比价接口:
1.慢慢买比价API免费接口
2.比一比价API免费接口
3.历史价格查询比价接口

4.快递接口:
1.//ps:快递公司编码:申通="shentong" EMS="ems" 顺丰="shunfeng" 圆通="yuantong" 中通="zhongtong" 韵达="yunda" 天天="tiantian"
2.汇通="huitongkuaidi" 全峰="quanfengkuaidi" 德邦="debangwuliu" 宅急送="zhaijisong"
3.http://www.kuaidi100.com/query?type=快递公司代号&postid=快递单号

5.百度百科接口:
1.http://baike.baidu.com/api/openapi/BaikeLemmaCardApi?scope=103&;format=json&appid=379020&bk_key=关键字&bk_length=600
2.//查询出错示例如下:查看原始页面 {"error_code":"20000","error_msg":"search word not found"}音乐接口

6.虾米音乐接口
1.http://kuang.xiami.com/app/nineteen/search/key/歌曲名称/diandian/1/page/歌曲当前页?_=当前毫秒&callback=getXiamiData

7.QQ空间音乐接口
1.http://qzone-music.qq.com/fcg-bin/cgi_playlist_xml.fcg?uin=QQ号码&json=1&g_tk=1916754934
温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-08-08
您可以通过八爪鱼采集器来获取网页的HTML源代码。在页面上选中一个空白的地方,点击操作提示框右下角的箭头,扩大选择的范围,一直扩大到HTML的层级。扩大到HTML层级后,在操作提示那里选择“采集该元素的OuterHTML”,这样采集下来的就是网页HTML的源代码。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情