简单抓取猪八戒网前50页涉及家装的服务商名称和电话scrapy简单入门

最近学习爬虫,闲来无事研究下如何抓取猪八戒网里面涉及家装的服务商信息。

第一步我们进入猪八戒网找到全国的家装页面:

我们分析下第一页的url http://www.zbj.com/jzsheji/p.html ,第二页:http://www.zbj.com/jzsheji/pp2.html 第三页:http://www.zbj.com/jzsheji/pp3.html 经过测试第一页也可以用http://www.zbj.com/jzsheji/pp1.html去访问,所以说规则就是http://www.zbj.com/jzsheji/pp[这里从1到50].html

我们目标获取服务商的店铺地址,进入店铺后查看联系方式获取电话号码:

通过chrome浏览器的检查功能,获取 xpath 路径。全部代码如下和运行效果如下:

效果如下图:

这里有联系方式一般都是机构/企业,个人没有,所以结果不含个人用户。

 

发表评论

电子邮件地址不会被公开。