大家好,我是辣条。
暑假刚刚开始没多久,却比在学校还要繁忙很多,白天在我爸朋友的公司上班,晚上回来学数据分析,感觉比在学校还要忙,不过还是很充实的,昨天在一个外包群看到一个单价钱合理刚好自己会爬虫就做了,给大家分享一下整个过程和项目。
网站:天气预报
开发工具:pycharm
开发环境:python3.7, Windows10
使用工具包:requests,lxml,csv,threading
此项目为一个兼职外包项目(采集全国城市未来15天天气) 前期缺少沟通导致把当前网址全部的城市数据进行采集, 后面是拿的2345天气进行城市匹配
先采集天气预报网的所以城市信息
获取到当前网页上所以的城市地址以及详情页面链接 当前网页的城市包含了很多的区需要进行去除 从2345网页提成出城市进行对比取出市区数据(你说啥? 为什么不从2345直接取, 因为2345数据有些麻烦)
?
两个网页匹配的网页找不到全部的了 找到一个测试版本的 各位大佬可自行修改
?
?
提取之后的列表数据进行详情页面的拼接
?
通过xpath方式提取出城市,日期,天气,温度, 将数据保存在csv表格
忘记给客户加ip代理了 因为单价并不高所以加的免费ip
?
?
首先采集所需的ip数据自己进行测试 免费的ip没有那么好用 网址就不提供了 ip可自行采集 测试一下 先保存 用的时候再测试一下
用ip的时候也需要测试
这个项目弄得挺晚的,还好是在我爸朋友的公司,可以摸摸鱼,这篇文章就是摸鱼码出来的,希望大家能给个三连。?
建站咨询热线
0514-82222378