参考连接:
https://segmentfault.com/a/1190000013268442
https://cdn2.jianshu.io/p/c4234432a2f1
- 新建爬虫项目:
scrapy startproject projectname
- 自定义
items.py
。 - 在settings.py中添加多
agentlist
,然后在middlewares.py中添加使用多agent代码,在settings中开启DOWNLOADER_MIDDLEWARES
并配置。 - settings.py中设置
ROBOTSTXT_OBEY=False
。 - 编辑piplines.py文件,设置导出为csv文件,并在settings.py中打开
ITEM_PIPLINES
。 - 在spiders文件下新建爬虫文件,编辑爬虫代码。
- 新建run文件,运行爬虫。
- 如果网页是js传递的数据,采用webdriver进行爬取。
pip install selenium
- 下载chromedriver,对于mac系统,将其放在/usr/local/bin目录下即可。
- 在middlewares.py中编写使用webdriver的代码。
- 在settings.py中的DOWNLOADER_MIDDLEWARES下添加刚刚编写的middleware。