scrapy新建项目流程

参考连接：

新建爬虫项目：scrapy startproject projectname
自定义items.py。
在settings.py中添加多agentlist，然后在middlewares.py中添加使用多agent代码，在settings中开启DOWNLOADER_MIDDLEWARES并配置。
settings.py中设置ROBOTSTXT_OBEY=False。
编辑piplines.py文件，设置导出为csv文件，并在settings.py中打开ITEM_PIPLINES。
在spiders文件下新建爬虫文件，编辑爬虫代码。
新建run文件，运行爬虫。
如果网页是js传递的数据，采用webdriver进行爬取。
- pip install selenium
- 下载chromedriver，对于mac系统，将其放在/usr/local/bin目录下即可。
- 在middlewares.py中编写使用webdriver的代码。
- 在settings.py中的DOWNLOADER_MIDDLEWARES下添加刚刚编写的middleware。

浏览量: 183