scrapy新建项目流程

参考连接:

https://segmentfault.com/a/1190000013268442
https://cdn2.jianshu.io/p/c4234432a2f1

  1. 新建爬虫项目:scrapy startproject projectname
  2. 自定义items.py
  3. 在settings.py中添加多agentlist,然后在middlewares.py中添加使用多agent代码,在settings中开启DOWNLOADER_MIDDLEWARES并配置。
  4. settings.py中设置ROBOTSTXT_OBEY=False
  5. 编辑piplines.py文件,设置导出为csv文件,并在settings.py中打开ITEM_PIPLINES
  6. 在spiders文件下新建爬虫文件,编辑爬虫代码。
  7. 新建run文件,运行爬虫。
  8. 如果网页是js传递的数据,采用webdriver进行爬取。
    • pip install selenium
    • 下载chromedriver,对于mac系统,将其放在/usr/local/bin目录下即可。
    • 在middlewares.py中编写使用webdriver的代码。
    • 在settings.py中的DOWNLOADER_MIDDLEWARES下添加刚刚编写的middleware。

发表评论

邮箱地址不会被公开。 必填项已用*标注