06 使用代理爬取搜狗微信文章

时间:2017-11-25 11:19:16   收藏:0   阅读:263

参考:静觅丨崔庆才的个人博客

 

项目地址:copywang/spiders_collection

 

实现功能

  1. 根据登陆后的cookie制作header,请求搜索微信文章
  2. url需要使用urlencode拼接
  3. 使用代理避免IP被封
  4. 使用pyquery解析得到需要的字段信息
  5. 爬取文章详情页并存储到MongoDB

步骤

  1. 制作cookie,拼接URL
  2. 获取每一页的html代码
  3. 从每一页的html代码解析得到具体文章的url
  4. 获取具体文章的url,解析得到需要的信息

收获

  1. 使用pyquery
  2. 使用代理IP
  3. 异常处理
评论(0
© 2014 mamicode.com 版权所有 京ICP备13008772号-2  联系我们:gaon5@hotmail.com
迷上了代码!