明凯博客

关注网站技术,一个特立独行的程序员

scrapy

清除scrapy爬虫满屏的打印信息的问题

Scrapy 提供了 log 功能。可以通过 scrapy.log 模块使用。 在运行scrapy crawl aimks时,屏幕上满屏的打印信息,实在是不好找错误信息。 我查了下scrapy的log服务,他默认开启的是debug模式。 log 服务必须通过显式调用 scrapy […]

, ,

scrapy在不同的Request之间传递数据的办法

有一次,我在采集淘宝数据的时候,发现我需要在列表页抓一些数据,也需要在详情页抓一些数据,有时候我也需要在详情的js代码源码中再抓取一些数据。 这就涉及到不同的request之间传递数据的方法了。 一个用户完整的信息要在多个Request中获取,需要在请求之间传递参数。 直到该用户 […]

, ,

scrapy中xpath使用extract()的时候[0]位置分析

xpath解析使用extract()的时候,一共有5种情况,刚开始做xpath的时候可能不懂,我在这里就全部解析一下。 1 item[’link’]=sel.xpath(’./h2/a/@href’) 1 item[’link’]= […]

, ,

win7安装python和scrapy的安装方法

最近发现一个同事是python大神,虽然我对python没什么兴趣,但是我对蜘蛛有很大的兴趣。 以前我对火车头,八爪鱼这些东西很熟悉,可是要做一些定制化的采集,这些东西还是有一点苍白,无法做到三级四级甚至五级页面的采集。 于是,他教我学python,就着文档,半天居然就写出了自己 […]

, ,