标签存档: 采集

使用cygwin下的wget采集特殊的网页内容

需要采集一批数据,是一网站上的产品信息,产品本身信息很简单,使用火车采集器轻松实现;但产品价格数据是ajax响应数据,使用firebug + live http headers抓到该请求,并测试重发,发现该ajax请求必须带一个http头“X-Requested-With: XMLHttpRequest”,没有就返回404错误。
gnu/linux下有大量的杀手级工具,这种情况,要动用其中的wget. wget有很多参数,这里需要使用其中两个:-O,–header. 其中:
-O, 把请求结果保存到指定文件,但我们要使用的却是一个特殊的值:“-”,它可以将结果输出到标准输出
–header, 结http请求加上自定义的头(http header)
阅读全文——共1836字

继续阅读 »

WordPress采集插件大汇总/强烈推荐

目前WordPress已经成为主流的Blog搭建平台,插件和模板众多,易于扩充功 …

继续阅读 »