Scrapy数据保存为excel

跨境电商干货分享网站，最新的亚马逊、全球速卖通、eBay、Wish商户平台、敦煌网、Shopify、Lazada、Etsy等电商平台卖家开店运营课程，以及外贸电子商务B2B和B2C平台网络营销，Dropshipping，英文SEO，海外SNS营销，Facebook，YouTube，LinkedIn，Twitter，Instagram，Snapchat，Pinterest，Tumblr以及EDM精准邮件营销等推广营销实战培训。

2020-11-06 21:01:33

背景 Scrapy默认是可以保存为csv的，可以用excel打开，使用scrapy crawl spider_name -o data.csv即可。但csv格式有诸多不便，比如中文编码问题，比如说逗号分隔，虽然都能解决，但对一般用户来说还是不够友好。于是就想到了将数据直接保存进 ...

背景

Scrapy默认是可以保存为csv的，可以用excel打开，使用scrapy crawl spider_name -o data.csv即可。但csv格式有诸多不便，比如中文编码问题，比如说逗号分隔，虽然都能解决，但对一般用户来说还是不够友好。

于是就想到了将数据直接保存进xlsx文件里，一劳永逸，可解决所有问题。主要用到了Scrapy的pipeline.py和python的开源库OpenPyxl.

关于pipeline

pipeline是scrapy中一个模块，数据被spider抓取之后会由pipeline处理。pipeline中通常会有几个“工序”，数据会按照顺序通过这几个“工序”。如果没有通过某项“工序”，会被抛弃掉。

pipeline一般有几种用途：

清洗HTML数据（比如清洗某无用tag）
确认已抓取数据（比如确认是否包含特定字段）
检查重复（过滤重复数据）
保存已抓取数据入数据库

我们在这里用到的是最后一个功能，只是保存为xlsx文件。

关于OpenPyxl

OpenPyxl是读写 Excel 2007 xlsx/xlsm文件的python库。废话不多说，直接上例子：

from openpyxl import Workbookwb = Workbook() # class实例化ws = wb.active # 激活工作表ws['A1'] = 42 # A1表格输入数据ws.append(['科比', '1997年', '后卫', '赛季报销']) # 添加一行数据wb.save('/home/alexkh/nba.xlsx') # 保存文件

原标题：Scrapy数据保存为excel

关键词：

*特别声明：以上内容来自于网络收集，著作权属原作者所有，如有侵权，请联系我们： admin#shaoqun.com （#换成@）。

运营商支付运营政策韵达国际杂货电子商务的下一个视野杂货类目杂货配送服务 FedEx、UPS和DHL三大巨头公布美国关税退款方案！ FedEx、UPS和DHL三大巨头公布美国关税退款方案！

Scrapy数据保存为excel

背景

关于pipeline

关于OpenPyxl

该作者最新发布文章

相关推荐

我的浏览记录