看下.csv文件的定义:
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。
.csv文件可以用excel或类似软件打开,样子就是我们常用的表格
如下图
用文本工具打开:
场景:有两个文件,1.csv和2.csv,2.csv中包含字段sid,1.csv包含字段sid和gid,现在需要将2.csv文件中的sid替换成1.csv中sid对应的gid,2.csv中的sid可能是一串以”;”分隔的sid字符串,还有可能在1.csv中不存在。
简单来说就是用代码处理表格数据
一开始直接用python文本处理函数来做,很麻烦,后来发现python内置了csv模块,专门来处理csv文件,方便了很多
思路:
csv模块内置csv.reader和csv.writer,它类似生成器,不会像open函数一样一次将数据全部读入内存,如果文件很大会发生错误,并且csv模块有两种格式读入csv文件,一种是list列表,一种是dict字典,平常我们看见的表格每一列都有名称,比如姓名一列,性别一列等等,列表reader仅仅是数据,字典DictReader则是一组映射,{name:xxx,sex:男…},我用的是字典DictReader,这样找到每一条数据的字段非常简单,然后替换即可。
python csv模块手册
#!/usr/bin/env python
#coding:UTF-8
import csv
Dict = {}
def proJIRA(projectName, originName, newName):
#第一个.csv文件生成dict字典用来映射
with open(projectName, 'rb') as csvFile:
readFile = csv.reader(csvFile)
for readList in readFile:
Dict[readList[3]] = readList[0]
#按行去读文件,然后通过字典替换写入新文件
with open(originName) as file:
with open(newName, 'wb+') as csvwritefile:
#fieldnames是列名,顺序可以重新组织
fieldnames = ['id', 'type', 'priority', 'resolution', 'resolution_date', 'status', 'created', 'assignee', 'creator', 'reporter', 'affected_versions', 'commits']
writeFile = csv.DictWriter(csvwritefile, fieldnames=fieldnames)
for row in csv.DictReader(file):
#映射处理
row['commits'] = translate(row['commits'])
print(row['commits'])
writeFile.writerow(row)
#通过map转换并拼接字符串,因为存在id;id;id...这种字段
def translate(s):
temp = []
retStr = ''
List = s.split(';')
for item in List:
if item in Dict:
temp.append(Dict[item])
if len(temp) != 0:
retStr = connectElementOfListToString(temp)
else:
#字段不存在,打印错误log
pass
return retStr
def connectElementOfListToString(List):
retStr = ''
for item in List:
retStr += str(item)
retStr += ';'
#按照格式去除结尾多余的';'号
retStr = retStr[:len(retStr)-1]
return retStr
if __name__ == '__main__':
proJIRA('1.csv', '2.csv', 'new.csv')