导言
Excel是一种广泛运用的电子表格软件,它供给了大量的数据处理和核算功用,被广泛应用于数据分析和陈述中。在Python中,咱们能够运用pandas库来读写和处理Excel文件。但是,为了更方便和快速地操作Excel文件,咱们能够封装一个Excel东西类,供给常用的读写操作办法,以进步开发功率。本文将介绍如何运用Python封装Excel操作东西类,并供给相应的比如阐明。
1、列表转Excel文件
这个办法能够将数据集列表转化为Excel文件。该办法运用pd.ExcelWriter()
创立Excel文件写入器,然后运用pd.DataFrame()
创立一个数据帧对象,再将其写入Excel文件中。
#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Author: Hui
# @Desc: { Excel文件操作东西模块 }
# @Date: 2022/04/03 19:34
import pandas as pd
from typing import List, Union, Dict, IO
class ExcelUtils(object):
""" Excel文件操作东西类 """
@classmethod
def list_to_excel(
cls,
path_or_buffer: Union[str, IO],
data_list: list,
col_mapping: dict = None,
sheet_name: str = 'Sheet1',
**kwargs
):
"""
列表转 excel文件
Args:
path_or_buffer: 文件途径或许缓冲流
data_list: 数据集 List[dict]
col_mapping: 表头列字段映射
sheet_name: sheet称号
Returns:
"""
with pd.ExcelWriter(path_or_buffer) as writer:
_col_mapping = list(col_mapping) if col_mapping else None
df = pd.DataFrame(data=data_list, columns=_col_mapping)
if col_mapping:
df.rename(columns=col_mapping, inplace=True)
df.to_excel(writer, sheet_name=sheet_name, index=False, **kwargs)
这儿path_or_buffer
能够是一个文件途径或许一个缓冲流对象,data_list
是一个列表,包括需求写入Excel的数据。col_mapping
是一个字典,用于将表头列字段映射到数据集的字段名。
# 示例
user_list = [
dict(id=1, name='hui', age=20),
dict(id=2, name='wang', age=22),
dict(id=3, name='zack', age=25),
]
user_col_mapping = {
'id': '用户id',
'name': '用户名',
'age': '年纪',
}
ExcelUtils.list_to_excel('user.xlsx', user_list, col_mapping=user_col_mapping)
# 导出为excel文件字节省处理
excel_bio = BytesIO()
ExcelUtils.list_to_excel(
excel_bio,
data_list=user_list,
col_mapping=user_col_mapping,
sheet_name='demo'
)
excel_bytes = excel_bio.getvalue()
print("excel_bytes type => ", type(excel_bytes))
>>>out
excel_bytes type => <class 'bytes'>
这个比如将一个用户数据集写入一个Excel文件中,并将列名映射为中文,也能够将excel保存在缓存流中(字节数据),在一些web场景中能够更方便的将缓冲流响应给前端、或许上传到一些OSS中,这样就不必创立临时文件、读取、上传。
2、多个列表转Excel文件
如果有多个数据集需求写入到同一个Excel文件中,能够运用该办法。它与前面的办法类似,但承受一个列表,列表中包括多个数据集及其对应的表头列字段映射和sheet称号。
将多个数据列表写入到一个Excel文件中。
@classmethod
def multi_list_to_excel(
cls,
path_or_buffer: Union[str, IO],
data_collects: List[tuple],
**kwargs
):
"""
多列表转带不同 sheet的excel文件
Args:
path_or_buffer: 文件途径或许缓冲流
data_collects: 大数据集 list[(data_collect, col_mapping, sheet_name)]
data_collect: 数据集,
col_mapping: 列字段映射,
sheet_name: excel表sheet称号
Returns:
"""
with pd.ExcelWriter(path_or_buffer) as writer:
for data_collect, col_mapping, sheet_name in data_collects:
df = pd.DataFrame(data=data_collect, columns=list(col_mapping))
df.rename(columns=col_mapping, inplace=True)
df.to_excel(writer, sheet_name=sheet_name, index=False, **kwargs)
参数阐明:
-
path_or_buffer
: 文件途径或许缓冲流; -
data_collects
: 多个数据列表的元组集合,每个元组包括三个元素:需求写入到Excel文件中的数据列表,列名与字典key的映射,Excel文件的sheet称号。
示例:
user_list = [
{'id': 1, 'name': 'hui', 'age': 18},
{'id': 2, 'name': 'wang', 'age': 19},
{'id': 3, 'name': 'zack', 'age': 20}
]
book_list = [
{'id': 1, 'name': 'Python基础教程', 'author': 'hui', 'price': 30},
{'id': 2, 'name': 'Java高级编程', 'author': 'wang', 'price': 50},
{'id': 3, 'name': '机器学习实战', 'author': 'zack', 'price': 70},
]
user_col_mapping = {'id': '编号', 'name': '名字', 'age': '年纪'}
book_col_mapping = {'id': '编号', 'name': '书名', 'author': '作者', 'price': '价格'}
data_collects = [
(user_list, user_col_mapping, '用户信息'),
(book_list, book_col_mapping, '图书信息')
]
ExcelUtils.multi_list_to_excel('multi_sheet_data.xlsx', data_collects)
感觉这办法参数太多,不太容易知道如何入参,后续能够用dataclass抽出结构来入参这样更好理解点。
3、读取Excel表格数据
@classmethod
def read_excel(
cls,
path_or_buffer: Union[str, IO],
sheet_name: str = "Sheet1",
col_mapping: dict = None,
all_col: bool = True,
header: int = 0,
**kwargs
) -> List[dict]:
"""
读取excel表格数据,根据col_mapping替换列名
Args:
path_or_buffer: 文件途径或许缓冲流
sheet_name: 读书excel表的sheet称号
col_mapping: 列字段映射
all_col: True回来一切列信息,False则回来col_mapping对应的字段信息
header: 默许0从第一行开启读取,用于指定从第几行开始读取
Returns:
"""
use_cols = None
if not all_col:
# 获取excel表指定列数据
use_cols = list(col_mapping) if col_mapping else None
df = pd.read_excel(path_or_buffer, sheet_name=sheet_name, usecols=use_cols, header=header, **kwargs)
if col_mapping:
df.rename(columns=col_mapping, inplace=True)
return df.to_dict("records")
示例代码:
data = [
{"id": 1, "name": "hui", "age": 30},
{"id": 2, "name": "zack", "age": 25},
{"id": 3, "name": "wang", "age": 40},
]
# 将数据写入Excel文件
ExcelUtils.list_to_excel("read_demo.xlsx", data, col_mapping={"id": "用户ID", "name": "名字", "age": "年纪"})
# 读取Excel文件
result = ExcelUtils.read_excel("read_demo.xlsx", col_mapping={"用户ID": "id", "名字": "name"})
print(result)
>>>out
[{'id': 1, 'name': 'hui'}, {'id': 2, 'name': 'zack'}, {'id': 3, 'name': 'wang'}]
能够将字典列表数据根据列字段映射转化成中文表头的excel,读取excel时也能够将中文表头转成对应事务字段。
有些模板excel文件默许前几行是阐明文字,因而能够指定header参数来跳过这些阐明文字,这儿仅仅把一些常用的参数封装了下,**kwargs 仍是能够运用pandas的一些参数。
4、兼并多个Excel文件到一个文件中(每个文件对应一个作业表)
@classmethod
def merge_excel_files(
cls,
input_files: List[str],
output_file: str,
sheet_name_mapping: Dict[str, str] = None,
**kwargs
):
"""
兼并多个Excel文件到一个文件中(每个文件对应一个作业表)
如果Excel文件有多个作表,则默许取第一个作业表
Args:
input_files: 待兼并的excel文件列表
output_file: 输出文件途径
sheet_name_mapping: 文件作业表映射,默许为文件名
{"文件名1": "sheet1", "文件名2": "sheet2"}
Returns:
"""
sheet_name_mapping = sheet_name_mapping or {}
with pd.ExcelWriter(output_file, **kwargs) as writer:
for file in input_files:
df = pd.read_excel(file)
sheet_name = sheet_name_mapping.get(file, file)
df.to_excel(writer, sheet_name=sheet_name, index=False)
示例:
def merge_excel_files_demo():
# 兼并多个Excel文件
ExcelUtils.merge_excel_files(
input_files=["user.xlsx", "multi_sheet_data.xlsx"],
output_file="merged_data.xlsx",
sheet_name_mapping={
"user.xlsx": "user",
"multi_sheet_data.xlsx": "multi_sheet_data"
}
)
以上便是ExcelUtils东西类的一切办法及相应的比如,运用这个东西类能够轻松地进行Excel文件的读写、转化和兼并等操作,进步了开发功率和代码复用率,但一些特定格局的excel文件处理仍是不方便。
源代码
HuiDBK/py-tools: 打造 Python 开发常用的东西,让Coding变得更简单 (github.com)
本文正在参加「金石计划」