Python自动化办公实战：如何高效处理docx文档的5个核心技能

1次阅读

共计 4249 个字符，预计需要花费 11 分钟才能阅读完成。

在日常开发中，我们经常遇到需要批量处理 Word 文档的场景。比如，法务部门需要生成数百份合同，每份合同只有客户名称、金额等少量信息不同；市场部每周需要制作格式相同的销售报告；人事部门要批量生成员工入职通知书。手动操作不仅效率低下，还容易出错。更麻烦的是，当文档需要统一修改样式时，往往要逐个打开文件调整，耗时耗力。

Python 生态中有多个处理 Word 文档的库，各有优劣：

python-docx：纯 Python 实现，跨平台，API 友好，适合大多数文档生成和修改场景
win32com：通过 COM 接口调用本地 Office 应用，功能最全但依赖 Windows 和 Office 环境
docxtpl：基于 python-docx 的模板引擎，适合需要填充预定义模板的场景

对于大多数自动化需求，python-docx 是最平衡的选择，本文也将以其为例展开。

from docx import Document
from docx.shared import Pt, RGBColor
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT

# 创建文档对象
doc = Document()

# 添加标题段落（一级标题）title = doc.add_heading('项目报告', level=1)
title.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER

# 添加正文段落
p = doc.add_paragraph('这是报告的')  # 先创建段落
# 在段落中添加带样式的文字
p.add_run('核心内容').bold = True
p.add_run('，请注意').font.size = Pt(12)
p.add_run('关键数据').font.color.rgb = RGBColor(255, 0, 0)

# 保存文档
doc.save('styled_document.docx')

关键点说明：

add_heading 直接创建标题段落
add_paragraph 和 add_run 组合实现段落内不同样式
通过 font 属性控制字体、大小、颜色等
使用 WD_PARAGRAPH_ALIGNMENT 设置对齐方式

def create_merged_table(doc, data):
    """创建带合并单元格的表格"""
    # 添加表格（3 行 4 列）table = doc.add_table(rows=3, cols=4)

    # 填充数据并设置样式
    for row_idx, row_data in enumerate(data):
        for col_idx, cell_data in enumerate(row_data):
            cell = table.cell(row_idx, col_idx)
            cell.text = str(cell_data)

            # 设置表头样式
            if row_idx == 0:
                cell.paragraphs[0].runs[0].bold = True

    # 合并单元格（示例：合并第一列的前两行）table.cell(0, 0).merge(table.cell(1, 0))

    # 设置表格整体样式
    table.style = 'Light Shading Accent 1'

# 使用示例
data = [['区域', 'Q1', 'Q2', '同比增长'],
    ['华东', 120, 150, '25%'],
    ['华北', 80, 95, '18%']
]
doc = Document()
create_merged_table(doc, data)
doc.save('table_demo.docx')

关键点说明：

add_table 创建表格时需要指定行列数
cell.merge 方法实现单元格合并
通过 table.style 应用预定义样式
表格数据通常来自数据库或 Excel

from docx.enum.section import WD_ORIENTATION

doc = Document()

# 添加不同章节
section1 = doc.sections[0]
section1.orientation = WD_ORIENTATION.PORTRAIT  # 纵向

# 设置页眉页脚
header = section1.header
header.paragraphs[0].text = "公司机密文档"
header.paragraphs[0].alignment = WD_PARAGRAPH_ALIGNMENT.CENTER

footer = section1.footer
footer.paragraphs[0].text = "页码："
footer.paragraphs[0].add_run().add_field('PAGE')

# 添加新章节（横向）section2 = doc.add_section()
section2.orientation = WD_ORIENTATION.LANDSCAPE

# 新章节可以有不同的页眉页脚
section2_header = section2.header
section2_header.paragraphs[0].text = "附录部分"

doc.save('sections_demo.docx')

关键点说明：

通过 sections 控制文档的不同部分
orientation 设置页面方向（纵向 / 横向）
页眉页脚是节 (section) 级别的属性
使用 add_field 插入动态页码

def replace_in_docx(input_path, output_path, replacements):
    """保留原格式的查找替换"""
    doc = Document(input_path)

    for para in doc.paragraphs:
        for find_text, replace_text in replacements.items():
            if find_text in para.text:
                # 清空段落内容但保留样式
                inline = para.runs
                for i in range(len(inline)):
                    if find_text in inline[i].text:
                        text = inline[i].text.replace(find_text, replace_text)
                        inline[i].text = text

    # 处理表格中的文本
    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                for find_text, replace_text in replacements.items():
                    if find_text in cell.text:
                        cell.text = cell.text.replace(find_text, replace_text)

    doc.save(output_path)

# 使用示例
replacements = {"{company_name}": "ABC 科技有限公司",
    "{date}": "2023-07-15"
}
replace_in_docx('template.docx', 'output.docx', replacements)

关键点说明：

通过遍历 paragraphs 和 runs 保留原有格式
需要单独处理表格中的文本
适用于合同、通知等模板文档
比纯文本替换更复杂但能保持格式

import pandas as pd

def dataframe_to_docx_table(doc, df):
    """将 Pandas DataFrame 转换为 Word 表格"""
    # 添加表格（行数 = 数据行数 + 1 表头，列数 =df 列数）table = doc.add_table(rows=df.shape[0]+1, cols=df.shape[1])

    # 添加表头
    for col_idx, column in enumerate(df.columns):
        table.cell(0, col_idx).text = str(column)
        table.cell(0, col_idx).paragraphs[0].runs[0].bold = True

    # 填充数据
    for row_idx, row in df.iterrows():
        for col_idx, value in enumerate(row):
            table.cell(row_idx+1, col_idx).text = str(value)

    # 应用表格样式
    table.style = 'Medium List 1 Accent 1'

# 使用示例
data = {'产品': ['A', 'B', 'C'],
    '销量': [120, 85, 210],
    '增长率': ['15%', '5%', '30%']
}
df = pd.DataFrame(data)

doc = Document()
doc.add_heading('销售报表', level=1)
dataframe_to_docx_table(doc, df)
doc.save('pandas_table.docx')

关键点说明：

df.shape 获取 DataFrame 的行列数
表头单独处理并加粗
支持各种 DataFrame 数据类型
可结合 Pandas 的数据处理能力

Windows 和 Linux 系统字体不同，可能导致渲染差异
解决方案：
使用通用字体（如 Arial、Times New Roman）
在服务器上安装所需字体
或者将文档转换为 PDF 再分发

不同 Word 版本对某些样式的支持不同
建议：
测试目标环境的主流版本
避免使用过于复杂的样式
明确告知用户使用较新版本打开

处理几十页以上的文档时可能内存不足
优化技巧：
分批次处理文档的不同部分
使用 Document 的save方法及时释放内存
考虑使用流式处理（如python-docx-template）

文档变更的版本对比：如何实现类似 Git 的 diff 功能，快速找出 Word 文档的内容变化？
与 PDF 转换时的格式保留：从 docx 转 PDF 时如何确保复杂样式不丢失？
千人千面生成方案：如何基于同一模板，高效生成数万份个性化文档（如学生成绩单）？

通过 python-docx 的这 5 项核心技能，我们能够应对大多数 Word 自动化处理需求。从简单的段落生成到复杂的表格处理，再到生产环境中的各种注意事项，这些实战经验都是我在多个企业项目中积累的。建议读者先从简单的示例开始，逐步尝试将这些技术组合应用到自己实际工作中，定能显著提升文档处理效率。

正文完