Notepad技能实战：从零开始掌握高效文本处理技巧

1次阅读

共计 1465 个字符，预计需要花费 4 分钟才能阅读完成。

最近在分析一个 2GB 的 Nginx 访问日志时，我遇到了一个典型问题：需要提取所有状态码为 500 的请求记录。如果用普通文本编辑器打开，不仅加载慢，搜索时还会卡顿，更别提复杂的筛选操作了。这就是我们日常开发中经常遇到的效率瓶颈——面对大规模文本数据时，传统逐行查看的方式完全无法满足需求。

虽然 VS Code 等现代编辑器功能强大，但 Notepad++ 在纯文本处理上有独特优势：

启动速度快，对大文件的支持更好
内存占用低，特别适合日志分析等场景
内置的正则表达式引擎针对文本处理优化过
宏录制功能可以保存常用操作流程

掌握这些快捷键可以提升 3 倍操作效率：

Ctrl+Shift+↑/↓：快速移动当前行
Alt+ 鼠标选择：列模式编辑（超级实用！）
Ctrl+F2：设置书签，F2跳转书签
Ctrl+D：复制当前行

处理日志时最常用的几个正则模式：

# 匹配 IPv4 地址
(?:\d{1,3}\.){3}\d{1,3}

# 提取时间戳（如 2023-08-01 12:34:56）\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}

# 使用负向零宽断言匹配不含特定关键词的行
^(?!.*(error|fail)).*$

录制宏的步骤：

点击 ” 宏 ”->” 开始录制 ”
执行你的操作序列（如删除行首空格 + 添加前缀）
停止录制并保存
对全文运行宏

这个脚本可以自动提取日志中的错误信息并生成报告：

import re
from collections import defaultdict

# 从 Notepad++ 复制的日志内容
log_content = """
[2023-08-01 12:00:00] INFO System started
[2023-08-01 12:05:23] ERROR Database connection failed
[2023-08-01 12:06:45] WARNING High memory usage
"""

error_stats = defaultdict(int)

# 使用与 Notepad++ 相同的正则表达式
pattern = r'\[(.*?)\] (ERROR|WARNING) (.*)'

for match in re.finditer(pattern, log_content):
    timestamp, level, message = match.groups()
    error_stats[level] += 1
    print(f"{timestamp} - {level}: {message}")

print("\n 统计结果:")
for level, count in error_stats.items():
    print(f"{level}: {count}次")

处理大文件时要注意：