为什么 PDF 上的黑框会泄密
在 PDF 上盖一个黑色矩形并不等于脱敏。PDF 是分层渲染的:黑框是一层、文字是另一层,黑框盖在文字上方,但底层文字对象原封不动。对方只要全选复制、用任意 PDF 解析器、或对页面 OCR,就能把你以为遮住的内容原样拿回。这就是「假脱敏」——它给你虚假的安全感,比不脱敏更危险。
真实翻车案例
Paul Manafort 的律师在法院文件里用黑框遮盖敏感段落,记者复制粘贴就读出了被「遮盖」的内容。
Epstein 相关文件、多份政府解密文件都出现过同样的问题。安全研究者称,约 90% 被「审查」的 PDF 能在 30 秒内还原。
为什么会这样
图形软件里的「画矩形」只是往页面上加一个不透明形状,它不会删除下方的任何东西。文字、图像、矢量路径全都还在文件里。
更隐蔽的是:即使你用了某些工具的「脱敏」按钮,如果它只是改了显示层而没重写内容流,结果一样可被还原。
什么才是真脱敏
真脱敏必须让被遮盖区域的底层内容物理消失。最稳的做法是把含脱敏的页整页光栅化成图片、再把黑块烧进像素——这页变成一张图,原文字对象不再存在,复制、解析、OCR 都拿不回。
代价是这页失去可搜索文字层。但脱敏件本就不需要可搜索,这是值得的取舍。
别忘了同时清除文档元数据(作者、创建时间等),否则身份信息仍会泄露。
常见问题
- 我把黑框设成不透明黑色还不够吗?
- 不够。不透明只影响显示,底层文字对象依然存在于文件里,能被复制和提取。
- 怎么验证我的脱敏真的生效了?
- 导出后用 PDF 阅读器全选复制、搜索关键词,确认拿不到被遮内容;或用假脱敏检测器扫一遍。