如何检查一份 PDF 是不是真的脱敏了
判断一份 PDF 是否真的脱敏,标准只有一条:被遮盖区域的底层文字是否还能被取回。下面三种方法你现在就能用任意 PDF 阅读器自查;最后用复检器扫一遍兜底。只要黑框下还能复制出文字,这份文件就没有脱敏,别分发。
方法一:全选复制法(最快)
用任意 PDF 阅读器打开成品,Ctrl/⌘+A 全选,再 Ctrl/⌘+C 复制,粘贴到记事本。
如果你以为遮住的姓名、号码、地址出现在粘贴结果里,说明黑框只是盖在文字上方,文字对象还在——这就是假脱敏。
方法二:关键词搜索法
在阅读器里用 Ctrl/⌘+F 搜索你脱敏掉的具体词(如某个姓名或卡号尾号)。
若能搜到并高亮,证明文字仍存在于内容流里,OCR 和解析器一样能读到。
方法三:换个阅读器再看
有些查看器会忠实渲染黑框,有些会暴露下层。用浏览器自带 PDF 查看器、再用另一个独立阅读器各开一遍。
如果某个阅读器里黑框变透明或文字浮现,问题就坐实了。
兜底:一键复检
上面三步靠人工,难免漏。把成品丢进假脱敏检测器,它会解析内容流、报告被黑框覆盖区域下是否仍有可提取文字。
记住:检测器报「干净」也只代表文字层。务必同时确认元数据(作者/创建时间)也清掉了。
常见问题
- 黑框看起来完全不透明,还需要查吗?
- 需要。不透明只是显示效果,和底层文字是否被删除毫无关系。唯一标准是文字能否被取回。
- 打印成纸再扫描算脱敏吗?
- 打印+扫描确实能去掉可复制文字层(变成图像),但会保留可被 OCR 还原的图像,且画质和体积都差。整页光栅化是更干净的等价做法。