为什么扫描件比电子 PDF 更难脱敏
电子 PDF 里的文字是「文字对象」,能被选中、复制、解析;扫描件里的文字是「图像像素」,肉眼可读但机器要 OCR 才认得。这一个区别,把脱敏和 PII 检测的难点整个挪了位。
扫描件脱敏:反而更直接
因为整页本来就是图像,在它上面画黑块再烧进像素,被遮区域的像素被真实覆盖——没有「下面还藏着文字对象」的问题。
所以扫描件脱敏其实不容易翻车,反倒是电子 PDF 的「黑框假脱敏」更危险。前提是别把黑块画在一个仍可移除的图层上,要真烧进位图。
扫描件的 PII 检测:必须先 OCR
想自动找出扫描件里的身份证号、卡号,机器得先 OCR 把像素转成文字,才能跑校验算法。
OCR 会引入识别误差(0/O、1/l 混淆),所以扫描件的自动检测不如电子文本可靠,更需要人工复核。
隐蔽风险:扫描件里的二维码/条码
很多报告、票据的扫描件带二维码或条形码,里面常编码了就诊号、订单号等敏感标识。
它们以图像存在,文字检测扫不到——脱敏时记得连同这些图形一起遮掉。
实操建议
脱敏扫描件:用图片/区域打码,纯黑或像素化烧进像素,连同二维码一起遮。
检测扫描件 PII:先 OCR 出文本再过 PII 检测;或人工通读。分发前永远自己再看一遍。
常见问题
- 扫描件脱敏后还能被 OCR 还原吗?
- 只要黑块是真烧进位图、覆盖了原像素,被遮区域就只剩纯色,OCR 也无字可还原。风险只来自「黑块仍是可移除图层」的情况。
- 怎么判断一份 PDF 是扫描件还是电子版?
- 试着用 Ctrl/⌘+A 全选。能选中、复制出文字的是电子版(含文字层);选不中、整页像一张图的是扫描件。