扫描件脱敏后还能被 OCR 还原吗？

只要黑块是真烧进位图、覆盖了原像素，被遮区域就只剩纯色，OCR 也无字可还原。风险只来自「黑块仍是可移除图层」的情况。

怎么判断一份 PDF 是扫描件还是电子版？

试着用 Ctrl/⌘+A 全选。能选中、复制出文字的是电子版（含文字层）；选不中、整页像一张图的是扫描件。

安全指南

电子 PDF 里的文字是「文字对象」，能被选中、复制、解析；扫描件里的文字是「图像像素」，肉眼可读但机器要 OCR 才认得。这一个区别，把脱敏和 PII 检测的难点整个挪了位。

分享前验证

因为整页本来就是图像，在它上面画黑块再烧进像素，被遮区域的像素被真实覆盖——没有「下面还藏着文字对象」的问题。

所以扫描件脱敏其实不容易翻车，反倒是电子 PDF 的「黑框假脱敏」更危险。前提是别把黑块画在一个仍可移除的图层上，要真烧进位图。

想自动找出扫描件里的身份证号、卡号，机器得先 OCR 把像素转成文字，才能跑校验算法。

OCR 会引入识别误差（0/O、1/l 混淆），所以扫描件的自动检测不如电子文本可靠，更需要人工复核。

很多报告、票据的扫描件带二维码或条形码，里面常编码了就诊号、订单号等敏感标识。

它们以图像存在，文字检测扫不到——脱敏时记得连同这些图形一起遮掉。

脱敏扫描件：用图片/区域打码，纯黑或像素化烧进像素，连同二维码一起遮。

检测扫描件 PII：先 OCR 出文本再过 PII 检测；或人工通读。分发前永远自己再看一遍。

扫描件脱敏后还能被 OCR 还原吗？: 只要黑块是真烧进位图、覆盖了原像素，被遮区域就只剩纯色，OCR 也无字可还原。风险只来自「黑块仍是可移除图层」的情况。
怎么判断一份 PDF 是扫描件还是电子版？: 试着用 Ctrl/⌘+A 全选。能选中、复制出文字的是电子版（含文字层）；选不中、整页像一张图的是扫描件。