当前语言: 中文 切换为英文

PDF 转文本 —— 浏览器内 OCR

从扫描版或图像型 PDF 中逐页提取文字。每一页会被渲染为图像,再在浏览器中经 OCR 识别。

将 PDF 文件拖放到这里
  1. 拖放一个或多个 PDF,或点击浏览。
  2. 选择 DPI。200 是不错的默认值;页面密集或字号较小时,可提高到 300。
  3. 可选地用 1-3, 5, 8-10 之类的范围限制页面;同一范围会应用到每个 PDF。留空则对每个文件的每一页都 OCR。
  4. 点击「全部提取」。首次运行会从本站下载约 8 MB 的 OCR 引擎和语言数据(之后由浏览器缓存,并在同批次所有 PDF 间复用)。
  5. 下方预览会显示第一个 PDF 的文本(前 3 页)。可从每一行下载该文件的完整文本,或一次性复制所有文件的输出到剪贴板,或下载一份合并的 .txt。
它能做什么?

所选每一页都按你选择的 DPI 渲染到 canvas,然后交给编译为 WebAssembly 的 Tesseract —— 由 Google 维护的开源 OCR 引擎 —— 进行识别。每页识别出的文字以「--- Page N ---」分隔符拼接成一份输出,方便你把任意段落定位回源页面。

示例

输入 —— 2 页扫描备忘录,200 DPI,全部页面。输出文本框:

--- Page 1 ---
MEMO

To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes

Starting this Friday, the east lot
will be closed for resurfacing…

--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected].

常见错误与注意事项

多数 OCR 结果的失望源自源文档而非引擎。糟糕的扫描无法通过提高 DPI 来挽回。

  • 低质量扫描导致乱码。 源图像低于大约 150 DPI 时,无论这里设什么值都会出现错乱文本。请用 300 DPI 重新扫描,或使用原始数字文件(如果有)。
  • 输出中多栏文字交错。 OCR 按自然扫描顺序读取,可能把多栏布局搞混。先用「图片裁剪」把页面渲染图按栏切开,再分别 OCR 每一栏。
  • 页面旋转了 90 度或颠倒。 Tesseract 不会自动旋转。请先用「PDF 整理」修正方向,再重试。
  • 大 PDF 导致标签页卡住。 300 DPI 下 100+ 页可能耗尽内存。先渲染一段范围(如 1-25)确认质量,再分批处理其余部分。内存紧张的设备请降到 200 DPI。
  • 无效范围。 Invalid range: "1 through 5" —— 仅支持连字符和逗号。请使用 1-5 格式。
  • 加密的 PDF。 受密码保护的 PDF 会加载失败。请在 PDF 查看器中通过「文件 > 另存为」解除保护,再用未加密的副本重试。
常见问题

这个工具对扫描版 PDF 和纯图像 PDF 有效吗?

有效 —— 这正是它的用途。每一页都被渲染为图像然后送入 OCR,所以无论 PDF 是原生数字的还是扫描的,效果都一样。对已经包含可选中文字的原生数字 PDF,直接的文本提取工具更快更准;当文字被「烧进」页面图像时,OCR 才是正确选择。

该选择哪个 DPI?

对于典型扫描件和截图,200 DPI 是一个不错的默认值。150 DPI 更快但会丢失小字。300 DPI 对密集页面、小字号或低质量扫描有帮助,但渲染时间和内存使用会翻倍。如果源扫描本身分辨率就低,超过 300 往往没有帮助。

为什么首次运行很慢?

首次运行会从本站下载约 8 MB 的 OCR 引擎和英语语言数据,然后缓存到浏览器。之后在一秒内就能启动。之后速度主要由渲染与识别每页所花时间决定 —— 通常每页 3–10 秒,取决于 DPI 和页面复杂度。

手写和非英文文本呢?

手写识别较弱 —— Tesseract 是在印刷体上训练的,对连笔或潦草字迹不佳。非英语文本请在选择器中挑选相应语言;该语言首次运行会下载模型(3–14 MB)并随后缓存。多语言混合页面,选择主要语言时效果最好。

能处理受密码保护的 PDF 吗?

不能。加密 PDF 会加载失败并报错。请在 PDF 查看器中打开文件、输入密码,再通过「文件 > 另存为」导出一份未保护的副本,然后把那份副本拖到这里。

你们会保存我的 PDF 或提取的文本吗?

不会。我们不保存你拖入的 PDF、渲染出的页面图像,也不保存提取的文本。关闭或刷新标签页时一切都会被清空 —— 没有日志,我们这边也没有关于你 OCR 了什么的任何记录。你可以通过浏览器开发者工具自行验证。