图像转文本 —— 浏览器内 OCR
从照片、截图和扫描文档中提取文字。Tesseract OCR 完全在浏览器中运行 —— 不会上传任何内容。
- 拖放或浏览选择一张或多张图片 —— 支持 JPG、PNG、WebP、BMP。
- 如果文字不是英文,请选择对应语言 —— 首次使用该语言时会下载模型(3–14 MB),之后浏览器会缓存。
- 点击「全部提取」。首次运行会从本站下载约 8 MB 的 OCR 引擎和语言数据(之后由浏览器缓存,并在同批次所有图片间复用)。
- 下方预览会显示第一张图片的识别结果。可从每一行下载该图片的文本,或一次性复制所有文件的输出到剪贴板,或下载一份合并的 .txt。
它能做什么?
OCR(光学字符识别)把「看起来像文字的像素」变成真正的文字。本工具运行 Tesseract —— 由 Google 维护的开源 OCR 引擎 —— 编译为 WebAssembly。对印刷体效果最好,手写识别较弱。
获得更好结果的建议
- 文字与背景对比强烈。
- 图像不倾斜 —— 如果画面是侧放或歪斜的,请先用「图片裁剪」旋转。
- 扫描文档建议 300 DPI 以上。
- 印刷体比手写体效果好得多。
- 多页 PDF,请先用「PDF 转 JPG / PNG」转成图像再逐页 OCR,或直接使用专门的「PDF 转文本」工具。
示例
输入 —— 一张英文快递面单的 JPG 截图。输出文本框:
SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA
TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12 常见错误与注意事项
多数 OCR 结果的失望源自源图像而非引擎。糟糕的照片无法靠更花哨的设置挽回。
- 低分辨率图像导致乱码。 手机截图和小缩略图会产生错乱文本。请靠近重拍,或使用原始的全分辨率文件(如果有)。
- 图像旋转了 90 度或颠倒。 Tesseract 不会自动旋转。请先用「图片裁剪」调整方向,然后重试。
- 多栏布局在输出中交错。 OCR 按自然扫描顺序读取,可能把多栏布局搞混。请先按栏裁剪图像,再分别 OCR 每一栏。
- 手写识别不准。 Tesseract 在印刷体上训练,对连笔或潦草字迹不佳。工整的印刷体手写可用但不完美,连笔基本不行。
- 非英文识别成乱码。 对韩文、阿拉伯文或中文进行 OCR 时,若语言选择仍在英文,结果会像随机字符。请先在下拉框中选择匹配的语言。
- 超大图像导致标签页卡住。 超过 2000 万像素的照片可能在识别时耗尽内存。用「图片裁剪」只保留关心的区域,或先用「图片压缩」减小体积。
常见问题
支持哪些图像格式?
JPG、PNG、WebP 和 BMP。任何浏览器标准 Image API 能解码的格式都可以。iPhone 的 HEIC 照片,请先用「HEIC 转 JPG」转换。
为什么首次运行很慢?
Tesseract 首次使用需要约 4 MB 的编译后引擎代码和 4 MB 的语言模型数据。两者都会被浏览器缓存,之后可在 1 秒内启动。识别本身在典型截图上通常需要 2–10 秒,与图像大小大致成比例。
准确率如何?
对 300 DPI 以上的清晰印刷体,准确率通常 95%+。对网站的手机截图,准确率一般不错但可能漏掉小 UI 文字。对低分辨率照片、带噪扫描或手写,准确率会明显下降。我们使用速度与准确率平衡较好的 fast Tesseract 语言数据。
能识别非英文吗?
能 —— 在选择器中选择相应语言。该语言首次 OCR 会下载模型(3–14 MB)并随后缓存。支持的语言包括韩文、中文(简繁)、日文、阿拉伯文、印地文、西班牙文、法文、德文、葡萄牙文、意大利文、俄文等。多语言混合的图像,选择主要语言时效果最好。
手写怎么样?
手写识别较弱。Tesseract 在印刷体上训练,对连笔或潦草字迹不佳。工整的印刷体手写效果尚可但不完美,连笔基本不行。
你们会保存我的图片或提取的文本吗?
不会。我们不保存你拖入的图片,也不保存 OCR 提取的文本。关闭或刷新标签页时一切都会被清空 —— 没有日志,我们这边也没有关于你 OCR 了什么的任何记录。你可以通过浏览器开发者工具自行验证。