百度 PP-OCRv6

兄弟们，我一直有个判断：OCR 这种活，早晚会被多模态大模型给吃掉。

这周看到百度发的 PP-OCRv6，我改主意了。

一个 1.5MB 的模型，能直接塞进浏览器里跑，单图最快 97 毫秒就能出结果，逐字识别的准确率还反超了 GPT-5.5、Gemini-3.1-Pro 和 235B 参数的 Qwen3-VL，我有点震惊了！

对做产品的人来说，这比「又一个 SOTA」重要得多。我有测试，先往下看 👇

2/ 第一个点：它能在浏览器里直接跑

以前你如果想给一个 Web 应用加 OCR，基本就三条路——调云 API（按量付费 + 图片得上传），自己搭服务器（要钱要运维），或者干脆不做。

PP-OCRv6