兄弟们,我一直有个判断:OCR 这种活,早晚会被多模态大模型给吃掉。
这周看到百度发的 PP-OCRv6,我改主意了。
一个 1.5MB 的模型,能直接塞进浏览器里跑,单图最快 97 毫秒就能出结果,逐字识别的准确率还反超了 GPT-5.5、Gemini-3.1-Pro 和 235B 参数的 Qwen3-VL,我有点震惊了!
对做产品的人来说,这比「又一个 SOTA」重要得多。我有测试,先往下看 👇
2/ 第一个点:它能在浏览器里直接跑
以前你如果想给一个 Web 应用加 OCR,基本就三条路——调云 API(按量付费 + 图片得上传),自己搭服务器(要钱要运维),或者干脆不做。
PP-OCRv6
登录后可查看完整内容,参与讨论!
立即登录