免费 HTML 网页托管平台

百度 PP-OCRv6

兄弟们,我一直有个判断:OCR 这种活,早晚会被多模态大模型给吃掉。

这周看到百度发的 PP-OCRv6,我改主意了。

一个 1.5MB 的模型,能直接塞进浏览器里跑,单图最快 97 毫秒就能出结果,逐字识别的准确率还反超了 GPT-5.5、Gemini-3.1-Pro 和 235B 参数的 Qwen3-VL,我有点震惊了!

对做产品的人来说,这比「又一个 SOTA」重要得多。我有测试,先往下看 👇

2/ 第一个点:它能在浏览器里直接跑

以前你如果想给一个 Web 应用加 OCR,基本就三条路——调云 API(按量付费 + 图片得上传),自己搭服务器(要钱要运维),或者干脆不做。

PP-OCRv6

页面加载耗时: 4 ms