云聚 AI Token Plan 满 199 减 35 元
port:80 AI Junkie
AI 重度玩家的工程笔记本
DigitalOcean 开发者云

百度推出Unlimited-OCR:基于DeepSeek架构的长文档解析开源模型

云聚 AI Token Plan 满 199 减 35 元

百度近日在GitHub和ModelScope社区发布了名为“Unlimited-OCR”的开源项目,旨在推动DeepSeek-OCR模型的边界,实现“单次长视野文档解析”。该项目不仅发布了技术论文,还提供了完整的推理代码和部署方案。Unlimited-OCR的核心在于处理长文档及多页PDF的能力,其测试环境基于Python 3.12、CUDA 12.9及PyTorch 2.10,支持在NVIDIA GPU上高效运行。模型采用HuggingFace Transformers架构,支持两种推理配置:“gundam”模式采用裁剪策略处理高分辨率图像,“base”模式则适用于标准文档及多页PDF解析,最大上下文长度可达32768。为了解决长文本生成中的重复问题,模型内置了N-gram重复惩罚机制。在部署层面,Unlimited-OCR除支持本地推理外,重点引入了SGLang作为服务端加速引擎。通过SGLang,用户可搭建OpenAI兼容的API服务,利用自定义Logit处理器优化长文档解析质量,并支持对PDF进行批量并发处理。代码库现已开源,开发者可直接通过HuggingFace或GitHub下载使用。

事件分析

从技术视角分析,Unlimited-OCR标志着文档解析技术正从传统的计算机视觉识别模式,向基于大语言模型的生成式理解范式转变。利用Transformer架构的长上下文处理能力,该模型能更好地保持多页文档间的语义连贯性,解决了传统OCR工具在处理复杂排版或跨页内容时的碎片化问题。产业层面,百度基于DeepSeek架构进行迭代,既认可了该架构在视觉与语言结合上的高效性,也展示了通过SGLang等高性能推理优化技术(如FlashAttention)来降低大模型部署成本的趋势。这种“开源模型+高效推理引擎”的组合,为构建企业级私有文档智能处理系统提供了极具性价比的参考方案,特别是对于RAG(检索增强生成)场景下的数据清洗环节具有重要价值。

💡 核心观点:百度借力DeepSeek架构与SGLang加速,意图在生成式OCR的长文档解析赛道确立新标杆。

阿里云 OPC 一人公司创业装备库

原文链接:Hacker News

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:80aj » 百度推出Unlimited-OCR:基于DeepSeek架构的长文档解析开源模型
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐