近日,一位开发者在技术社区分享了使用AI模型进行办公自动化的低效经历。该用户试图利用基于Codex等大模型能力的“Image to Editable PPT Skill”,将由GPT-Image-2生成的PNG演示文稿图片反向转换为可编辑的PPTX文件。然而,实测结果暴露了当前AI Agent在处理复杂文档结构时面临的严峻性能瓶颈:单张图片的处理耗时长达30至60分钟,对于一套35页的PPT,总耗时预计超过23小时,完全无法接受。此外,在技术实现层面,由于采用了中转API接口,在长上下文连续处理过程中频繁出现502网关错误,导致任务中断。为规避这一稳定性问题,该开发者被迫采取了极为原始的“手动并行”方案——开启35个独立会话,复制Prompt逐个处理文件。这一案例不仅揭示了视觉模型逆向还原文档对象模型的高昂算力成本,也反映了当前AI应用在长任务链路中的稳定性短板。
事件分析
💡 核心观点:AI Agent在文档工程化中遭遇高延迟与并发瓶颈,通用大模型处理结构化长任务缺乏生产级可用性。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战