开发者 GordenSun 在 Linux.do 社区发布了一款名为 “GordenSuperPPTSkills” 的开源项目,该项目旨在利用 GPT 的生图与视觉解析能力,解决 AI 生成 PPT 难以编辑的痛点。项目包含三个核心技能:首先是 `GordenImagePPTGen`,负责根据用户输入的主题生成排版复杂、视觉精美的图片型 PPT;其次是 `GordenImage2PPTX`,利用 GPT 的视觉能力将图片还原为分层清晰的可编辑 PPTX 文件,包括背景、框架、图标和文本四层结构;最后是 `GordenSuperPPTSkill`,用于将上述两个步骤串联,实现从内容构思到最终文档的一键生成。该技能包目前仅支持 Codex(需 GPT 4.5 模型),其核心原理在于利用大模型依次提取图片的视觉元素并在坐标系统中重新拼装。开发者指出,由于依赖高强度的视觉推理,转换过程消耗额度较大,单张图片转换约占 Plus 订阅 5 小时额度的 10%。该项目已完全开源并托管于 GitHub,为 AI 办公自动化提供了新的解题思路。
事件分析
💡 核心观点:利用视觉大模型对”图片 PPT”进行结构化逆向重构,有效解决了 AIGC 在办公排版领域”不可编辑”的核心痛点。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战