近日,有开发者在技术社区 Linux.do 发帖,针对开源项目 New API 的视频生成接口设计提出了尖锐批评。该开发者尝试将名为“Happy Horse”的视频生成模型接入 New API 系统,但在阅读源码后发现,视频任务提交结构体 `TaskSubmitReq` 的设计存在严重的技术债务。具体问题包括参数语义的极度冗余,例如 `Duration`(整数)与 `Seconds`(字符串)字段功能重复,以及对参考图输入的处理极其混乱,`Image`、`Images` 和 `InputReference` 三套字段并存,缺乏统一标准。这种设计在面对现代视频生成任务中常见的多类型参考图输入(如人物、风格等多种条件控制)时,无法提供有效支持,导致模型能力受限。发帖人指出,相关功能的 Pull Request 被社区拒绝,导致开发者不得不自行维护接口。这一事件折射出当前 AI 应用层基础设施在快速迭代中面临的标准化缺失问题,复杂的参数定义不仅增加了 SDK 开发的适配难度,也成为了制约多模态大模型高效落地的绊脚石。
事件分析
💡 核心观点:多模态大模型爆发期,API接口设计的碎片化与参数冗余已成为制约AI视频应用开发效率的关键技术债。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航