云聚 AI Token Plan 满 199 减 35 元
port:80 AI Junkie
AI 重度玩家的工程笔记本
DigitalOcean 开发者云

开源项目Espresso解锁苹果神经引擎全性能,运行Transformer速度提升超4倍

云聚 AI Token Plan 满 199 减 35 元

GitHub上名为“Espresso”的开源项目发布,旨在通过逆向工程苹果的私有API,实现在Apple Silicon的神经引擎(ANE)上直接运行和训练Transformer模型。该项目绕过了苹果标准的CoreML框架,直接调用_ANEClient和_ANEInMemoryModel等私有接口,消除了传统推理流程中的编译开销和数据封送处理。测试数据显示,在M3 Max设备上,Espresso的解码速度达到1.08毫秒/Token,比CoreML的5.09毫秒/Token快了4.76倍,同时也显著优于基于Metal的llama.cpp。Espresso完全使用Swift 6.2编写,支持零拷贝I/O、内核融合以及完整的训练循环(包括反向传播和梯度累积),能够将6层Transformer模型的计算量缩减为仅2次硬件调度。尽管该方案依赖私有API无法上架App Store,但它为macOS上的本地AI开发和模型研究提供了极高的性能潜力。

事件分析

该事件展示了开发者对硬件底层性能的极致探索,揭示了苹果神经引擎在官方CoreML框架之外被压抑的巨大算力。通过绕过CoreML的中间层转换,直接以MIL程序与ANE通信,不仅大幅降低了推理延迟,还打通了端侧训练的技术路径。这种“硬核”优化方案虽然因使用私有API而存在系统更新失效的风险,且仅限于非App Store的分发场景,但它为端侧大模型应用设立了新的性能标杆。这也侧面反映出,随着AI推理需求的爆发,现有的通用软件接口可能成为硬件性能释放的瓶颈,未来可能会出现更多此类直接针对NPU优化的底层工具链,甚至倒逼官方优化底层接口的开放程度。

💡 核心观点:绕过CoreML直通神经引擎,Espresso打破了苹果端侧AI的性能枷锁,重新定义了本地大模型的推理效率。

阿里云 OPC 一人公司创业装备库

原文链接:Hacker News

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:80aj » 开源项目Espresso解锁苹果神经引擎全性能,运行Transformer速度提升超4倍
赞助推荐 FoxCode Claude Code 稳定中转
阿里云函数计算 一键部署 AI 大模型

GLM Claude Code · 国产平替不封号

官方 Claude Code 又涨价又要 KYC,封号还得重配环境?智谱 GLM 兼容 Claude Code,稳定不封号、价格友好,注册后把现有 Claude Code 工作流直接切过来继续用。

立即体验 GLM查看套餐价格