 

智谱发布GLM-Image：自回归融合扩散架构，图像生成能力超越SD3.5

2026-01-14 分类：前沿哨所阅读(3) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

智谱AI正式推出首个开源工业级离散自回归图像生成模型GLM-Image。该模型创新性采用“自回归+扩散解码”混合架构，利用9B参数的GLM-4处理语义逻辑，结合7B参数扩散解码器还原视觉细节。这种设计实现了高精度语义对齐，在中文文字渲染、多主体一致性等任务上表现优异。据悉，GLM-Image多项性能指标已超越SD3.5和FLUX.1等主流模型，支持高清分辨率生成。

原文链接：Linux.do

赞(0)

未经允许不得转载：Toy's Tech Notes » 智谱发布GLM-Image：自回归融合扩散架构，图像生成能力超越SD3.5

分享到

图像生成智谱AI 混合架构

评论抢沙发

前沿哨所

Claude Mac应用上线Coworker功能，AI智能体能否替代系统清理工具？

Anthropic 旗下 Claude Mac 应用正式上线“Claude Coworker”功能。该功能目前主要面向 Max 套餐用户开放，支持直接调用命令行，暗示 AI 已具备操作系统层面的操作能力。用户尝试测试其是否可替代 CleanMyMac 等清理软件，但同时也对直接删除本地文件的安全风险表示担忧。这一更新标志着 AI 智能体在深度控制电脑方面迈出了关键一步。

原文链接：V2EX 分享发现

29分钟前
借力 Gemini，技术小白成功搭建企业官网

一位拥有大厂背景但不懂开发的产品经理，利用 AI 工具 Gemini 辅助编写 HTML/CSS 代码，成功为弟弟的时尚女鞋厂搭建了企业官网，并部署在 GitHub Pages 上。该项目仅耗时很短时间，且成本极低。作者分享了在 AI 辅助下零基础建站的经历，并就国内访问速度、SEO 优化及设计细节向社区寻求建议，生动展示了 AI 技术如何赋能传统行业数字化转型，极大降低了编程与建站的技术门槛。

原文链接：V2EX 分享发现

29分钟前
Tsonic 发布：TypeScript 转 C# 编译器，打造原生高性能应用

Tsonic 是一款创新的编译器，能够将 TypeScript 代码转换为 C#，并利用 .NET NativeAOT 技术生成独立的原生可执行文件。开发者可以使用熟悉的 TS 语法编写代码，直接调用 .NET 强大的基础类库（BCL），享受原生级的执行性能与安全性。该工具不仅支持完整的 .NET 互操作和 ESM 模块系统，还兼容 ASP.NET Core 框架，为构建高性能跨平台应用提供了全新的解决方案。

原文链接：Hacker News

29分钟前
Meta 重磅开源 SAM 3D：实现照片、视频一键生成 3D 模型

Meta 正式宣布开源 SAM 3D 模型，该技术能够将普通的照片和视频快速转化为真实的 3D 模型。作为“Segment Anything”系列的升级版，SAM 3D 在计算机视觉领域实现了重大突破，大幅降低了 3D 内容生成的门槛。目前，用户已可通过在线平台体验该功能。这一开源举措将极大推动 AR/VR 及元宇宙内容生态的发展，为开发者提供强大的工具支持。

原文链接：Linux.do

30分钟前
Vibe coding 时代来临：AI 让编程不再是程序员的专属

本文分享了作者利用 ChatGPT 快速开发 PopClip 插件的体验，探讨了“Vibe coding”的概念。作者指出，随着 AI 技术的发展，编程门槛正大幅降低，未来编程不再是程序员的专属。只要有需求，普通人借助 AI 也能开发个性化工具，这一趋势预示着软件开发将走向全民化。

原文链接：V2EX 分享发现

2小时前
OpenWebUI 新增 Claude Messages Pipe，拓展大模型集成生态

Linux.do 社区发布了 OpenWebUI 的插件合集，重点推出了 Claude Messages Pipe。该插件通过 Python 脚本实现了将 Anthropic Claude 无缝集成到 OpenWebUI 界面的功能。此外，合集还涵盖 OpenAI 和 Gemini 的多种管道，如 Deep Research 和图像生成功能。这一工具降低了自部署 AI 环境接入不同大模型的门槛，促进了开源 AI 界面的生态繁荣。

原文链接：Linux.do

2小时前