 

当前位置：80aj  前沿  正文

AI智能体实测：抛弃OpenClaw转向Hermes，只因它学会了“自动生成技能”

2026-04-12 分类：前沿阅读(144) 赞(0)

一位资深用户分享了从OpenClaw迁移至Hermes的心得体验。尽管使用了三个月，但OpenClaw在记忆机制上的短板（无法跨窗口记忆、依赖文档全量加载导致Token成本过高）令人失望。反观Hermes，在底层模型（如GLM系列）相同的情况下，展现了更强的自主性：它能主动将视频转录这一复杂任务封装为可复用的“技能”，无需人工编写Prompt。这一案例生动地演示了AI Agent从“被动记忆”向“主动工具化”演进的技术趋势。

原文链接：Linux.do

赞(0)

未经允许不得转载：80aj » AI智能体实测：抛弃OpenClaw转向Hermes，只因它学会了“自动生成技能”

分享到

AI智能体 Hermes 大模型技术测评自动技能

前沿哨所

开源项目waste利用NVMe直读技术，实现29GB内存运行2.78万亿参数Kimi K3
GitHub上的项目“waste”展示了一种创新的本地推理方案，旨在解决运行超大参数规模模型时的硬件瓶颈。该项目是一个完全由C语言编写、无外部依赖的嵌入式推理引擎，其核心技术在于通过直接从NVMe存储设备流式传输激活权重，从而突破了物理内存（RAM）的容量限制。

实测显示，利用该技术可以在仅配备29GB内存的系统上运行完整的Kimi K3模型。作为对比，Kimi K3拥有高达2.78万亿的参数量，按照常规做法通常需要数TB的显存或内存才能容纳。虽然目前该方案下的推理速度约为每秒0.5个token，但这在技术上证明了不依赖昂贵的高端GPU显存，仅靠通用硬件组件也能驱动最前沿的大模型，这为开发者和极客在有限预算下研究超大规模模型提供了宝贵的工具。

事件分析

从技术架构来看，该项目利用C语言极简的底层控制能力，将NVMe存储视为内存的扩展层，有效缓解了参数量巨大的模型对高带宽内存（HBM）的依赖。这种利用存储带宽换取内存容量的卸载策略，与高端硬件中的显存扩容技术原理相通，但更加平民化。

虽然目前的0.5 tok/s推理速度限制了其实用交互性，但这标志着消费级硬件运行万亿参数大模型的理论可行性得到验证。若未来能结合更高效的NVMe协议优化或数据压缩技术，此类方案可能成为推动大模型私有化部署、边缘计算落地的重要技术路径。

💡 核心观点：利用存储带宽替代内存容量，该开源引擎让万亿级大模型“落地”消费级硬件成为现实。

原文链接：Hacker News
刚刚
商汤SenseNova U1.5-Lite-Preview开源：原生4K生成与复杂排版编辑
商汤科技旗下的SenseNova（日日新）模型U1.5-Lite-Preview近日宣布开源，目前主要开放了权重文件。此次更新重点针对高分辨率图像生成与复杂排版进行了底层重构，通过重新设计图像生成头并扩展训练至4K分辨率，显著改善了局部纹理、材质表现及光影一致性，有效解决了视觉Token网格痕迹和拼接缝问题。U1.5大幅增强了中英文文字生成能力，能够精准处理海报、信息图中的复杂布局，并支持通过长提示词或JSON结构化指令进行精细控制。在编辑能力方面，该模型支持多种操作，包括基于参考图的风格重绘、多图元素重组、信息图局部修改（如标题、数字、图表）以及现实场景文字替换等。官方Benchmark数据显示，相比上一代U1，新模型在多项指标上有约10%至17%的提升。目前模型在短提示词理解、小字号文字渲染及人物面部细节等方面仍有改进空间。

事件分析

此次SenseNova U1.5-Lite的开源标志着开源图像生成模型正从单纯的“文生图”向“设计生产力工具”演进。不同于以往模型主要关注艺术风格，U1.5明确强化了4K高分辨率下的结构化排版与多轮连续编辑能力，直击商业设计场景中海报与信息图制作的痛点。通过支持结构化指令和局部编辑（如保留材质、透视的修改），该模型大幅降低了生成的随机性，提高了工业场景的可控性。在当前AI图像生成领域竞争激烈的背景下，商汤将“生成”与“编辑”深度整合，填补了开源模型在精细化迭代修图方面的空白，这对于推动AI设计工作流的实际落地具有重要意义。

💡 核心观点：开源图像模型竞争进入深水区，U1.5以4K原生生成与结构化编辑能力，尝试填补从“一次性生成”到“专业设计工具”的关键缺口。

原文链接：V2EX 分享发现
刚刚
经典技术深读：交互式解析JPEG压缩原理与有损编码机制
这篇文章深入解析了诞生于1992年的JPEG图像压缩标准，详细阐述了其三十年来长盛不衰的技术原理。文章通过交互式演示，将复杂的图像编码过程拆解为十个关键步骤。核心内容围绕JPEG如何利用人类视觉系统的两大缺陷进行有损压缩：首先，人眼对亮度的敏感度远高于色彩，因此算法将图像从RGB色彩空间转换为YCbCr，并大幅缩减色度通道的数据量；其次，人眼对高频变化（如纹理细节）的识别能力弱于低频变化（如物体轮廓），算法通过离散余弦变换（DCT）将图像块从空间域转换至频率域，并利用量化表丢弃高频信息。文章通过直观的可视化效果展示了“质量滑块”如何决定量化表的大小，进而决定丢弃多少数据以及最终压缩率。此外，还解释了最后一步的无损压缩（如Z字形排序和熵编码）如何利用前述步骤产生的数据重复性进一步减小文件体积。这种基于心理视觉学的“选择性丢弃”策略，完美解释了如何在肉眼难以察觉的情况下实现极高的压缩比。

事件分析

尽管JPEG是一项成熟的基础技术，但此文通过交互式可视化手段，极具教育意义地揭示了数据压缩的工程哲学。对于致力于计算机视觉（CV）和AI研究的开发者而言，理解图像底层的频域变换与人眼感知机制至关重要。这不仅是处理多媒体数据的基础，也为理解现代AI模型中的特征提取与数据降维提供了原始视角。特别是在NPU（神经网络处理器）和ISP（图像信号处理器）设计中，这种基于感知冗余的取舍逻辑依然是优化吞吐量和能效的核心思想。

💡 核心观点：JPEG利用人类视觉感知缺陷通过“有损”换取效率的工程哲学，不仅定义了互联网图像标准，更为当下AI模型的剪枝与量化技术提供了范式参考。

原文链接：Hacker News
刚刚
Mac Studio 升级 25GbE 网络：低成本 DIY 改造与散热优化实录
博主为了将 Mac Studio 的网络速度从 10G 提升至 25G，拒绝购买 Sonnet 或 Atto 等售价近千美元的昂贵扩展坞，转而采用了一种仅需 160-300 美元的 DIY 方案。该方案核心是使用拆机的 OCP 2 服务器网卡配合第三方 Thunderbolt 3 适配器。在实测中，博主遇到了两个关键瓶颈：一是 NAS 端软件版本过旧限制了多线程性能，二是服务器网卡在被动散热外壳下温度过高导致掉线。为了解决散热问题，博主没有简单粘贴散热片，而是利用 3D 打印技术制作了专用的导风管道，并加装了 Noctua 低噪音风扇，甚至通过焊接从 PCB 取电实现主动散热。最终改造不仅将温度稳定在 36°C 以下，还测试出 20-25 Gbps 的带宽极限。虽然在 SMB 实际文件传输中，受限于 Arm CPU 处理能力和协议开销，速度提升并不显著，但这一极具极客精神的低成本改装方案，为追求极限网络性能的用户提供了极具价值的参考，同时也暴露了 Thunderbolt 接口在应对高性能网络设备时的带宽与散热挑战。

事件分析

本案例展示了高性能网络接口向消费级设备迁移的典型路径，即利用服务器级拆机配件配合 DIY 转接方案，打破品牌原厂配件的高溢价壁垒。技术层面上，虽然硬件支持 25 Gbps，但受限于 Thunderbolt 3/4 的传输协议开销与 PCIe 通道数，实际吞吐量往往难以满载，揭示了接口标准升级的滞后性。此外，该项目强调了在消费级设备中引入企业级组件时热设计功耗（TDP）管理的复杂性，通过 3D 打印与定制风扇模组解决散热瓶颈，体现了创客社区在解决硬件兼容性难题上的工程创造力。对于追求高速数据交互的 AI 训练或视频剪辑场景，此类低成本网络升级方案具有一定的参考价值。

💡 核心观点：DIY 硬件改装虽能绕过“苹果税”和接口溢价，但 Thunderbolt 协议瓶颈与企业级硬件的散热挑战，仍是限制消费级设备发挥极限性能的硬伤。

原文链接：Hacker News
刚刚
从成本优化到Agent架构：探索电商视频批量生成的工业化流水线
针对电商领域对AI视频大规模批量产出的迫切需求，一位开发者正在探索构建低成本的自动化视频生成流水线。目前，该项目面临较高的算力成本挑战，直接使用Seedance服务的成本约为0.45元/秒，使得生成一条120秒的视频成本接近60元。为了解决商业化落地的成本瓶颈，该项目正在尝试通过中间件或反代形式接入HiggsField等服务的账号，目标是将成本控制在0.08元至0.16元/秒之间。在技术架构层面，该项目利用开源工作流工具n8n进行串联，并正在开发一个专注于视频流水线的AI Agent系统。该系统被设计为多Agent架构，旨在实现工业化的内容生产，包含A/B测试、微调以及自动抓取热点选题等子模块。开发者计划构建多条并发的流水线，以应对“xxx的一生”等特定风格的视频批量生产需求。此案例不仅反映了当前AIGC应用层从单纯的模型调用转向全流程自动化与成本控制的趋势，同时也暴露了在基础设施未统一前，开发者需自行解决账号资源调度与成本优化的现实痛点。

事件分析

该事件揭示了当前AI视频生成领域正从“尝鲜”向“工业化生产”过渡的关键阶段。技术层面，通过n8n等低代码工具结合自研Agent，实现从选题、生成到剪辑的全链路自动化，是提升内容生产效率的有效路径。多Agent架构的引入，使得系统能够处理A/B测试、热点抓取等复杂任务，显示出AI应用正从单一功能向具备自我规划和执行能力的智能体演进。产业层面，成本控制成为商业落地的核心瓶颈。开发者被迫通过寻找号商、反代等非标准化手段降低API调用成本，这折射出当前底层算力基础设施价格依然高昂且市场机制尚不完善。未来，随着开源视频模型能力的提升及推理成本的进一步下降，此类垂直领域的自动化流水线将逐步标准化，开发者将更多聚焦于Agent的逻辑编排而非单纯的账号资源套利。

💡 核心观点：AI视频应用正从“手工作坊”迈向“工业流水线”，多Agent架构与低成本算力套利成为垂直场景落地的关键驱动力。

原文链接：Linux.do
刚刚
开发者利用大模型打造新型围棋游戏：探索多模态AI教学与NPC情绪价值实现
近日，一位技术爱好者在社区发布了一款自研的围棋游戏项目，旨在探索人工智能在复杂策略游戏中的教学与陪伴应用。该项目借鉴了知名开源围棋平台 online-go.com 的代码资源与游戏逻辑，但其核心创新点在于改变了传统围棋软件冷冰冰的交互模式，构建了一个具备“情绪价值”的围棋 NPC。据开发者介绍，该项目的长期愿景是引入多模态 AI 技术，让 AI 不仅能够从零开始教授用户围棋规则，还能通过语音或视觉交互提供更具人性化的陪练体验。在技术实现上，当前版本已初步实现了基于 Web 的游戏框架，并采用了三个不同的大模型进行协同工作与测试验证，分别负责逻辑校验、游戏机制平衡以及用户体验优化，试图解决传统围棋 AI 过于注重胜负而忽略新手体验的问题。目前，项目首个版本已部署上线，开发者正在邀请社区用户参与测试，以验证其在游戏性与教学引导方面的实际效果。这标志着 AI 技术在垂直娱乐与教育领域的应用正在从单纯的计算力比拼转向情感化与交互深度的探索。

事件分析

该事件展示了 AI Agent 在垂直细分场景中的落地潜力。传统游戏 AI 主要以击败人类为目标（如 AlphaGo），而该项目利用大模型的生成能力与推理能力，致力于解决“教学”与“陪伴”的问题，反映了 AI 应用从“效率工具”向“情感伙伴”的范式转移。技术上，采用“多模型协同”架构来应对围棋这一对逻辑严密性要求极高的场景，暗示了开发者可能正在探索使用大模型进行规则校验或 NPC 行为控制，而非仅仅依赖传统的蒙特卡洛树搜索。这种尝试虽然目前处于原型阶段，但为开源社区如何利用现有 LLM 技术重塑传统软件体验提供了新的思路。如果未来多模态交互能力真正接入，该类项目有望成为 AI 原生应用在互动娱乐领域的典型案例。

💡 核心观点：该探索标志着 AI 在游戏教育领域的定位转变：从追求极致算力的“冷面计算器”进化为具备情绪价值的“拟人化导师”，展示了多模型协作在垂类场景的落地潜力。

原文链接：Linux.do
刚刚

AI智能体实测：抛弃OpenClaw转向Hermes，只因它学会了“自动生成技能”

相关推荐

作者介绍

Toy

置顶推荐

前沿哨所

开源项目waste利用NVMe直读技术，实现29GB内存运行2.78万亿参数Kimi K3

事件分析

商汤SenseNova U1.5-Lite-Preview开源：原生4K生成与复杂排版编辑

事件分析

经典技术深读：交互式解析JPEG压缩原理与有损编码机制

事件分析

Mac Studio 升级 25GbE 网络：低成本 DIY 改造与散热优化实录

事件分析

从成本优化到Agent架构：探索电商视频批量生成的工业化流水线

事件分析

开发者利用大模型打造新型围棋游戏：探索多模态AI教学与NPC情绪价值实现

事件分析

最新文章

热门专题

热门标签

网站统计