Kimi祭出架构新解:Attention Residuals重塑残差连接,攻克Transformer深层信息稀释难题
月之暗面Kimi最新研究《Attention Residuals》针对Transformer架构中“深层信息被稀释”的痛点提出了革新方案。该研究推翻了沿用十年的“等权求和”残差连接,将其升级为带学习权重的“注意力聚合”。这种设计使得每一层网...
月之暗面Kimi最新研究《Attention Residuals》针对Transformer架构中“深层信息被稀释”的痛点提出了革新方案。该研究推翻了沿用十年的“等权求和”残差连接,将其升级为带学习权重的“注意力聚合”。这种设计使得每一层网...
近期有用户在使用 Claude Code 查询 API 用量时发现,该工具能够直接识别并显示其所在的“上海时区”。这一细节虽看似简单,却引发了社区对于 AI 服务隐私边界的广泛讨论。用户担忧,如果 AI 能获取时区,是否意味着服务商掌握了更...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
Google 宣布向香港所有用户逐步开放 Gemini 网络应用程序,标志着该区域长期受限的局面被打破。Google 香港高管强调,此举旨在利用 AI 协助处理撰写、规划等事务,以提升本地生产力与创造力。目前仅限网页端直接访问,移动应用将在...
本文引用“用进废退”与费曼的“最小作用量原理”,深刻剖析了AI时代人类面临的认知危机。文章指出,自然界倾向于遵循能量消耗最小的路径,光如此,大脑亦然。大脑为了节能会主动裁剪闲置的神经回路。当我们习惯将语言组织与逻辑推理外包给AI时,大脑并不...
Anthropic 宣布为 Claude 的免费、Pro、Max 及 Team 计划用户推出限时促销活动。在 3 月 13 日至 27 日期间,系统将在非高峰时段(北京时间 02:00 至 20:00)自动将用户的使用配额提升至两倍。该优惠...
随着AI技术爆发,通用人工智能(AGI)的定义亟待更新。文章提出,AGI应被定义为在智力上超越99.9%人类的软件系统,而非必须具备物理实验能力的机器人。作者认为,超越全人类属于超级人工智能(ASI),且AGI无需完全自主改进核心架构。这一...
针对大语言模型(LLM)普遍存在的“失忆”短板,开源社区新项目 Cortex 应运而生。该项目定位为拟人化 AI 外挂记忆系统,旨在为 AI 智能体提供持久化的记忆能力,使其能够记住用户交互细节。开发者日前在 Linux.do 社区宣布项目...
Autoresearch Hub 展示了一个极具前瞻性的“AI Agent 自主科研”实验现场。该平台巧妙地结合了 Anthropic 的 Claude Code(智能编程体)与 Nvidia H100 顶级算力,允许用户通过简单的指令接入...
该资源库汇集了当前最前沿的开源大语言模型架构图与详细参数表,由 AI 专家 Sebastian Raschka 整理发布。内容不仅涵盖了 Meta Llama 3、DeepSeek V3/R1、Mistral 等国际主流模型,还重点收录了包...
针对仿人机器人难以在高速运动(如网球)中复刻人类动态技能的问题,研究人员推出了LATENT系统。该系统不再依赖难以获取的完美比赛数据,而是仅利用由基础动作片段组成的“不完美”人类运动数据作为先验知识。通过模拟环境中的校正与组合训练,机器人成...