 

共 25 篇文章

标签：transformer

马斯克开源X新算法：全Transformer架构，Rust重写

马斯克团队正式开源了X平台全新的推荐算法，核心亮点在于完全基于Transformer架构，取代了旧版的手工特征工程。新算法采用与Grok相同的结构，通过Phoenix Scorer直接处理实时互动序列进行排序。技术栈全面采用Rust语言重写...

Toy2026-01-20前沿阅读(26)去评论

拓扑Transformer问世：KV缓存减半，突破传统注意力机制

本文介绍了名为Tauformer的新型拓扑Transformer架构，它通过图拉普拉斯导出的标量替代传统的点积注意力，将域结构直接注入模型。这种设计使KV缓存只需存储值和标量流，而非完整的键张量，实现了约50%的逐层缓存缩减。在H100上的...

Toy2026-01-18前沿阅读(20)去评论

DeepSeek mHC 复现：颠覆传统残差连接，重塑 Transformer 架构

自2016年以来，无论是GPT-5、Claude还是Gemini，所有主流Transformer模型均沿用单一残差连接设计 $x + F(x)$。本文深入探讨了DeepSeek提出的mHC架构，该设计大胆挑战了这一传统范式，通过拓宽残差连接...

Toy2026-01-12前沿阅读(52)去评论

indexTTS 2.5发布：语音合成速度与质量飞跃

indexTTS 2.5已在arXiv发布技术报告，显著提升了多语言覆盖范围、推理速度和语音合成整体质量。该模型基于Transformer架构，包含文本到语义（T2S）模块和非自回归语义到梅尔（S2M）模块，实现零样本神经文本到语音功能。实...

Toy2026-01-08前沿阅读(65)去评论

Hacker News研究：负面情绪帖子表现更佳

一项最新研究揭示，65%的Hacker News帖子带有负面情绪，这些帖子平均得分35.6分，比整体平均高出27%。研究基于32,000个帖子和340,000条评论，使用多个AI模型（包括DistilBERT、BERT、RoBERTa和Ll...

Toy2026-01-07前沿阅读(33)去评论

Fielix神经网络架构：场效应革新Transformer学习效率

作者开源新型神经网络架构Fielix，以“场效应”机制替代传统注意力机制。实验显示，在27M参数模型下，Fielix初始Loss为3.0，Transformer为7.9；最终Loss Fielix为1.66，Transformer为2.59...

Toy2026-01-06前沿阅读(43)去评论

AI大模型全栈工程师课程资源第9期：完整课件与实战工具包

本文提供了AI大模型全栈工程师第9期的完整课件资源，包括视频课程和配套工具包，覆盖大模型应用开发基础、Prompt Engineering、模型微调（上下）、多模态大模型（上下）、神经网络和Transformer详解、LangChain、R...

Toy2026-01-05前沿阅读(48)去评论

GLM-Image引入AR模型支持，新功能在望

GitHub上出现一个PR，旨在为GLM-Image适配AR模型的实现。该PR由开发者提交，获得51个赞，显示社区支持。GLM-Image是一个基于Transformer的AI图像模型，此次适配可能预示模型将扩展功能，支持更多应用场景，为未...

Toy2026-01-05前沿阅读(51)去评论

Trellis AI招募工程师，构建医疗保健AI代理

Trellis AI是斯坦福AI实验室的衍生公司，专注于构建AI代理以革新医疗保健访问。他们的系统自动化文档处理、预先授权和上诉流程，每年处理价值数十亿美元的治疗，覆盖全美50个州。公司由YC、General Catalyst等知名投资者支...

Toy2026-01-05前沿阅读(42)去评论

Karpathy神经网络07：GPT - 从零实现ChatGPT-Toy's Tech Notes

Karpathy神经网络07：GPT - 从零实现ChatGPT

本文是《Karpathy神经网络零基础课程》系列文章 ← 上一篇：Karpathy神经网络06：WaveNet – 神经网络大升级 | → 下一篇：Karpathy神经网络08：Tokenizer – 为什么AI不识...

Toy2026-01-04AI 阅读(61)去评论

大模型面试100问01：基础概念与架构篇-Toy's Tech Notes

大模型面试100问01：基础概念与架构篇

TL;DR 面试官问你Transformer原理，你能答到什么深度？本文从12个高频面试题入手，带你搞懂大模型的底层架构——不是背概念，是真正理解为什么GPT用单向注意力、LLaMA为什么选RoPE、多头注意力到底在干什么。读完这篇，你能用...

Toy2026-01-04AI 阅读(79)去评论

大模型面试100问：从基础到实战的完整指南-Toy's Tech Notes

大模型面试100问：从基础到实战的完整指南

大模型面试100问：从基础到实战的完整指南为什么需要这个系列？大模型面试不是背八股文——面试官要的是系统性理解和实战经验。市面上的面试题要么太碎片化（100个孤立问题），要么太理论化（只讲公式不讲应用）。这个系列不一样： ✅ 系统化：...

Toy2026-01-04AI 阅读(107)去评论

AI大师Karpathy：神经网络从零到英雄实战课程

Andrej Karpathy推出“神经网络：从零到英雄”课程，系统讲解从反向传播到现代深度神经网络如GPT的构建过程。课程包括实践项目：micrograd、makemore语言模型、MLP、WaveNet、GPT及其Tokenizer。通...

Toy2026-01-04前沿阅读(36)去评论

腾讯开源混元Motion 1.0：AI生成3D动画新突破

混元Motion 1.0是一款基于Diffusion Transformer（DiT）架构与流匹配机制的十亿参数级AI模型，能从自然语言描述生成流畅自然的3D角色动画，覆盖广泛类别并无缝集成到美术管线。该模型由腾讯研发，计划于2025年12...

Toy2026-01-02前沿阅读(52)去评论

39岁Java老兵转型AI大模型开发，前辈指点迷津

一位拥有13年Java开发经验的39岁开发者，近日萌生转型AI大模型开发的念头。他已系统学习机器学习、深度学习、Transformer等核心技术，虽感门槛高但充满探索热情。针对转型可行性、常见陷阱及学习路径，他向行业前辈寻求真实建议。这一经...

Toy2025-12-31前沿阅读(42)去评论

Transformer模型Web端TTS：延迟挑战与优化探索

在Linux.do社区，用户讨论使用transformers.js运行Kokoro-82M模型实现离线Web端TTS（文本转语音）功能。用户反馈模型运行延迟较高，虽可用但体验不佳，寻求更高效的替代方案。这反映了在浏览器环境中部署大型Tran...

Toy2025-12-29前沿阅读(35)去评论

AI工程师转型路径：从零到生产级部署-Toy's Tech Notes

AI工程师转型路径：从零到生产级部署

AI工程师转型路径：从零到生产级部署一、问题传统工程师的困境： – 会写代码,但不懂Transformer – 会调API,但不懂模型原理 – 会用ChatGPT,但不会训练模型核心疑问：如何从传统...

Toy2025-12-26实战阅读(52)去评论

Gemini 3.0优化：论文抽象方法拆解指南

本文探讨了如何利用Google Gemini 3.0人工智能模型拆解学术论文中的抽象方法，将其转化为具体的工程操作，以促进深度学习领域的理解。作者发现，传统论文解读方式易受原文表述影响，导致注意力分散且难以直观掌握核心概念。通过优化提示词，...

Toy2025-12-24前沿阅读(43)去评论

通用推理模型URM刷新AI推理基准

该论文系统分析了通用Transformer在复杂推理任务中的性能表现，发现其优势主要源于循环归纳偏置和强非线性组件，而非复杂架构设计。基于此，作者提出通用推理模型（URM），通过集成短卷积和截断反向传播技术，显著提升了推理能力。实验显示，U...

Toy2025-12-23前沿阅读(40)去评论

图解Transformer模型：AI核心技术的深度解析

本文详细解析了Transformer模型的工作原理，包括自注意力机制、多头注意力、位置编码和编码器-解码器结构。文章通过可视化方式，帮助读者理解如何通过Query、Key和Value向量实现序列建模，以及Transformer如何优化并行训...

Toy2025-12-23前沿阅读(42)去评论

1
2
下一页
共 2 页

前沿哨所

解决AI编程上下文难题：llmdoc方案提升Agent效率

面对AI Coding全面铺开的趋势，上下文构建成为严肃生产环境中的核心难题。本文提出了“Context Floor”概念，并介绍了一套名为llmdoc的解决方案。该方案通过构建兼顾人类和AI可读的高密度文档系统，结合Subagent RAG技术，实现了在不增加主Agent Token占用的前提下，快速提供强关联的有效信息。实测表明，该方案在十万行代码库中表现优异，大幅降低了人工介入成本，有效提升了复杂项目中AI Agent的开发效率。

原文链接：Linux.do

50分钟前
Claude Code 进阶指南：精通配置、插件与高效开发流

本文详细解析了 Claude Code 的底层配置与实战技巧。文章首先剖析了 ~/.claude 目录结构，厘清了核心配置、扩展系统及运行时数据的作用。其次对比了 Commands 与 Skills 的差异，并展示了插件系统的使用方法。此外，作者分享了 MCP 最佳实践及多配置启动器搭建，提倡通过“滚雪球式”优化将 AI 交互经验沉淀为长期能力，帮助开发者打造专属的高效编码工作流。

原文链接：Linux.do

50分钟前
开源 CCW 6.3.48：实现一键式全自动 AI 软件开发工作流

Claude Code Workflow (CCW) 是一个基于 JSON 驱动的多智能体开发框架，致力于将 AI 开发从简单的提示词链接提升至强大的系统化编排。该框架支持 Gemini、Qwen 等多种大模型，通过智能 CLI 实现上下文优先架构和自动化工作流执行。CCW 提供了自动编排器用于快速通用任务，以及智能协调器用于处理复杂、可恢复的多步骤流程。用户只需简单的自然语言指令，即可实现从意图分析到代码执行的全流程自动化，极大提升开发效率。

原文链接：Linux.do

50分钟前
提升代码准确率：llmdoc 解决 AI 编码“最后一百米”

本文探讨了 AI 编码工具在生产环境中的上下文构建痛点。作者提出了“Context Floor”概念，并推出了结合“llmdoc”高密度文档系统与“SubAgent RAG”的解决方案。经企业 10 万行代码项目验证，该方案显著提升了 AI 上下文获取效率与代码准确性，大幅降低人工介入频率。尽管成本略有增加，但在复杂项目中收益显著，为生产级 AI 编码提供了新思路。

原文链接：V2EX 分享发现

2小时前
SSL证书有效期将缩至45天，自动化运维成生存刚需

Sectigo 与 Let's Encrypt 等主流机构确认将大幅缩短 SSL 证书有效期。Sectigo 计划从 2026 年 3 月起缩短至 199 天，Let's Encrypt 更激进地将在 2028 年缩短至 45 天。此举旨在限制安全漏洞影响范围并提升吊销效率。然而，频繁的续期要求将使手动管理变为噩梦，这标志着运维必须全面拥抱自动化，传统的证书管理模式面临淘汰。

原文链接：V2EX 分享发现

2小时前
1960年代的实时计算奇迹：IBM 9020 如何接管美国领空

本文详细回顾了美国空中交通管制系统从SAGE向IBM 9020转型的历史。9020基于System/360架构，首创多机“多系统”并联设计，通过复杂的共享内存和故障自动分析程序（OEAP）实现了极高的实时性与可靠性。这一系统不仅是当时技术的巅峰，更为现代分布式计算和高可用性架构奠定了基础。

原文链接：Hacker News

2小时前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始