共 25 篇文章

标签：transformer 第2页

谷歌创新神经记忆模块，突破大模型长序列瓶颈

谷歌研究人员推出神经长期记忆模块（titan），针对Transformer架构在长序列处理中的注意力稀释、性能下降和显存依赖问题。该模块作为深层神经网络，在运行时动态更新权重，通过“惊奇度”机制选择性记忆信息，类似人脑功能。谷歌设计了三种集...

Toy2025-12-22前沿阅读(39)去评论

本文提供了一套完整的’从0到1训练私有大模型’课程资源，涵盖词向量原理、Transformer架构、BERT系列、强化学习及RLHF训练实战等核心技术。课程从基础概念入手，逐步深入到模型开发与训练，包括使用Paddl...

Toy2025-12-19前沿阅读(38)去评论

斯坦福大学权威教材《语音与语言处理》第三版预发布版本现已上线，这是AI和自然语言处理领域的经典教材的最新更新。新版本全面纳入了最新的AI技术进展，包括大型语言模型(LLM)、Transformer架构、语音识别(Whisper)和文本转语音...

Toy2025-12-16前沿阅读(52)去评论

谷歌在AI竞赛中展现出全方位领先优势。模型层上，谷歌拥有第一梯队多模态闭源和开源模型，并在生物学领域通过AlphaFold实现垄断。应用层中，谷歌全家桶、搜索引擎及AndroidOS已集成AI overviews，提供无缝体验。数据来源方面...

Toy2025-12-14前沿阅读(54)去评论

研究人员开发了一种创新方法，通过低秩’意义场’技术替换完整Transformer推理，将冻结的Llama-3.3-70B模型压缩224倍，同时实现256维场表示，并在多个基准测试上略微提高准确性。该方法引入小型学生模...

Toy2025-12-10前沿阅读(59)去评论