 

共 34 篇文章

标签：深度学习

突破性发现：深度网络Hessian矩阵求逆可在线性时间内完成

研究显示，深度网络海森矩阵的逆矩阵计算存在一种高效的线性时间算法。传统方法计算复杂度随层数呈立方级增长，极不实用，而新方法利用矩阵多项式结构实现了分解优化。该算法类似于在双重网络上运行反向传播，使得Hessian逆的应用变得非常高效。这一发...

Toy2026-01-16前沿阅读(25)去评论

云端实战：利用DDP技术从头训练大模型

本文详细介绍了如何在云端环境中利用PyTorch的DistributedDataParallel（DDP）模块从头开始训练基础模型。文章涵盖了基础设施搭建、代码实现细节以及分布式训练中常见的挑战与解决方案，为开发者提供了在大规模云端集群上高...

Toy2026-01-13前沿阅读(25)去评论

迭代式AI学习新范式：利用提示词主动构建概念判别模型

该提示词提出了一种类似Gemini学习指导模式的AI学习方法，采用渐构式和关联式学习策略。尽管学习周期较长，但它成功将被动接收转变为主动探究，帮助用户从对象层到共相层构建知识体系。目前该模式专注于概念判别，能协助学习者建立专属的判别模型。开...

Toy2026-01-11前沿阅读(28)去评论

深度学习科研进阶：如何利用AI工具构建高效工作流？

本文探讨了深度学习科研领域的最佳实践工作流。作者分享了目前使用的多种AI工具，包括用于问答和论文润色的ChatGPT、Claude、Gemini，以及用于编程辅助的Cursor、VSCode Copilot和CLI工具。作者指出，当前许多研...

Toy2026-01-11前沿阅读(36)去评论

字节跳动急招AI大模型工程师，聚焦Agent与多模态技术

字节跳动火山AI团队急招大模型应用算法工程师和后端开发工程师，职位要求深度掌握大模型核心技术，包括SFT、RLHF、RAG、Agent等，熟悉LangGraph等框架。招聘信息反映行业对AI大模型人才的高需求，强调多模态和智能代理应用趋势，...

Toy2026-01-08前沿阅读(34)去评论

DeepSeek mHC：数学约束驯服梯度爆炸

本文从ResNet残差连接的数学原理出发，解析HC架构的梯度消失/爆炸问题，深入探讨DeepSeek提出的mHC方案。通过双随机矩阵约束和Sinkhorn算法，mHC确保学习矩阵的谱范数不超过1，将梯度连乘风险转化为可控加法结构，在保留信息...

Toy2026-01-06前沿阅读(39)去评论

深度学习VSCode存档爆满？反向gitignore巧解

作者发现VSCode的globalStorage/kilocode.kilo-code目录占用200G磁盘空间，删除后新建任务又占5G。针对深度学习项目数据集大的问题，作者使用Gemini搜索到反向gitignore方案，忽略所有文件（**...

Toy2026-01-06前沿阅读(40)去评论

急聘AI负责人：远程办公，薪资开放，聚焦交易所AI应用

招聘AI负责人，带领3-6人技术团队，负责AI在交易所业务中的落地应用，涵盖风控、用户增长、客服及数据分析等场景。要求5年以上AI/机器学习经验，熟悉深度学习、NLP等方向，有团队管理经验。优先区块链行业背景及大厂或创业公司经验，需具备跨部...

Toy2026-01-05前沿阅读(42)去评论

Karpathy神经网络06：WaveNet - 神经网络大升级-Toy's Tech Notes

Karpathy神经网络06：WaveNet - 神经网络大升级

本文是《Karpathy神经网络零基础课程》系列文章 ← 上一篇：Karpathy神经网络05：反向传播 – 徒手写梯度 | → 下一篇：Karpathy神经网络07：GPT – 从零实现ChatGPT 这是Andr...

Toy2026-01-04AI 阅读(57)去评论

Karpathy神经网络零基础课程：从零手撸到GPT-Toy's Tech Notes

Karpathy神经网络零基础课程：从零手撸到GPT

TL;DR Andrej Karpathy（前特斯拉AI总监、OpenAI创始成员）做了个神经网络课程，从零开始手撸代码，一路搞到GPT。不讲虚的，全是实战。你要是会Python和高中数学，就能跟着学。为什么值得看？先说重点：这课程跟市...

Toy2026-01-04AI 阅读(69)去评论

AI就业高薪班：Python基础+实战项目

该课程提供人工智能就业培训体系，从Python基础编程进阶到数据处理、深度学习及实战项目，涵盖金融风控、AI医生、文本摘要等实际案例，旨在快速培养学员AI技能，助力高薪就业。课程结构清晰，注重实操，适合想进入AI领域的初学者和转行者，反映了...

Toy2026-01-04前沿阅读(33)去评论

DeepSeek发布mHC架构，提升AI训练稳定性

中国AI初创公司DeepSeek于2026年初发布技术论文，介绍流形约束超连接(mHC)深度学习架构。该架构解决了神经网络规模扩大时的训练不稳定性和可扩展性问题，由创始人梁文锋团队研发，声称提供切实的性能改进和卓越的可扩展性。业内观察人士认...

Toy2026-01-02前沿阅读(34)去评论

构建深度学习库：从零打造AI引擎

这是一篇免费在线教程，指导读者如何从零开始构建深度学习库。文章以NumPy为基础，逐步实现功能性的自动梯度引擎和层模块，最终应用于训练MNIST、简单CNN和ResNet模型。作者强调理解底层原理而非仅使用现有工具，适合AI开发者深入学习。...

Toy2026-01-02前沿阅读(32)去评论

39岁Java老兵转型AI大模型开发，前辈指点迷津

一位拥有13年Java开发经验的39岁开发者，近日萌生转型AI大模型开发的念头。他已系统学习机器学习、深度学习、Transformer等核心技术，虽感门槛高但充满探索热情。针对转型可行性、常见陷阱及学习路径，他向行业前辈寻求真实建议。这一经...

Toy2025-12-31前沿阅读(42)去评论

微软开源比特级可重现深度学习框架

微软推出RepDL框架，解决深度学习中跨硬件平台比特级可重现性问题。该框架通过实现确定性操作，确保模型训练和推理在CPU等不同设备上输出一致。支持PyTorch兼容，提供可重现操作、函数和模块示例，项目学术和非生产用途，欢迎开发者贡献。原...

Toy2025-12-29前沿阅读(37)去评论

AI赋能2048游戏：从入门到榜单37名的技术突破

作者分享利用AI技术（包括Gemini模型和深度学习算法）改进2048游戏脚本的过程。最初通过Chrome Dev MCP轻松达到10000分，但受限于单线程卡顿，转向WebSocket外部运算。采用Expectimax决策树算法调参后，分...

Toy2025-12-26前沿阅读(45)去评论

AI IDE转战CLI：Claude Code与MCP科研工作流配置指南

本文探讨了从AI IDE转向CLI+Claude工作流的技术实践，主要针对深度学习项目优化和科研论文写作场景。作者详细询问了Claude Code CLI的最佳实践配置、MCP与Claude Skills的关系以及全局配置文件的使用方法。文...

Toy2025-12-25前沿阅读(42)去评论

Gemini 3.0优化：论文抽象方法拆解指南

本文探讨了如何利用Google Gemini 3.0人工智能模型拆解学术论文中的抽象方法，将其转化为具体的工程操作，以促进深度学习领域的理解。作者发现，传统论文解读方式易受原文表述影响，导致注意力分散且难以直观掌握核心概念。通过优化提示词，...

Toy2025-12-24前沿阅读(42)去评论

东京高薪招聘AI工程师，900万-1200万日元

AI Talent Force株式会社在东京招聘AI工程师，年薪900万-1200万日元，要求7年以上后端开发经验，支持远程工作。公司提供系统培训，包括AI基础、Prompt设计、LangChain应用等，适合AI初学者。项目涉及生成AI平...

Toy2025-12-23前沿阅读(37)去评论

2025科研人形机器人横向评测：逐际动力与宇树参数全对比

本文为科研人员提供了一份详尽的人形机器人横向数据对比表格，重点分析了逐际动力与宇树两大品牌主流科研人形机器人的各项技术参数。随着深度学习在机器人领域的应用日益广泛，选择合适的人形机器人平台对研究至关重要。这份对比涵盖了硬件配置、软件支持、价...

Toy2025-12-22前沿阅读(44)去评论

1
2
下一页
共 2 页

前沿哨所

GenAI陷入“吃尾巴”循环：如何解决模型崩溃与内容危机

文章探讨了生成式AI正在“吃掉自己尾巴”的现象。随着AI生成的内容充斥互联网，未来的模型可能会在低质量或递归生成的数据上进行训练，导致“模型崩溃”。核心挑战在于，如果AI完全取代了人类创作者，新的高质量训练数据来源将面临枯竭。作者强调，建立机制确保知识创造者能从AI生态系统中获益，是维持AI技术长期创新和数据质量可持续性的关键问题。

原文链接：V2EX 分享发现

32分钟前
告别网页查账：开发者开源 Cursor 用量监控 VS Code 插件

近日，一位开发者为了解决 Cursor 编辑器用量查询不便的问题，编写了一款 VS Code 插件。该插件可以在状态栏实时显示当前的 API 请求用量，并支持自动从本地数据库读取 token，无需手动配置。目前该项目已开源，但由于作者仅持有团队版按次计费账号，无法验证 Free、Pro 等其他账号类型的数据结构兼容性。作者呼吁拥有其他类型账号的开发者共同参与维护，完善功能。

原文链接：V2EX 分享发现

32分钟前
独立开发者推出 AI 生图 SaaS Nanoeditor，集成最新模型

一位独立开发者成功构建并上线了名为 Nanoeditor 的 AI 生图 SaaS 网站。该平台集成了最新的 AI 图像生成模型，支持用户根据具体场景生成图片。目前，该项目正处于公测阶段，开发者诚邀科技爱好者注册体验并反馈潜在 Bug。为回馈用户，在评论区留下注册邮箱即可获赠 500 积分，用于体验平台功能。

原文链接：V2EX 分享发现

33分钟前
致敬APL：图灵奖得主眼中“抒情编程”与数组计算的预言

这篇1977年的经典文章由首位图灵奖得主Alan J. Perlis撰写，极力推崇APL语言作为计算机科学教学的入门工具。作者强调，APL的简洁性、灵活性以及对数组操作的原生支持，使学生能快速表达复杂算法。文章极具前瞻性地指出，随着数组处理计算机的兴起，APL比Fortran等传统语言更能适应未来的硬件架构。对于现代AI与芯片领域读者，此文深刻揭示了并行计算思维的历史渊源与价值。

原文链接：Hacker News

33分钟前
【AI实战】利用Hook脚本让Claude Code实现“渐进式阅读”

针对Claude Code在处理大型项目时倾向于读取全量文件导致上下文过载的问题，开发者提出了一套基于Hook脚本和提示词工程的解决方案。通过拦截工具调用并强制要求`offset`和`limit`参数，该方案模拟了人类程序员的“渐进式披露”阅读习惯，即先搜索定位再精准读取。这一方法不仅大幅降低了Token消耗，还通过保持上下文最小化，提升了AI修改代码的准确率。

原文链接：Linux.do

33分钟前
提效利器：Claude Code 增强配置与多模型协作指南

本文分享了一套针对 Claude Code 的全局增强配置提示词（CCG Enhanced）。该配置强制执行“调研优先”原则，建立了详细的 MCP 工具调用决策树，并规范了多模型协作流程，如指定 Codex 负责后端、Gemini 负责前端。此外，它还涵盖了任务分级、代码风格及安全检查等严格标准，旨在通过系统化指令约束，最大化 AI 编程的准确性与工程质量。

原文链接：Linux.do

3小时前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始