 

当前位置：Toy's Tech Notes  AI情报局  正文

Karpathy神经网络03：MLP - 多层感知机

2026-01-04 分类：AI情报局阅读(26) 评论(0) 赞(0)

#Karpathy神经网络零基础课程

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

本文是《Karpathy神经网络零基础课程》系列文章

← 上一篇：Karpathy神经网络02：Makemore – 语言模型入门 | → 下一篇：Karpathy神经网络04：BatchNorm – 解决训练崩盘

欢迎回来！如果在上一集我们造的是一辆“乐高迷你车”（Bigram 模型），那么今天 Andrej Karpathy 大神要带我们升级装备，造一辆真正的“电动轿车”！

这堂课的主题是：多层感知机 (MLP)。虽然名字听起来很吓人，但它的原理其实超级有趣。我们将参考 2003 年的一篇经典论文，用现代的方法重现它。

以下是为你准备的“初中生进阶版”AI 笔记：

🚀 第一部分：为什么要升级？(从死记硬背到寻找规律)

在上一集里，我们的 AI 只有“金鱼记忆”，只看前 1 个字母来猜下一个。

笨办法： 如果我们想让它聪明点，看前 3 个字母怎么办？
爆炸的表格： 如果用老办法（查表法），表格会变得巨大无比！27 个字母的 3 次方是 19,000 多种组合，再多一点电脑内存就爆了。
新思路： 我们不要“死记硬背”每一种组合，而是要学会“寻找规律”。这就是神经网络（MLP）登场的时候。

🗺️ 第二部分：核心魔法——字符嵌入 (Embeddings)

这是本集最酷的概念！想象一下，我们把每个字母（a, b, c…）都变成一个坐标。

什么是 Embedding？
以前 ‘a’ 就是一个单纯的代号。现在，我们给 ‘a’ 一个身份信息，比如 [0.1, -0.5]。这就好像把字母放在了一个地图上。
神奇的效果：
经过训练后，AI 会自动把相似的字母放在一起。
比如元音 a, e, i, o, u 在地图上可能会聚成一个小圈子。
因为它们在单词里出现的用法很像（比如都可以放在辅音中间）。
这就是 AI 产生的“语感”！它不再只认符号，而是开始理解字母之间的关系。

🧠 第三部分：搭建更强的大脑 (MLP 结构)

Andrej 带我们用代码搭积木，这次的积木分三层：

输入层 (Input)：
比如我们要看前 3 个字母来猜第 4 个。我们把这 3 个字母的“坐标” (Embeddings) 拿出来，拼在一起。
隐藏层 (Hidden Layer) —— 大脑的处理中心：
这些拼起来的数据，会通过一个“全连接层” (Linear Layer) 和一个激活函数 (tanh)。
这就好比把信息揉碎了、混合在一起进行深加工。
输出层 (Output)：
最后算出一个概率：下一个字母是谁？

🎓 第四部分：大神教你的“避坑指南” (教学重点)

这部分是教科书上学不到的实战经验，非常宝贵：

1. 怎么找到最合适的“学习速度” (Learning Rate)？

问题： 步子迈太大（学习率太高），AI 会学疯了；步子太小（学习率太低），学到天荒地老。
Karpathy 的绝招： 先试探性地扫描！
让学习率从非常小慢慢变到非常大，记录下中间过程的 Loss（错误率）。
画出一张图，找到那个“下坡最快，但又没翻车”的最低点，那就是最完美的学习率。

2. 考试不能作弊 (Train / Dev / Test Sets)

如果 AI 把题目全背下来了（Loss 很低），但遇到新题就不会做，这叫“过拟合” (Overfitting)。
为了防止 AI 作弊，我们要把数据分成三份：
训练集 (Train)： 平时的作业，用来学习。
验证集 (Dev/Validation)： 模拟考，用来调整参数（比如改改模型大小）。
测试集 (Test)： 最终期末考。绝对不能让 AI 提前看到！ 只有这样才能知道它是不是真学会了。

3. PyTorch 的魔法咒语

view()： 这是一个超高频使用的命令。它能瞬间把数据的形状改变（比如把“3 行 2 列”变成“1 行 6 列”），而且完全不消耗内存。学会用它，你就是 PyTorch 魔法师。

📝 总结

看完这个视频，我们的 AI 已经进化了：

它不再需要死记硬背巨大的表格。
它学会了把字母变成向量坐标 (Embeddings)，有了初步的“语感”。
它生成的单词更像人话了（名字听起来更真实）。

给初中生的启示：
这个视频告诉我们，解决困难问题（比如数据太多存不下）的方法，往往是换一个角度看问题（把离散的符号变成连续的空间向量）。这就是数学和编程结合的美妙之处！

视频链接：https://www.youtube.com/watch?v=TCH_1BHY58I

返回系列总览

👉 Karpathy神经网络零基础课程：完整课程大纲

赞(0)

未经允许不得转载：Toy's Tech Notes » Karpathy神经网络03：MLP - 多层感知机

分享到

AI模型 Karpathy MLP 字符嵌入神经网络

免费、开放、可编程的智能路由方案，让你的服务随时随地在线。

相关推荐

评论抢沙发

前沿哨所

GitHub Copilot实战：一键生成DDNS动态解析脚本

作者为解决家庭宽带公网IP动态更新需求，利用GitHub Copilot编写了一个Shell脚本。该脚本可自动同步IP至Cloudflare DNS，并支持一键配置定时任务。值得注意的是，代码99%由AI生成，仅经人工微调，作者公开了原始Prompt，展示了AI辅助编程在提升开发效率方面的巨大潜力。

原文链接：V2EX 分享发现

31分钟前
告别大模型内卷：寻找低成本、易获取的“小模型”API方案

当前科技圈热衷讨论“大模型”，但实际应用中，许多用户仅需处理文本提取、信息刮削等轻量级任务。针对算力设备较差且调用频率低的场景，寻找注册简单、未被屏蔽且价格低廉甚至免费的“小模型”API成为刚需。这类小模型足以应对应用初始化和工作流节点判断，结合AI Agent能提供更灵活的自动化解决方案，体现了AI实用主义的新趋势。

原文链接：Linux.do

31分钟前
Claude Code 支持热切换，CC Switch 实现多 AI 终端统一管理

Claude Code v2.0.69 发布更新，现已支持请求地址和 API Key 的热切换功能，用户在使用 CC Switch 切换供应商时无需重启终端。配套工具 CC Switch 也迎来多项升级，包括全新 UI、双层存储架构以及对 Gemini CLI 的完整支持。此外，新版本还新增了提示词管理、统一 MCP 管理面板、Skills 市场及冲突检测等功能，旨在为开发者提供更便捷的 AI 终端管理体验。

原文链接：Linux.do

31分钟前
claudecode新增Windows任务完成通知，点击快速跳转

针对多窗口使用claudecode的场景，一款开源工具利用其hook功能实现了Windows系统级通知。当某个代码任务执行完毕时，用户会收到冒泡提示，点击即可快速跳转至对应窗口，有效解决了多任务并行时的监控痛点，显著提升了开发效率。

原文链接：Linux.do

31分钟前
Kiro-Gateway发布：修复接口缺陷，支持Cursor调用免费Claude模型

开发者对kiro-2api进行了二次开发并发布kiro-gateway，修复了原版代码中Tools调用及Cursor接口的缺陷。该项目实现了在Cursor IDE中通过自定义OpenAI接口调用AWS CodeWhisperer提供的免费Claude模型，解决了多Agent并行开发的接口兼容问题。作者还透露Cursor的OpenAI兼容层实际使用Claude参数，并同步推出了AnyProxyAi本地网关工具，统一管理多家AI服务商API。

原文链接：Linux.do

31分钟前
想生成法新社风格大片？这份Gemini提示词请收好

本文分享了一个利用Gemini模型生成高质量“法新社风格”图片的提示词技巧。作者通过设定“法新社首席摄影师”这一角色，强调了对抓拍瞬间、角色衣着、氛围营造及后期处理的极致追求。该提示词利用特定的温度参数和生图模型，能有效引导AI生成具有新闻纪实感和电影质感的图像。这一技巧不仅为缺乏生图灵感的用户提供了实用参考，也展示了AI在模仿特定摄影风格上的巨大潜力。

原文链接：Linux.do

31分钟前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始