AI工程师英文学习小抄
一、词符切分
Tokenization (n. 词符切分):把句子切成一个个小零件
| 术语 | 含义 |
|---|---|
| token | 语言的小积木 |
| Byte-pair Encoding | 聪明的字节对编码方法 |
| Byte Latent Transformer | 补丁比词符扩展得更好 |
二、矢量化
Vectorization (n. 矢量化):把文字、图片、声音都变成数字
| 模型 | 说明 |
|---|---|
| BERT | 深度双向转换器的语言理解大师 |
| IMAGEBIND | 一个嵌入空间捆绑所有模态 |
| SONAR | 句子级别的多模态表示 |
| FAISS | 海量数据相似性搜索库 |
三、基础设施
Infrastructure (n. 基础设施):AI系统的地基
| 工具 | 用途 |
|---|---|
| TensorFlow | 谷歌的机器学习框架 |
| Milvus DB | 向量搜索专用数据库 |
| Ray | 分布式应用框架 |
四、核心架构
Core Architecture (n. 核心架构):AI的大脑设计
| 技术 | 说明 |
|---|---|
| Attention is All You Need | 注意力机制时代的宣言 |
| FlashAttention | 像闪电一样快的注意力算法 |
| Multi-Query Attention | 多查询注意力 |
| Grouped-Query Attention | 分组查询注意力 |
五、混合专家
Mixture of Experts (n. 混合专家):多个”专家”模型各显神通
| 模型 | 特点 |
|---|---|
| Sparsely-Gated MoE | 稀疏激活的混合专家层 |
| GShard | 谷歌的分片训练技术 |
| Switch Transformers | 带开关的Transformer |
六、人类反馈强化学习
RLHF (Reinforcement Learning from Human Feedback):让AI懂礼貌、会说话
| 论文 | 内容 |
|---|---|
| Deep RL with Human Feedback | AI的情商培养皿 |
| Fine-Tuning LMs with RLHF | 用人类反馈微调模型 |
七、思维链
Chain of Thought (n. 思维链):让AI一步一步思考
| 技术 | 说明 |
|---|---|
| CoT Prompting | 激发大模型推理能力 |
| Demystifying Long CoT | 揭秘长思维链推理过程 |
八、推理能力
Reasoning (n. 推理):衡量AI智能的重要标准
| 论文 | 核心观点 |
|---|---|
| Transformer Reasoning Capabilities | 探索推理能力上限 |
| Scale model test times > scale parameters | 测试次数比参数量更重要 |
九、模型优化
Optimizations (n. 优化):让模型跑得更快、吃得更少
| 技术 | 效果 |
|---|---|
| 1.58-bit LLMs | 极致压缩,所有大模型都在1.58比特内 |
| FlashAttention-3 | 更快更准,支持异步和低精度 |
| Speculative Decoding | 推测性解码,加速生成 |
十、知识蒸馏
Distillation (n. 蒸馏):把大模型的知识提炼给小模型
| 方法 | 说明 |
|---|---|
| Distilling Knowledge in NN | 祖师爷的配方 |
| BYOL – Distilled | 自学成才还能当老师 |
十一、状态空间模型
SSMs (State Space Models):Transformer的新兴挑战者
| 模型 | 特点 |
|---|---|
| RWKV | Transformer时代重新发明RNN |
| Mamba | 像曼巴蛇一样快速 |
| LoLCATs | 低秩线性化 |
十二、模型竞赛
Competition Models (n. 竞争模型):AI界的奥林匹克
| 赛事 | 说明 |
|---|---|
| Google Math Olympiad | 数学AI挑战 |
| Competitive Programming with LRM | 编程竞赛 |
十三、炒作与质疑
Hype Makers & Breakers (n. 吹鼓手与泼冷水):理性看待AI
| 观点 | 代表 |
|---|---|
| 语言不等于智能 | Language is not intelligence |
| 区分交流与智能 | Separating communication from intelligence |
十四、图像Transformer
Image Transformers (n. 图像转换器):让AI看懂图片
| 模型 | 说明 |
|---|---|
| Image is 16×16 word | 把图像当文字处理 |
| CLIP | 文字和图像手拉手 |
十五、视频Transformer
Video Transformers (n. 视频转换器):理解动态视觉
| 模型 | 用途 |
|---|---|
| ViViT | 专为视频打造的视觉Transformer |
| VideoJAM | Facebook的AI视频生成 |
十六、实际案例
Case Studies (n. 案例研究):AI在真实世界的应用
| 公司 | 应用 |
|---|---|
| Meta | 自动改进单元测试 |
| OpenAI | o1系统、Swarm集群 |
| Netflix | 个性化推荐基础模型 |
| Uber | queryGPT查询优化 |
参考链接
– 原文:https://docs.80aj.com/docs/AI%20%E5%B7%A5%E7%A8%8B%E5%B8%88%E7%9A%84%E5%A5%87%E5%B9%BB%E6%BC%82%E6%B5%81%EF%BC%9A%E4%B8%80%E4%BB%BD%E5%B8%A6%E6%A2%97%E7%9A%84%E8%8B%B1%E6%96%87%E5%AD%A6%E4%B9%A0%E5%B0%8F%E6%8A%84.html










程序员数学扫盲课
AI周刊:大模型、智能体与产业动态追踪
Claude Code 全体系指南:AI 编程智能体实战
Karpathy神经网络零基础课程
最新评论
开源的AI对话监控面板很实用,正好团队在找这类工具。准备试用一下。
折叠屏市场确实在升温,不过售罄也可能是备货策略。期待看到实际销量数据。
从磁盘I/O角度解释B树的设计动机,这个切入点很好。终于理解为什么数据库不用二叉树了。
IT术语转换确实是个痛点,之前用搜狗总是把技术词汇转成奇怪的词。智谱这个方向值得期待。
这个工具结合LLM和搜索API的思路很有意思,正好解决了我在做知识管理时遇到的问题。请问有没有部署文档?
这个漏洞确实严重,我们团队上周刚遇到类似问题。建议补充一下如何检测现有项目是否受影响的方法。
从简单规则涌现复杂性这个思路很有意思,让我想起元胞自动机。不过数字物理学在学术界争议还挺大的。
我也遇到了指令跟随变差的问题,特别是多轮对话时容易跑偏。不知道是模型退化还是负载优化导致的。