
大模型面试100问02:训练与优化篇
TL;DR 全参数微调一个7B模型要14GB显存,65B模型要130GB——普通人根本玩不起。但LoRA只需要0.1%的参数,QLoRA更狠,单张24GB显卡就能训65B模型。本文从10个高频面试题入手,带你搞懂大模型训练的核心技术:LoR...

TL;DR 全参数微调一个7B模型要14GB显存,65B模型要130GB——普通人根本玩不起。但LoRA只需要0.1%的参数,QLoRA更狠,单张24GB显卡就能训65B模型。本文从10个高频面试题入手,带你搞懂大模型训练的核心技术:LoR...

TL;DR 面试官问你Transformer原理,你能答到什么深度?本文从12个高频面试题入手,带你搞懂大模型的底层架构——不是背概念,是真正理解为什么GPT用单向注意力、LLaMA为什么选RoPE、多头注意力到底在干什么。读完这篇,你能用...

大模型面试100问:从基础到实战的完整指南 为什么需要这个系列? 大模型面试不是背八股文——面试官要的是系统性理解和实战经验。市面上的面试题要么太碎片化(100个孤立问题),要么太理论化(只讲公式不讲应用)。 这个系列不一样: ✅ 系统化:...

TL;DR Andrej Karpathy(前特斯拉AI总监、OpenAI创始成员)做了个神经网络课程,从零开始手撸代码,一路搞到GPT。不讲虚的,全是实战。你要是会Python和高中数学,就能跟着学。 为什么值得看? 先说重点:这课程跟市...

TL;DR 你可能听说过 Claude Code 的 Commands、Skills、Agents、Plugins,但搞不清它们到底有啥区别? 简单说: – Commands = 你按的按钮(手动触发) – Skil...

为什么10年经验的程序员还需要补数学? 你写了10年代码,却看不懂Redis的SINTER为什么这么快? 你做过无数次容量规划,却不知道为什么缓存命中率从90%提升到95%,性能能翻倍? 你天天用负载均衡,却不明白一致性哈希为什么能解决扩容...

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学09:信息论 – 数据压缩 TL;DR 为什么100万用户需要多少台服务器?为什么数据库连接池要设置多大?为什么缓存命中率从90%提升到95%,性能能翻倍?答案都藏在组合...

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学08:哈希与模运算 – 负载均衡 | → 下一篇:程序员数学10:组合数学 – 容量规划 TL;DR 为什么ZIP能把文件压缩到原来的1/10?为什么HTTP...

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学07:线性代数 – 推荐系统 | → 下一篇:程序员数学09:信息论 – 数据压缩 TL;DR 为什么负载均衡能把请求均匀分配到服务器?为什么一致性哈希能解决...

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学06:统计学 – P99延迟监控 | → 下一篇:程序员数学08:哈希与模运算 – 负载均衡 TL;DR 为什么推荐系统能猜出你喜欢什么?为什么协同过滤这么准...

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学05:概率论 – 系统可用性 | → 下一篇:程序员数学07:线性代数 – 推荐系统 TL;DR 为什么监控报警不看平均值要看P99?为什么1%的慢请求能毁掉...

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学04:图论 – 微服务依赖管理 | → 下一篇:程序员数学06:统计学 – P99延迟监控 TL;DR 为什么三个99.9%的服务串联后,整体可用性只有99....

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学03:集合论 – Redis与SQL | → 下一篇:程序员数学05:概率论 – 系统可用性 TL;DR 为什么微服务会出现循环依赖?为什么CI/CD流水线要...

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学02:对数Log – 数据库索引 | → 下一篇:程序员数学04:图论 – 微服务依赖管理 TL;DR 为什么Redis的SINTER能瞬间找出共同好友?为什...

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学01:破冰篇 – 数学符号就是代码 | → 下一篇:程序员数学03:集合论 – Redis与SQL TL;DR 为什么MySQL能在1000万条数据里瞬间找到...

本文是《程序员数学扫盲课》系列文章 → 下一篇:程序员数学02:对数Log – 数据库索引 TL;DR 写了10年代码,看到数学符号就头疼?其实那些吓人的希腊字母,翻译成代码你早就会了。这篇文章把最常见的6个数学符号直接对应到G...

TL;DR 上篇讲了 Boris Cherny 的核心理念,这篇直接上干货:他的 13 条 Claude Code 实战技巧。 从环境配置(5 终端并行、系统通知)、到工具链(slash commands、subagents、hooks)、...

TL;DR Boris Cherny 在 2024 年 9 月加入 Anthropic,用 5 个月时间,大量依赖 AI(Claude)来构建 Claude Code——用 AI 写 AI 工具。2025 年 2 月 24 日,Claude...

Claude Reflect 是什么 Claude Reflect 是一个 Claude Code 的自学习插件。它的核心功能很简单:自动捕获你对 Claude 的纠正和偏好,写入配置文件,让 Claude 在未来的对话中记住这些经验。 举...

TL;DR 先说重点:你每天要让 AI 干重复的活儿,比如定时爬数据、生成报告、推送消息,以前得写一堆代码。现在有个 VS Code 插件叫 Claude Code Workflow Studio,拖拖拽拽就能把这些流程画出来,甚至直接跟 ...
最新评论
朝鲜的互联网基础设施一直是黑箱,这次调查很有价值。光纤网络的物理布局确实能反映很多信息,比如重点区域和网络拓扑。
RSS+AI的组合确实很有价值,信息过载时代确实需要智能筛选。建议增加一下跨来源的内容去重功能,避免重复推送同一话题。
侧边栏调用Gemini的思路很实用,不需要切换标签页就能使用AI。不过想了解一下是否支持自定义API Key,使用官方API可能会有限制。
登录重定向问题确实很烦人,特别是对于刚上线的项目。这个解决方案的思路很清晰,不过不同框架的实现可能需要调整。
注册流程的漏洞分析很有价值,小号入侵是很多平台都面临的问题。建议补充一下防御机制的实现细节,比如设备指纹和行为分析。
ClaudeCode在复杂项目上的表现确实不错,特别是对上下文的理解能力。不过想了解一下生成代码的可维护性如何,是否需要大量人工调整?
小团队确实需要更精简的技术栈,AI优先的思路很有前瞻性。不过团队成员的技术栈可能会比较分散,维护成本如何控制?
云服务的credits使用策略确实容易踩坑,特别是对于第三方模型的限制。建议用户在使用前仔细阅读服务条款,避免浪费额度。