Toy's Tech Notes

AI编程 · 架构思考 · 技术人生
大模型面试100问02:训练与优化篇-Toy's Tech Notes

大模型面试100问02:训练与优化篇

TL;DR 全参数微调一个7B模型要14GB显存,65B模型要130GB——普通人根本玩不起。但LoRA只需要0.1%的参数,QLoRA更狠,单张24GB显卡就能训65B模型。本文从10个高频面试题入手,带你搞懂大模型训练的核心技术:LoR...

赞(0)ToyToyAI 阅读(66)去评论
大模型面试100问01:基础概念与架构篇-Toy's Tech Notes

大模型面试100问01:基础概念与架构篇

TL;DR 面试官问你Transformer原理,你能答到什么深度?本文从12个高频面试题入手,带你搞懂大模型的底层架构——不是背概念,是真正理解为什么GPT用单向注意力、LLaMA为什么选RoPE、多头注意力到底在干什么。读完这篇,你能用...

赞(1)ToyToyAI 阅读(93)去评论
大模型面试100问:从基础到实战的完整指南-Toy's Tech Notes

大模型面试100问:从基础到实战的完整指南

大模型面试100问:从基础到实战的完整指南 为什么需要这个系列? 大模型面试不是背八股文——面试官要的是系统性理解和实战经验。市面上的面试题要么太碎片化(100个孤立问题),要么太理论化(只讲公式不讲应用)。 这个系列不一样: ✅ 系统化:...

赞(0)ToyToyAI 阅读(137)去评论
程序员数学10:组合数学 - 容量规划-Toy's Tech Notes

程序员数学10:组合数学 - 容量规划

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学09:信息论 – 数据压缩 TL;DR 为什么100万用户需要多少台服务器?为什么数据库连接池要设置多大?为什么缓存命中率从90%提升到95%,性能能翻倍?答案都藏在组合...

赞(0)ToyToy架构 阅读(53)去评论
程序员数学09:信息论 - 数据压缩-Toy's Tech Notes

程序员数学09:信息论 - 数据压缩

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学08:哈希与模运算 – 负载均衡 | → 下一篇:程序员数学10:组合数学 – 容量规划 TL;DR 为什么ZIP能把文件压缩到原来的1/10?为什么HTTP...

赞(0)ToyToy架构 阅读(62)去评论
程序员数学07:线性代数 - 推荐系统-Toy's Tech Notes

程序员数学07:线性代数 - 推荐系统

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学06:统计学 – P99延迟监控 | → 下一篇:程序员数学08:哈希与模运算 – 负载均衡 TL;DR 为什么推荐系统能猜出你喜欢什么?为什么协同过滤这么准...

赞(0)ToyToy架构 阅读(55)去评论
程序员数学06:统计学 - P99延迟监控-Toy's Tech Notes

程序员数学06:统计学 - P99延迟监控

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学05:概率论 – 系统可用性 | → 下一篇:程序员数学07:线性代数 – 推荐系统 TL;DR 为什么监控报警不看平均值要看P99?为什么1%的慢请求能毁掉...

赞(0)ToyToy架构 阅读(54)去评论
程序员数学03:集合论 - Redis与SQL-Toy's Tech Notes

程序员数学03:集合论 - Redis与SQL

本文是《程序员数学扫盲课》系列文章 ← 上一篇:程序员数学02:对数Log – 数据库索引 | → 下一篇:程序员数学04:图论 – 微服务依赖管理 TL;DR 为什么Redis的SINTER能瞬间找出共同好友?为什...

赞(0)ToyToy架构 阅读(50)去评论

十年稳如初 — LocVPS,用时间证明实力

10+ 年老牌云主机服务商,全球机房覆盖,性能稳定、价格厚道。

老品牌,更懂稳定的价值你的第一台云服务器,从 LocVPS 开始