
大模型面试100问02:训练与优化篇
TL;DR 全参数微调一个7B模型要14GB显存,65B模型要130GB——普通人根本玩不起。但LoRA只需要0.1%的参数,QLoRA更狠,单张24GB显卡就能训65B模型。本文从10个高频面试题入手,带你搞懂大模型训练的核心技术:LoR...

TL;DR 全参数微调一个7B模型要14GB显存,65B模型要130GB——普通人根本玩不起。但LoRA只需要0.1%的参数,QLoRA更狠,单张24GB显卡就能训65B模型。本文从10个高频面试题入手,带你搞懂大模型训练的核心技术:LoR...

TL;DR 面试官问你Transformer原理,你能答到什么深度?本文从12个高频面试题入手,带你搞懂大模型的底层架构——不是背概念,是真正理解为什么GPT用单向注意力、LLaMA为什么选RoPE、多头注意力到底在干什么。读完这篇,你能用...

大模型面试100问:从基础到实战的完整指南 为什么需要这个系列? 大模型面试不是背八股文——面试官要的是系统性理解和实战经验。市面上的面试题要么太碎片化(100个孤立问题),要么太理论化(只讲公式不讲应用)。 这个系列不一样: ✅ 系统化:...

TL;DR Andrej Karpathy(前特斯拉AI总监、OpenAI创始成员)做了个神经网络课程,从零开始手撸代码,一路搞到GPT。不讲虚的,全是实战。你要是会Python和高中数学,就能跟着学。 为什么值得看? 先说重点:这课程跟市...

TL;DR 你可能听说过 Claude Code 的 Commands、Skills、Agents、Plugins,但搞不清它们到底有啥区别? 简单说: – Commands = 你按的按钮(手动触发) – Skil...

TL;DR 上篇讲了 Boris Cherny 的核心理念,这篇直接上干货:他的 13 条 Claude Code 实战技巧。 从环境配置(5 终端并行、系统通知)、到工具链(slash commands、subagents、hooks)、...

TL;DR Boris Cherny 在 2024 年 9 月加入 Anthropic,用 5 个月时间,大量依赖 AI(Claude)来构建 Claude Code——用 AI 写 AI 工具。2025 年 2 月 24 日,Claude...

系列导航 [上篇] Google AI Pro 订阅全解析 [本篇] Gemini 家庭共享完全指南 ← 你在这里 [下篇] Gemini Pro 进阶玩法 好家伙,Google 这次真下血本了。 年底促销直接砍 58%,原价 7,800 ...

系列导航 第一篇:破除”套壳”迷思 第二篇:代理的真实价值 第三篇:Meta 的终局(本篇) 一、Meta 的困局 你知道 Meta 现在面临什么问题吗? 有脑,无手。 Meta 通过开源 Llama 系列模型,成功...

系列导航 第一篇:破除”套壳”迷思 第二篇:代理的真实价值(本篇) 第三篇:Meta 的终局 一、开场:能力过剩的时代 你有没有想过这个问题:为什么 ChatGPT 能写代码,却写不出一个能自己跑代码的程序? 这就是...

Meta 的终局:从社交巨头到 AI 操作系统 系列导航 第一篇:破除”套壳”迷思 第二篇:代理的真实价值 第三篇:Meta 的终局(本篇) 一、Meta 的困局 你知道 Meta 现在面临什么问题吗? 有脑,无手。...

TL;DR 今天和AI聊天时随口说了句”我要奶茶”,系统真的给我送了一张沪上阿姨的券码。 这不是预设对话,而是智谱GLM Coding Plan的真实功能。 背后是MCP工具协议、意图识别、产品温度的完整闭环。 系列...

大模型周刊第12期(2025年12月20日-12月27日) TL;DR 本周AI领域年末收官:ChatGPT推出年终总结功能,用户粘性策略升级;Cursor收购Graphite强化代码审查,AI编程生态完善;Claude双倍使用限额回馈用户...

Claude 4:Anthropic 的反击战 一、问题 OpenAI 的垄断困境: – GPT-4 统治市场两年,开发者别无选择 – API 价格居高不下,中小团队负担重 – 幻觉问题依然存在,代码生成...

红杉AI峰会:市场是云计算的10倍 一、问题 投资人的困惑: – AI创业公司估值动辄$10亿,泡沫吗? – 做基础模型还是应用层? – Agent经济是噱头还是真趋势? 核心疑问:红杉资本为什么说AI市...

玛丽·米克尔AI趋势报告:2120亿美元豪赌的真相 一、问题 AI泡沫还是真革命: – 科技巨头2024年砸2120亿美元搞AI – ChatGPT两个月1亿用户,是真需求还是尝鲜? – 训练成本涨240...

思维幻觉:AI推理能力的真实边界 一、问题 近期一篇《思维的幻觉》研究,撕开了AI”思考”的神秘面纱。 核心问题:大型推理模型(LRMs)到底是真推理,还是高级模式匹配? 这项研究之所以重要,是因为AI领域正经历前所...

Claude 4:Anthropic 的反击战 2025 年 5 月 22 日,Anthropic 发布 Claude 4 系列。这不是一次常规更新,而是对 OpenAI 和谷歌的直接宣战。 一、双轨战略:Opus 旗舰 + Sonnet ...

谷歌 I/O 2025:AI 渗透每一寸产品 谷歌 I/O 2025 大会核心信息只有一个:AI 不再是亮点,而是基础设施。从搜索到视频生成,从操作系统到 3D 通信,AI 正在重写谷歌的产品基因。 一、Gemini AI:谷歌的̶...

揭秘 AI 圈的”玄学”:一个提示词真能测出 Opus 4.5 吗? TL;DR 社区流传的”日本校园10位女生”测试法,通过观察模型输出是否有乱码、名字是否多样化来鉴定真假 Opus 4.5...
最新评论
开源的AI对话监控面板很实用,正好团队在找这类工具。准备试用一下。
折叠屏市场确实在升温,不过售罄也可能是备货策略。期待看到实际销量数据。
从磁盘I/O角度解释B树的设计动机,这个切入点很好。终于理解为什么数据库不用二叉树了。
IT术语转换确实是个痛点,之前用搜狗总是把技术词汇转成奇怪的词。智谱这个方向值得期待。
这个工具结合LLM和搜索API的思路很有意思,正好解决了我在做知识管理时遇到的问题。请问有没有部署文档?
这个漏洞确实严重,我们团队上周刚遇到类似问题。建议补充一下如何检测现有项目是否受影响的方法。
从简单规则涌现复杂性这个思路很有意思,让我想起元胞自动机。不过数字物理学在学术界争议还挺大的。
我也遇到了指令跟随变差的问题,特别是多轮对话时容易跑偏。不知道是模型退化还是负载优化导致的。