
大模型面试100问06:评估与安全篇
TL;DR 评估和安全是LLM落地的两大关键——不能衡量就无法改进,不能保护就不敢上线。BLEU/ROUGE适合机器翻译但不适合开放生成,困惑度只能评估语言建模能力;幻觉检测用语义熵,偏见测量用CrowS-Pairs;红队测试模拟攻击,差分...

TL;DR 评估和安全是LLM落地的两大关键——不能衡量就无法改进,不能保护就不敢上线。BLEU/ROUGE适合机器翻译但不适合开放生成,困惑度只能评估语言建模能力;幻觉检测用语义熵,偏见测量用CrowS-Pairs;红队测试模拟攻击,差分...

TL;DR LLM的知识有截止日期,RAG让它能查最新资料;LLM只会聊天,Agent让它能干活。RAG的核心是检索+生成,文档分块策略直接影响效果;Agent的核心是感知+规划+记忆+工具,ReAct架构让它能像人一样思考和行动。本文从8...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。

TL;DR Prompt工程是让LLM听懂人话的艺术——同样的问题,换个问法效果天差地别。”让我们一步步思考”这句话为什么能让GPT-4准确率从17%提升到79%?Tree of Thoughts如何让模型像下棋一样...

TL;DR 推理才是大模型的真正战场——训练一次,推理百万次。标准Attention的内存带宽成为瓶颈,Flash Attention通过Tiling技术让速度提升5倍;KV Cache让解码快10倍,但长上下文会吃掉几十GB显存;vLLM...

TL;DR 全参数微调一个7B模型要14GB显存,65B模型要130GB——普通人根本玩不起。但LoRA只需要0.1%的参数,QLoRA更狠,单张24GB显卡就能训65B模型。本文从10个高频面试题入手,带你搞懂大模型训练的核心技术:LoR...

TL;DR 面试官问你Transformer原理,你能答到什么深度?本文从12个高频面试题入手,带你搞懂大模型的底层架构——不是背概念,是真正理解为什么GPT用单向注意力、LLaMA为什么选RoPE、多头注意力到底在干什么。读完这篇,你能用...

大模型面试100问:从基础到实战的完整指南 为什么需要这个系列? 大模型面试不是背八股文——面试官要的是系统性理解和实战经验。市面上的面试题要么太碎片化(100个孤立问题),要么太理论化(只讲公式不讲应用)。 这个系列不一样: ✅ 系统化:...
开发者开源手势控制圣诞树项目,基于自研AI游戏生成引擎(内置Gemini pro 3),实现摄像头手势识别:握拳聚合粒子、张开散开、捏夹聚焦照片。支持个性化照片上传管理,配备3D粒子效果、节日配色及动态光影。技术亮点包括实时交互反馈、隐藏控...
本文深入探讨了编程语言中著名的’十亿美元错误’——null指针问题。作者基于Odin语言设计经验,指出null指针在系统级语言中并非最常见或最严重的内存错误,其批评源于个体元素思维模式。文章提倡分组元素思维,通过批量...
AutoGLM-GUI v1.4.1版本正式发布,带来重大技术升级。该项目是AutoGLM的现代化Web图形界面,旨在让AI自动化操作Android设备变得简单。新版本引入双模型协作机制,结合大模型思考与小模型执行,提升智能与效率;同时实现...
本文详细介绍了AI开发工具OpenCode的安装与配置过程,作者通过实际使用展示了其多Agent协作、TUI界面、跨平台兼容等优势。文章涵盖模型代理设置、oh-my-opencode插件集成、多模态支持等技术细节,为开发者提供了一套高效利用...
在Linux.do论坛上,用户分享了一项引人注目的测试:选中所有卡片后生成的新对话,传入了高达18万字符的文本。令人惊叹的是,哈基米3 Pro设备完美处理了这一任务,展现了其强大的AI处理能力。用户特别强调谷歌的上下文技术非常出色,这凸显了...
作者完成了一个开源英语学习项目,汇总了自然拼读方法和真人发音练习,包含16k+单词库,旨在帮助用户无痛背单词、摆脱死记硬背。项目提供在线学习平台和GitHub开源代码,持续更新中,适合从基础开始学习英语的用户。该工具通过简化拼读规则和增加正...
一位开发者分享了使用Claude Code进行项目的实际经验,包括token消耗快、生成代码与预期偏差等问题。他尝试了plan模式拆解任务和spec-workflow执行,但效果不理想,项目虽能运行却感觉不完善。未来计划探索让AI架构项目结...
开发者Cheez推出开源工具chous,被誉为“文件结构领域的ESLint”。该工具支持Cursor的Hooks,通过npx命令轻松配置和使用:运行npx chous init生成配置模板,npx chous检查项目报错,调整配置直到通过;...
本文探讨了网站开发中第三方脚本引入的单点故障风险,并介绍了PartyTown这一创新解决方案。PartyTown通过将第三方脚本隔离到Web Worker中运行,有效降低了因第三方服务故障导致的网站崩溃风险,同时提升了页面加载性能和用户体验...
文章挑战了传统观点‘注释应解释为什么,而非什么’,通过实例分析短变量名(如w、r)导致的上下文混淆问题。作者指出,查找信息耗时且易出错,而过度依赖方法分解可能增加上下文切换。在特定场景下,注释解释‘什么’能提升代码可读性,避免危险假设。强调...
近日,Linux.do论坛用户讨论在二手平台如闲鱼订阅Cursor Pro账号的可靠性问题。用户反馈显示,这类账号需禁用更新、存在固定额度限制,且来源可疑(可能涉及破解)。技术专家警告,盗版账号可能导致模型性能下降(降智),同时安装的插件存...
本文报告了AI模型Opus-4.5的性能测试结果,在每5小时的运行中成功处理了75条数据,剩余分数分别为0.9866667和0.97333336。话题包含19个帖子,由16位参与者深入讨论,提供了模型效率、资源使用和稳定性的技术分析。测试数...
用户此前领取Cursor 3个月Pro会员,因未使用便注销账号。然而,3个月后支付宝收到Stripe的20美元扣款,尽管账号已注销,系统仍成功扣费。用户通过邮件联系Cursor客服[email protected],提供凭证后成功退款。事件凸显自动...