 

多款主流LLM频繁生成特定人名，揭露数据污染与模型蒸馏隐患

2026-01-30 分类：前沿阅读(2) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

近期发现Gemini、Claude、Kimi、DeepSeek等主流大模型在随机角色扮演中，均有极高概率生成“苏晚晴”这一特定名字。这一现象并非巧合，而是训练数据库污染及模型蒸馏过程中数据同质化的体现。该缺陷源于早期模型的数据偏差，并在后续模型通过蒸馏学习时被继承和放大，折射出当前AI行业面临的数据质量与模型迭代中的深层隐患。

原文链接：Linux.do

赞(0)

未经允许不得转载：Toy's Tech Notes » 多款主流LLM频繁生成特定人名，揭露数据污染与模型蒸馏隐患

分享到

大语言模型数据污染模型蒸馏

评论抢沙发

前沿哨所

OpenCode新增Antigravity插件，支持IDE内直接生成AI图片

OpenCode近日更新了Antigravity认证插件，新增了AI绘图功能。用户现在只需在IDE中输入描述即可生成图片，默认为2K分辨率，指定“高清”可启用4K通道。插件提供少量免费额度供尝鲜，Pro用户享有更多权益。需注意，受限于Antigravity渠道，生成偶发失败但不消耗额度。

原文链接：Linux.do

1小时前
Trellis更新：全面支持Windows，优化AI开发工具兼容性

AI开发框架Trellis迎来重要更新，将原有的Bash脚本迁移至Python脚本，从而实现对Windows系统的全面支持。该工具是专为Claude Code和Cursor打造的一站式AI框架，此次更新极大地提升了跨平台兼容性，方便Windows用户安装和使用，开发者可通过NPM命令下载测试。

原文链接：Linux.do

1小时前
像写代码一样写简历：AI Agent 自动定制求职神器

针对求职者“改简历难、针对性差”的痛点，开发者开源了“Resume as Code”项目。该项目将职业生涯视为数据库，通过 YAML 维护单一数据源，并利用 GitHub Copilot 或 Trae 等 AI Agent 框架，自动化处理简历生成流程。它不仅能分析职位描述（JD）自动生成高度匹配的定制化简历，还能将流水账润色为专业职场语言，并生成针对性的面试“作弊小抄”。这一方案实现了简历的版本化管理，同时保障了本地隐私安全。

原文链接：V2EX 分享发现

2小时前
Cicada：一款无缝集成C语言的轻量级脚本语言

Cicada 是一款轻量级脚本语言，能够直接嵌入并运行在 C 代码内部，旨在弥补 C 语言在灵活性和扩展性上的不足。用户仅需引入头文件并进行简单的链接配置，即可通过 runCicada 函数轻松调用。该工具极大地简化了在底层 C 环境中集成脚本逻辑的流程，为系统级开发提供了高效的解决方案。

原文链接：Hacker News

2小时前
Obsidian插件Multi ASR发布：整合OpenAI与Gemini多模型语音识别

Obsidian社区推出了一款名为Multi ASR的强大插件，旨在为用户提供集成的语音识别服务。该插件不仅全面兼容OpenAI和Gemini的各类模型接口，还集成了智谱AI、阿里云、火山云等五大主流ASR服务商。用户支持自定义模型、提示词及参数，并能灵活处理本地文件或网络链接，将转录结果无缝输出至笔记中，极大提升了知识记录的效率。

原文链接：Linux.do

2小时前
破解Antigravity额度之谜：周限重置机制实测解析

经过多日实测，Anthropic Antigravity平台的Sonnet模型每5小时限制调用150次。数据显示，一周内累计调用约265次（不足3轮满额）即触发周限制。当周额度剩余低于40%时，界面显示逻辑会自动从“5小时额度”切换为“周额度剩余”，导致用户看到“n天后重置”的提示。此外，混用Opus模型将加速额度消耗。该测试揭示了平台复杂的额度管理机制，为开发者合理规划API调用提供了重要参考。

原文链接：Linux.do

2小时前