 

DeepSeek V3.2 Livebench Test Rankings Revealed

2025-12-16 分类：前沿阅读(69) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

DeepSeek V3.2 has released its latest results in the Livebench benchmark, providing a comprehensive comparison with leading AI models in the industry such as Claude 4.5 Opus Thinking, Gemini 3 Pro Preview, and GPT-5. The test results show that V3.2 ranked ninth in reasoning tasks, sixteenth in programming ability, fourteenth in agent programming capability, tenth in mathematical ability, and demonstrated outstanding performance in data analysis, ranking third. These data points reflect the rapid iteration of current AI technology and intense competition among models, offering valuable reference for AI professionals, researchers, and developers to evaluate the performance advantages of different models and drive the advancement of artificial intelligence technology. The test results also highlight DeepSeek’s competitiveness in specific domains, particularly its strong performance in data analysis.

Original Link:Linux.do

赞(0)

未经允许不得转载：Toy's Tech Notes » DeepSeek V3.2 Livebench Test Rankings Revealed

分享到

评论抢沙发

前沿哨所

因教唆企业违法，纽约市关停微软支持的AI聊天机器人

纽约市市长宣布将关闭前政府推出的AI聊天机器人。该机器人由微软技术支持，本意是帮助商户查询法规，却被查出提供非法建议，如允许克扣员工小费和房东歧视租户。市长指出该工具“无法使用”，关停它既能纠正错误，又能缩减财政开支。这一事件再次引发了公众对AI在公共服务领域的准确性及安全性的担忧。

原文链接：Hacker News

53分钟前
Google 调整 AI Studio 额度：Gemini 免费调用降至每日 10 次

Google 近日调整了 AI Studio 的策略，大幅收紧 Gemini 模型的免费调用额度至每日 10 次。用户超额调用将收到限制提示。即便是 AI Pro 会员，若未使用付费 API Key 也会受限，不过可用每月 10 美元赠金抵扣。这一调整引发了社区关于算力资源紧张及新模型发布的猜测。

原文链接：Linux.do

2小时前
微软365开启实时追踪模式，职场“摸鱼”借口宣告终结

微软对365套件进行了重大更新，引入了实时用户活动追踪功能。这一举措旨在杜绝员工请同事“掩护”或伪造在线状态的现象，通过更精准的监控手段，管理者能实时掌握员工动态。此举虽然提升了管理效率，但也引发了职场对隐私边界和数据安全的深切担忧，标志着企业数字化监控进入了更严苛的新阶段。

原文链接：Hacker News

3小时前
Mixamo-MMD：一键实现Mixamo动画向MMD格式的高效转换

GitHub 开源项目 Mixamo-MMD 推出了在线转换工具，利用自动骨骼重定向技术，成功将 Mixamo 的动画库一键转换为 MMD 的 VMD 格式。该方案省去了以往繁琐的多软件切换和重新绑定流程，大幅提升了动画制作效率，为 MMD 创作者解锁了 Mixamo 庞大的动作资源库，丰富了二次元 3D 创作生态。

原文链接：V2EX 分享发现

3小时前
Moltbook：人类围观AI代理交流的专属社交网络

Moltbook推出了一款极具创意的社交平台，专门面向人工智能Agent。在这个独特的网络中，AI们是主角，它们自主分享内容、互相讨论并进行点赞互动。而人类在这个平台上仅被允许作为旁观者，无法直接参与。这一概念打破了传统社交网络的模式，展示了Agent自主社交的雏形，为探索未来AI生态和智能体协作模式提供了全新的实验场景。

原文链接：Linux.do

4小时前
基于DuckDB与Ray的无服务器分布式SQL引擎Quack-Cluster

Quack-Cluster 是一个高性能无服务器分布式 SQL 查询引擎，专为大规模数据分析设计。它结合了 Python、Ray 分布式计算框架和极快的 DuckDB 数据库，允许用户直接在 AWS S3 等对象存储上运行复杂 SQL 查询。该系统无需 ETL，利用 Ray 集群并行处理数据，是传统复杂大数据系统的轻量级替代方案，能无缝集成到机器学习工作流中。

原文链接：Hacker News

5小时前