新型基准测试揭示:顶级大语言模型在心理健康护理领域表现欠佳
Sword Health公司近日推出名为mindeval的新型基准测试,用于评估大语言模型在真实心理健康护理场景中的表现。测试结果表明,当前顶级大语言模型在专业心理健康护理领域面临显著挑战,无法完全满足临床需求。这一发现对AI在医疗健康领域...
Sword Health公司近日推出名为mindeval的新型基准测试,用于评估大语言模型在真实心理健康护理场景中的表现。测试结果表明,当前顶级大语言模型在专业心理健康护理领域面临显著挑战,无法完全满足临床需求。这一发现对AI在医疗健康领域...
最新AI模型性能对比显示,GPT-5.2在’人类最后一场考试’基准测试中取得67%的准确率,显著优于Gemini 3的45.1%和GPT-5.1的41.0%。这一结果揭示了AI推理能力的最新进展,为行业提供了重要参考...