共 60 篇文章

标签：多模态第3页

AI模型选择策略：Gemini-3-flash的实用指南

本文分享了作者使用多种AI模型的实战经验，包括GPT-5.2-thinking用于方案生成、Claude-4.5-opus用于代码重构、DeepSeek-R1-0528用于中文分析。作者回顾了从GPT-4o到Gemini-2.5的迁移过程，...

赞(0)

Toy2025-12-21前沿阅读(37)去评论

大模型周刊（第11期）：GPT图像生成大升级，Gemini 2.0 Flash成新默认

大模型周刊（第11期）：GPT图像生成大升级，Gemini 2.0 Flash成新默认 TL;DR 本周AI领域密集发布：OpenAI的GPT Image 1.5让图像生成速度提升4倍；Google的Gemini 2.0 Flash以极低成...

赞(0)

Toy2025-12-20AI 阅读(60)去评论

AI虚拟女友新进展：Mori v0.1.0支持多模态与工具集成

Mori v0.1.0是一个基于AgentScope框架构建的虚拟AI女友agent系统，目前已开源至GitHub平台。该系统支持多种AI模型供应商（如OpenAI、Claude等），采用Gradio作为GUI前端，并利用Jinja2模板渲...

赞(0)

Toy2025-12-19前沿阅读(42)去评论

Gemini 3 Flash 多模态模型：下一代计算机控制新突破

从Linux.do论坛的讨论中获悉，下一代计算机控制模型可能基于Gemini 3 Flash，而非Pro模型，因为Pro模型运行速度较慢。Gemini 3 Flash保持了强大的多模态能力，预计将支持更多动作，主要用于操作系统级别的控制，而...

赞(0)

Toy2025-12-18前沿阅读(39)去评论

Google集成Opal至Gemini，多模态AI竞争升级

Google正式将Opal集成至Gemini模型，进一步强化其原生多模态处理能力。凭借谷歌在搜索引擎、YouTube等平台的数据优势，Gemini在AI竞争中展现出显著优势，尤其在图像、音频等多模态数据处理上高效且低成本。与OpenAI相比...

赞(0)

Toy2025-12-18前沿阅读(44)去评论

AMC更新：支持YouTube视频导入，Gemini API加持

最近，AMC发布了一项重要功能更新，正式支持导入YouTube视频链接，利用Gemini API原生能力，实现快速导入和处理大体积视频文件。这一更新针对当前对YouTube视频分析的高需求，为用户提供了更便捷的工具。该功能深度集成Gemin...

赞(0)

Toy2025-12-18前沿阅读(57)去评论

Gemini 3 Pro评测：用户亲测表现平平无奇

作者分享使用谷歌Gemini 3 Pro的亲身经历，在代码编写中遇到各种问题，前端开发错误多且解决困难，对比Trae CN solo表现更优；研究模式和知识库功能产出不佳，存在幻觉和逻辑错误。评价Gemini比DeepSeek强一点（多模态...

赞(0)

Toy2025-12-17前沿阅读(41)去评论

AI聊天优化提示词：提升对话质量的工程技巧

本文分享了一个针对AI聊天机器人的提示词工程案例，专为优化与女生的交流设计。提示词基于Gemini Pro模型，强调多模态优势（优于DeepSeek），包含角色设定（如Eros认知心理学家）、思维链协议（情绪侦测、陷阱识别）和结构化输出格式...

赞(0)

Toy2025-12-16前沿阅读(55)去评论

Gemini 3 Flash 视觉能力媲美Pro版，超越GPT模型

本文报道了一个社区共建的语言模型区分题库Wiki项目，涵盖逻辑推理、知识储备、识图能力等多模态测试框架。测试结果显示，Google的Gemini 3 Flash在视觉任务中表现与高端版3 Pro相当，显著优于OpenAI的GPT 5.2。该...

赞(0)

Toy2025-12-14前沿阅读(59)去评论

谷歌AI军备竞赛：全方位优势难以撼动

谷歌在AI竞赛中展现出全方位领先优势。模型层上，谷歌拥有第一梯队多模态闭源和开源模型，并在生物学领域通过AlphaFold实现垄断。应用层中，谷歌全家桶、搜索引擎及AndroidOS已集成AI overviews，提供无缝体验。数据来源方面...

赞(0)

Toy2025-12-14前沿阅读(54)去评论

Gemini 3 Flash逻辑推理全对，无需搜索工具

基于Linux.do的讨论，Gemini 3 Flash在逻辑题库测试中表现优异，所有题目均答对且无需调用搜索工具。相比之下，Gemini 3 Pro在数学方面稍弱，但调用Python工具后也能完成第一题。这突显了多模态AI模型在逻辑推理和...

赞(0)

Toy2025-12-14前沿阅读(57)去评论

Gemini 3 Flash性能评测：超越2.5 Pro，性价比之王

本文基于手动测试数据，详细分析了谷歌Gemini 3 Flash模型的表现。测试数据来源于竞技场和官方渠道，由于尚未有API版本，部分为单轮测试，仅体现趋势。结果显示，该模型在100K召回率测试中达到100%，完全超越2.5 Pro版本，被...

赞(0)

Toy2025-12-14前沿阅读(70)去评论

开源画布式AI平台：生成可编辑PPT工作流

NextCreator是一款开源的画布式AI工作流创作平台，基于Tauri构建，支持网页端和桌面端。它整合NanoBananaPro技术，提供节点式编辑界面，支持AI图片生成、视频生成（基于Sora模型）、多模态文本生成等功能。平台可自动生...

赞(0)

Toy2025-12-12前沿阅读(57)去评论

AMC支持Gemini 3超高清分辨率与精细控制

All-Model-Chat（AMC）是一款全能AI聊天助手，深度集成Google Gemini API生态，支持多模态交互（文本、语音、图片、视频）、实时联网搜索、代码执行、长文档分析及高级推理功能。其最新特性包括支持设置媒体分辨率至UL...

赞(0)

Toy2025-12-12前沿阅读(74)去评论

GPT-5.2多模态疑似史诗级升级

近日，关于GPT-5.2多模态能力的讨论引发关注。据Linux.do用户测试，GPT-5.2在处理PDF文档时表现优异，速度远超以往版本，且能精准引用知识点。这一改进疑似源于向Google Gemini学习，后者以visual token处...

赞(0)

Toy2025-12-12前沿阅读(67)去评论

智谱发布5大开源模型，AMA活动等你提问

智谱本周重磅发布了5款开源模型，涵盖GLM-4.6V多模态大模型、CogVideo家族视频生成模型、CogView家族图像生成模型以及GLM-TTS语音合成技术。公司将于北京时间12月11日傍晚6点至晚10点举办AMA活动，邀请模型训练团队...

赞(0)

Toy2025-12-11前沿阅读(63)去评论

语言模型多模态测试题库：全面评估AI能力

本文介绍了Linux.do社区上的Wiki语言模型区分题库，涵盖逻辑推理、知识储备、图像识别、脑筋急转弯、代码执行、工具调用、幻觉检测和ASR能力等多模态测试领域。编辑建议强调使用权威模型进行标准化测试，要求每题测试5次，准确率≥80%归入...

赞(0)

Toy2025-12-11前沿阅读(99)去评论

Gemini Business 2API升级：支持多模态与Docker一键启动

Gemini Business 2API迎来重大更新，现已全面支持多模态功能，允许处理文本、图像等多种数据类型，显著提升AI应用能力。最新版本1.4通过Docker实现一键启动，极大简化部署流程，降低开发者使用门槛。版本历史显示，1.1支持...

赞(0)

Toy2025-12-10前沿阅读(76)去评论

豆包App功能远超网页版，多模态体验差异引关注

有用户发现国内AI模型豆包在移动网页版和App版之间存在明显功能差异。尽管移动网页版已新增生图和视频生成等多模态功能，但与App版相比仍显不足，回答内容也不完整。这一现象引发用户猜测，可能电脑端也存在类似情况，需安装软件才能获得最佳体验。该...

赞(0)

Toy2025-12-09前沿阅读(84)去评论

LightRAG：AI驱动的多模态RAG系统升级

LightRAG是由香港大学数据科学团队开发的开源检索增强生成（RAG）系统，结合知识图谱与LLM技术，提供高效文档处理与查询能力。新版本集成RAGAS评估与Langfuse追踪工具，优化大规模数据集处理性能，提升知识图谱提取精度，并支持多...

赞(0)

Toy2025-12-04前沿阅读(74)去评论

上一页
1
2
3
共 3 页

标签：多模态第3页

AI模型选择策略：Gemini-3-flash的实用指南

大模型周刊（第11期）：GPT图像生成大升级，Gemini 2.0 Flash成新默认

AI虚拟女友新进展：Mori v0.1.0支持多模态与工具集成

Gemini 3 Flash 多模态模型：下一代计算机控制新突破

Google集成Opal至Gemini，多模态AI竞争升级

AMC更新：支持YouTube视频导入，Gemini API加持

Gemini 3 Pro评测：用户亲测表现平平无奇

AI聊天优化提示词：提升对话质量的工程技巧

Gemini 3 Flash 视觉能力媲美Pro版，超越GPT模型

谷歌AI军备竞赛：全方位优势难以撼动

Gemini 3 Flash逻辑推理全对，无需搜索工具

Gemini 3 Flash性能评测：超越2.5 Pro，性价比之王

开源画布式AI平台：生成可编辑PPT工作流

AMC支持Gemini 3超高清分辨率与精细控制

GPT-5.2多模态疑似史诗级升级

智谱发布5大开源模型，AMA活动等你提问

语言模型多模态测试题库：全面评估AI能力

Gemini Business 2API升级：支持多模态与Docker一键启动

豆包App功能远超网页版，多模态体验差异引关注

LightRAG：AI驱动的多模态RAG系统升级

置顶推荐

前沿哨所

告别大一统：科技行业正迎来碎片化复兴

深度解析AI代理模式：设计瓶颈与大规模编程实践

AI量化工具QuantDinger开源：支持全市场交易与AI策略生成

开源工具突破限制：Antigravity Agent实现全自动运行

突破极限：利用瞬态场神经渲染，可视化光传播的飞行视角

反代工具故障意外泄露Claude Opus 4.5，算力瓶颈制约高端AI

最新文章

热门专题

热门标签

网站统计

最新评论

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

标签：多模态 第3页

置顶推荐

前沿哨所

告别大一统：科技行业正迎来碎片化复兴

深度解析AI代理模式：设计瓶颈与大规模编程实践

AI量化工具QuantDinger开源：支持全市场交易与AI策略生成

开源工具突破限制：Antigravity Agent实现全自动运行

突破极限：利用瞬态场神经渲染，可视化光传播的飞行视角

反代工具故障意外泄露Claude Opus 4.5，算力瓶颈制约高端AI

最新文章

热门专题

热门标签

网站统计

最新评论

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

标签：多模态第3页