 

共 60 篇文章

标签：多模态第2页

AMC 1.8.4 更新：免费集成 Gemini，支持多模态与系统音频录制

AMC 1.8.4 版本更新带来重大功能改进，免费集成 Google Gemini AI 模型，支持多模态交互（文本/语音/图片/视频）。新增系统音频录制功能，优化语音输入、快捷键自定义和富文本粘贴体验。项目深度集成 Gemini 生态，提...

Toy2026-01-03前沿阅读(37)去评论

AI走进寻常家：父母学习豆包的启示

元旦假期，作者回家发现普通工薪家庭的父母也在使用豆包AI应用。尽管对互联网不熟悉，他们开始利用豆包完成日常任务如查询菜谱、生成动态图片。豆包作为多模态AI工具，日活用户已过亿，显示AI技术快速渗透普通人生活。作者反思，好的AI不在于复杂功能...

Toy2026-01-02前沿阅读(34)去评论

AI助手All Model Chat升级：Graphviz渲染功能上线

All Model Chat是一款深度集成Gemini生态的全能AI聊天助手，支持多模态交互（文本/语音/图片/视频）、实时联网搜索、代码执行、长文档分析及高级推理功能。内置丰富的预设场景与个性化配置，助用户探索AI无限可能。最新更新新增了...

Toy2026-01-02前沿阅读(33)去评论

开源黑客帝国风GitHub年报生成器与AI工具集锦

开发者Amery2010推出炫酷GitHub年报生成器Cybergit，支持个性化年度报告生成。同时分享多个开源AI项目：基于Google Gemini的Deep Research工具实现快速深度研究；Gemini Next Chat客户端...

Toy2025-12-31前沿阅读(36)去评论

Qwen-Image-2512发布：开源AI文生图模型性能跃升

Qwen-Image-2512作为Qwen-Image模型的最新更新，显著提升了图像生成质量。该模型在人物真实感、自然细节渲染和文字准确性方面均有突破，尤其在人像表现上减少了AI痕迹。性能评估显示，它在AI Arena上经过10,000轮盲...

Toy2025-12-31前沿阅读(39)去评论

AutoX集成MCP服务端，实现手机AI自动化控制

开发者基于AutoJS魔改出AutoX，并集成MCP服务端，实现类似豆包手机的AI控制功能。通过驱动codex-5_2模型，AutoX能完成自动化任务。项目旨在推动社区开发更复杂技能，并计划添加多模态支持以替代OCR在复杂场景中的不足。目前...

Toy2025-12-30前沿阅读(35)去评论

Gemini网页端降智实测：算力挤兑致体验差异

用户实测对比Gemini 3.0 Pro在网页端、Google AI Studio和Gemini Ultra DeepThink的表现，处理多模态年度总结任务。结果显示DeepThink最优，AI Studio次之，网页端最差且存在脱离pr...

Toy2025-12-30前沿阅读(42)去评论

Gemini被一道数学题难倒：17顶点染色挑战失败

在Linux.do论坛上，用户分享了一道能难住主流AI模型的数学题。题目源自中国数学竞赛（CMO），要求找到最小正整数n，使得在正n边形顶点任意染红、黄、蓝三色时，必然存在四个同色点形成等腰梯形。答案为17，但多模态模型Gemini 3 f...

Toy2025-12-29前沿阅读(48)去评论

开源AI桌面助手PolarisDesk：跨平台多模态Agent新尝试

开源项目PolarisDesk是一款AI驱动的跨平台桌面助手，旨在成为更懂用户电脑状态的智能工具。它支持多模型适配（如Claude）、文档理解、屏幕信息读取等功能，基于Electron架构构建。项目提供多种实用场景，如自动生成命令、分析错误...

Toy2025-12-28前沿阅读(41)去评论

开源Android应用AutoGLM，无需电脑直接运行AI任务

AutoGLM For Android是一款基于Open-AutoGLM开源项目的二次开发应用，革命性地将复杂的AI任务直接引入Android设备，无需电脑或ADB连接。通过Shizuku授权，用户可在手机上无缝控制各种任务，包括自定义系统...

Toy2025-12-27前沿阅读(40)去评论

GLM-4.7实测：性能与用量分析

用户在Linux.do社区分享GLM-4.7的深度使用体验，通过多项式因式分解和立体几何等实际测试，验证了模型的多模态能力，均成功解答。然而，用户指出性能降智问题，如重复写入时识别错误、自定义指令执行异常，以及实际用量不足导致被欺骗感。作者...

Toy2025-12-26前沿阅读(43)去评论

2026年AI领域26项前瞻预测：从大模型到智能体

本文作者对2026年AI发展提出了26项前瞻性预测，涵盖中国AI崛起、多模态技术统一、智能体突破、研究进展、产品创新和基础设施建设等多个维度。预测包括中国开源模型在国际榜单登顶、纯扩散模型被多模态替代、AI短片获主流认可、智能体计算取得突破...

Toy2025-12-26前沿阅读(49)去评论

开源项目：让Gemini AI接管你的手机 - Open-AutoGemini解析

Open-AutoGemini是一个开源项目，基于Open-AutoGLM框架开发，专门适配谷歌Gemini AI模型，使其能够接管并控制手机操作。该项目利用Gemini 3 Flash强大的多模态能力和高速响应特性，通过原生工具调用实现高...

Toy2025-12-26前沿阅读(39)去评论

AI绘图平台上线：支持多模态输入与开源管理

这款AI驱动的一站式绘图平台正式上线，用户可免费体验。平台支持三个绘图引擎，响应速度达秒级，并优化了Mermaid等图表样式。提供项目管理系统，所有数据本地存储，保障隐私。支持多模态输入，包括文档可视化、图片复刻和链接解析。版本管理功能完善...

Toy2025-12-25前沿阅读(39)去评论

上海发布全国首个规划资源大模型‘云宇星空’

近日，全国规划资源领域首个基础大模型‘云宇星空大模型（专业版）’在上海正式发布。该模型由上海市规划资源局与商汤大装置联合研发，基于海量高质量‘文本-图像-空间’多模态行业语料，实现了城市空间治理领域全链路认知与决策能力的突破性构建。技术底座...

Toy2025-12-25前沿阅读(37)去评论

大模型选型全解析：型号、架构、量化与上下文

本文系统拆解大模型选型的核心技术参数，涵盖模型系列、架构类型、参数规模、后训练方式、量化精度和上下文长度。作者基于两年AI应用开发经验，详细解析了如Qwen3、VL、MoE等专业概念，并提供了量化精度选择策略和显存估算方法。文章强调理解这些...

Toy2025-12-24前沿阅读(33)去评论

Trae个人版突破限制：自定义API与大模型接入指南

本文详细介绍了一款名为MTGA的开源工具，帮助个人开发者突破Trae企业版限制，实现自定义API与大模型接入。通过四个简单步骤，用户可轻松配置代理服务，支持GPT-4o、Claude 3.5等先进模型，甚至启用多模态能力。教程提供了详细的参...

Toy2025-12-23前沿阅读(55)去评论

AI RAG教程升级：多模态年报检索项目意见征集

作者为完善RAG（检索增强生成）教程，计划新增多模态年报检索或文档规范审查项目实战，现公开征集技术建议和改进意见。教程基于GitHub开源项目（https://github.com/datawhalechina/all-in-rag），社区...

Toy2025-12-23前沿阅读(41)去评论

Gemini Nexus v3.1 发布：支持AI绘图去水印与整页聊天功能

Gemini Nexus v3.1作为Chrome浏览器插件，成功免密钥调用Google Gemini人工智能，带来多项创新功能。更新包括生图自动去水印、图片编辑、思考过程显示、多模态文件上传、截图翻译、整页聊天以及支持发送图片等。用户只需...

Toy2025-12-22前沿阅读(39)去评论

Chrome插件Gemini Nexus v3.1上线：AI绘图去水印、整页聊天、截图翻译

Gemini Nexus v3.1是一款强大的Chrome浏览器扩展，集成Google Gemini AI，提供多种实用功能。新版本支持生图自动去水印、图片编辑、思考过程显示、多模态文件上传、截图翻译、大香蕉绘图、整页聊天，并支持发送图片。...

Toy2025-12-21前沿阅读(42)去评论

上一页
1
2
3
下一页
共 3 页

前沿哨所

告别大一统：科技行业正迎来碎片化复兴

文章回顾了科技行业从90年代的百花齐放到过去二十年的高度整合历程。随着智能手机功能的无限扩张，设备个性逐渐消失，市场形成了少数巨头垄断的局面。然而，这一趋势正在逆转。VR/AR成熟、3D打印普及以及AI工具降低开发门槛，让科技市场重回多元化。消费者厌倦了算法推荐和捆绑服务，开始追捧具有特定功能的单一设备、复古硬件及个性化设计。这标志着科技不再是巨头的游戏，创新活力回归，一个强调个性化和多样性的新时代正在开启。

原文链接：Hacker News

2小时前
深度解析AI代理模式：设计瓶颈与大规模编程实践

本文深入探讨了“Gas Town”项目中AI代理的具体应用模式与实战经验。文章分析了在大规模部署AI代理时所面临的设计瓶颈，重点讨论了状态管理、错误处理等核心挑战。此外，作者还阐述了“氛围编程”这一新兴概念，揭示了AI辅助工具如何重塑开发流程，并探讨了在AI时代重构软件开发工作流的未来趋势。

原文链接：Hacker News

2小时前
AI量化工具QuantDinger开源：支持全市场交易与AI策略生成

历时半年开发的AI量化平台QuantDinger正式宣布开源，采用Apache 2.0协议，允许商用。该平台支持美股、A股、港股、加密货币及期货等多市场交易，被视为TradingView的有力平替。其核心功能包括AI编写交易策略、指标运行及K线分析，并支持多用户版本和本地Docker一键部署。该项目旨在为量化研究者提供本地优先、隐私保护的交易环境，目前正招募项目维护者共建社区。

原文链接：Linux.do

2小时前
开源工具突破限制：Antigravity Agent实现全自动运行

开发者发布了针对Antigravity AI Agent的全自动运行开源工具。为解决Agent运行中频繁弹出的确认对话框导致任务中断的问题，该工具利用Chrome远程调试协议进行自动点击，并结合DLL注入技术自动配置调试参数。该方案有效跳过了繁琐的手动配置，实现了Agent的无人值守运行，显著提升了开发与测试效率。

原文链接：Linux.do

2小时前
突破极限：利用瞬态场神经渲染，可视化光传播的飞行视角

多伦多大学与斯坦福大学团队在ECCV 2024发表研究“Flying with Photons”，通过超高速成像系统捕捉皮秒级光传播数据。他们提出基于“瞬态场”的神经渲染框架，能合成光在场景中传播的新视角视频，精确计算光速延迟，逼真还原散射、折射等光学现象。该技术为研究光传输物理及视觉特效提供了全新工具。

原文链接：Hacker News

3小时前
反代工具故障意外泄露Claude Opus 4.5，算力瓶颈制约高端AI

近日，Antigravity Tools反代工具频繁出现HTTP 429错误，日志显示服务器资源耗尽。然而，错误信息中意外包含了模型名称“claude-opus-4-5-thinking”，这暗示Anthropic的下一代大模型可能已进入测试或短暂上线阶段。这一现象不仅证实了新模型的存在，也深刻暴露了当前高端AI模型在面对需求时面临的严峻算力短缺问题。

原文链接：Linux.do

3小时前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始