 

共 15 篇文章

标签：ocr

智谱 AI (Z.ai) 新模型 GLM-OCR 现身 GitHub，多模态能力或再升级

近日，Z.ai（智谱 AI）团队在 GitHub 平台悄然上线了名为 GLM-OCR 的新模型仓库。作为 GLM 系列的延伸，该模型专注于光学字符识别（OCR）与文档理解技术，旨在解决复杂视觉场景下的文字提取与解析难题。这一动作不仅丰富了智...

Toy2026-01-22前沿阅读(17)去评论

开源 OCR 工具 OCRBase：高效将 PDF 转换为结构化数据 API

OCRBase 是一款开源的文档处理工具，旨在将 PDF 大规模转换为结构化数据。它基于先进的 PaddleOCR-VL-0.9B 模型，提供高精度的文本识别与提取能力。该平台支持用户自定义 Schema 并直接输出 JSON 格式，同时配...

Toy2026-01-20前沿阅读(15)去评论

基于Rust+Tauri 2.0，开源屏幕识别工具Glimpse发布

针对Web渗透测试中二维码识别的分辨率与缩放痛点，开发者推出了基于Rust与Tauri 2.0的轻量级桌面屏幕识别工具Glimpse。该工具支持二维码扫描和OCR文字识别，体积轻便，不仅解决了老旧软件的兼容性问题，也展示了AI辅助编程在实际...

Toy2026-01-12前沿阅读(32)去评论

效率神器：AutoVerify 插件实现 OCR 自动填充验证码

这篇文章推荐了一款名为 AutoVerify 的 Chrome 插件，该插件利用 OCR 技术，能够自动识别并填充网站上的图片验证码。作者实测体验极佳，认为它能显著节省日常工作中频繁处理验证码的时间。不过，该插件目前仅支持普通的 OCR 识...

Toy2026-01-12前沿阅读(39)去评论

开源OCR神器：一键捕获文本并用大模型优化

开源项目“ohmytext”提供一键OCR功能，智能捕获鼠标下的图片文本区域，自动拼接文本，并利用大模型清理输出，提升文本提取准确性。核心基于PaddleOCR文本检测模块，适用于图片识别场景。该工具极大简化了文本提取流程，告别手动框选的繁...

Toy2026-01-08前沿阅读(48)去评论

开源大香蕉项目：GPU加速图片转PPT，速度飞跃

开源项目‘大香蕉’推出图片转PPT工具的重大更新，新增GPU加速功能后，转换速度实现质的飞跃。该工具基于OCR技术，文本识别精准度媲美CanvasAI，支持将图片直接转换为可编辑PPT。开发者提供了详细的安装指南，包括显卡驱动版本要求和依赖...

Toy2026-01-06前沿阅读(32)去评论

AI工具一键转换图片为Excel，解放双手

开发者因老板要求整理发票表格，现有OCR工具效果不佳，于是利用AI技术开发了图片转Excel工具。该工具支持批量上传图片，通过AI OCR自动识别表格结构，生成可编辑的Excel文件，适用于发票、清单等场景。相比手动输入，工具能大幅提高效率...

Toy2025-12-29前沿阅读(33)去评论

Large Model Practical Guide: From Confusion to Successfully Optimizing OCR Tasks

A tech enthusiast solves PDF OCR issues using AI models like Claude and Codex with minimal cost.

Toy2025-12-21前沿阅读(62)去评论

Chrome Extension Gemini Nexus v3.0: Free Access to Gemini 3 Pro with OCR and Text Selection Enhancements

Chrome Extension Gemini Nexus v3.0 offers free access to Google's Gemini 3 Pro with OCR, text enhancements, and more.

Toy2025-12-21前沿阅读(63)去评论

Doubao AI in Action: Advantages in OCR, Speech Recognition, and Code Generation

Hands-on review of Doubao AI's strengths in OCR, speech recognition, and code generation versus other AI tools.

Toy2025-12-20前沿阅读(54)去评论

豆包AI实战体验：在OCR、语音识别与代码生成中的优势

作者分享了使用豆包AI的实战经验，指出其在OCR识别速度与准确度、语音转文字质量以及代码生成方面的显著优势。通过实际案例对比，豆包在处理中文和英文文本、尤其是手写识别方面表现优异。在修改刷机脚本的具体应用中，豆包成功生成了可用代码，而Cha...

Toy2025-12-20前沿阅读(52)去评论

Mistral OCR 3: A Dual Breakthrough in Document Processing Accuracy and Efficiency

Mistral AI launches Mistral OCR 3, achieving major breakthroughs in document processing accuracy and efficiency with 74% win rate improvement.

Toy2025-12-20前沿阅读(51)去评论

Open Source Chrome Extension Gemini Nexus v2.0.0: Free Access to Gemini 3 with OCR Translation & Web Summarization

Free Chrome extension with Gemini 3 AI: OCR, translation, and web summarization. Open source with keyboard shortcuts.

Toy2025-12-20前沿阅读(59)去评论

Mistral OCR 3 Released: Pricing as Low as $1 per 1000 Pages

Mistral AI launches Mistral OCR 3 with pricing as low as $1 per 1000 pages, outperforming competitors in OCR technology.

Toy2025-12-19前沿阅读(74)去评论

豆包手机OCR提速：端侧+云端协同优化

豆包手机的OCR技术可能主要在端侧进行。在一个做题流程中，系统首先将整张截图上传至云端，云端仅返回文字区域和按钮位置的信息。随后，题目的OCR处理在本地设备上完成，而云端只接收按钮位置变动的更新。这种云端与本地结合的处理方式，显著提升了响应...

Toy2025-12-10前沿阅读(72)去评论

前沿哨所

OpenAI爬虫1小时抓取新站，谷歌搜索效率遭质疑

一位网友的测试显示，新建域名仅上线一小时，OpenAI的爬虫便迅速抵达并抓取内容，反观传统搜索巨头谷歌的爬虫却迟迟未至。这一现象生动揭示了AI巨头对实时数据的渴求，OpenAI的高效策略正在挑战传统搜索引擎的权威，预示着以AI为代表的新一代信息检索模式正在重塑行业格局，谷歌的统治地位正受到前所未有的冲击。

原文链接：Linux.do

25分钟前
DeepSeek获技术社区热议：商用翻译领域的性价比之王

近日，DeepSeek在技术社区Linux.do上引发热烈讨论。多名开发者和企业用户反馈，在寻找商用翻译模型时，DeepSeek展现出了极具竞争力的“性能-价格比”。用户指出，目前在市场上，模型能力优于DeepSeek的产品价格往往昂贵，而价格更低廉的模型则难以匹敌DeepSeek的翻译质量与智能程度。这一现象显示出DeepSeek在保持高性能的同时，极大地降低了AI商业应用的成本门槛，正成为众多企业在商用翻译场景下的首选模型。

原文链接：Linux.do

25分钟前
开源项目AionUi受关注，一站式整合多款AI编程CLI工具

开源项目AionUi近期获得科技博主推荐，该工具是一个免费、本地且开源的协同界面，成功整合了Gemini CLI、Claude Code及Qwen Code等多款主流AI命令行编程助手。通过将复杂的CLI操作转化为图形化交互，AionUi有效降低了开发者使用AI编程工具的门槛，为本地化AI辅助开发提供了高效的聚合解决方案。

原文链接：Linux.do

25分钟前
修复OpenCode调用中断：CPA反代配置修正方案

本文提供了解决OpenCode在使用CPA反代时工具调用中断的配置修正方案。核心问题在于未正确指定提供商的npm包，需在配置文件中将Claude映射至`@ai-sdk/anthropic`，Gemini映射至`@ai-sdk/google`。此外，文章还建议明确定义`modalities`以解决图片与PDF文件的读取问题，确保多模态功能正常运行。

原文链接：Linux.do

2小时前
AI时代如何系统化构建个人“数字档案”？

随着AI技术的快速演进，建立高保真的个人数字档案变得愈发重要。文章探讨了系统化记录个人数据的可行性与挑战：物理层面虽可利用Apple Watch等穿戴设备实现长期日志记录，但思维、情绪等主观体验的记录仍是难点，未来可能依赖Neuralink等脑机接口技术。此外，隐私安全与生活方式的权衡也是关键。尽管数据采集的成本与颗粒度存在矛盾，但构建完整的个人数据集，对未来AI个性化应用与自我回顾具有潜在巨大价值。

原文链接：V2EX 分享发现

3小时前
开发者利用 Gemini 打造 Windows 剪贴板历史管理工具 MyClip

一款名为 MyClip 的 Windows 剪贴板历史工具近日发布，支持内容固定、类型显示、全局搜索及主题切换等功能，使用体验流畅。作者在开发过程中得益于 AI 模型 Gemini 的辅助，目前该项目已在 GitHub 开源。这一案例直观展示了 AI 编程助手如何帮助个人开发者高效构建实用工具，降低开发门槛。

原文链接：V2EX 分享发现

3小时前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始