 

AI爬虫请用API，别抓我的HTML！

2025-12-15 分类：前沿阅读(72) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

随着AI技术发展，大量爬虫过度抓取网站HTML内容，不仅效率低下还容易出错。本文作者以自身网站为例，详细介绍了如何通过多种API接口替代HTML抓取。作者网站提供WordPress JSON API、ActivityPub、oEmbed、纯文本等多种数据格式，并使用网站地图标准帮助爬虫发现所有页面。这种做法不仅减轻服务器负担，还能获取更结构化、一致的数据。文章呼吁AI开发者尊重网站设计，优先使用提供的API接口，而非简单粗暴地抓取HTML。对于关注网站开发、数据获取和AI应用的读者，本文提供了实用的技术指导和行业洞察，值得借鉴。

原文链接：Hacker News

赞(0)

未经允许不得转载：Toy's Tech Notes » AI爬虫请用API，别抓我的HTML！

分享到

AI爬虫数据获取网站API

评论抢沙发

前沿哨所

OpenCode新增Antigravity插件，支持IDE内直接生成AI图片

OpenCode近日更新了Antigravity认证插件，新增了AI绘图功能。用户现在只需在IDE中输入描述即可生成图片，默认为2K分辨率，指定“高清”可启用4K通道。插件提供少量免费额度供尝鲜，Pro用户享有更多权益。需注意，受限于Antigravity渠道，生成偶发失败但不消耗额度。

原文链接：Linux.do

1小时前
Trellis更新：全面支持Windows，优化AI开发工具兼容性

AI开发框架Trellis迎来重要更新，将原有的Bash脚本迁移至Python脚本，从而实现对Windows系统的全面支持。该工具是专为Claude Code和Cursor打造的一站式AI框架，此次更新极大地提升了跨平台兼容性，方便Windows用户安装和使用，开发者可通过NPM命令下载测试。

原文链接：Linux.do

1小时前
像写代码一样写简历：AI Agent 自动定制求职神器

针对求职者“改简历难、针对性差”的痛点，开发者开源了“Resume as Code”项目。该项目将职业生涯视为数据库，通过 YAML 维护单一数据源，并利用 GitHub Copilot 或 Trae 等 AI Agent 框架，自动化处理简历生成流程。它不仅能分析职位描述（JD）自动生成高度匹配的定制化简历，还能将流水账润色为专业职场语言，并生成针对性的面试“作弊小抄”。这一方案实现了简历的版本化管理，同时保障了本地隐私安全。

原文链接：V2EX 分享发现

2小时前
Cicada：一款无缝集成C语言的轻量级脚本语言

Cicada 是一款轻量级脚本语言，能够直接嵌入并运行在 C 代码内部，旨在弥补 C 语言在灵活性和扩展性上的不足。用户仅需引入头文件并进行简单的链接配置，即可通过 runCicada 函数轻松调用。该工具极大地简化了在底层 C 环境中集成脚本逻辑的流程，为系统级开发提供了高效的解决方案。

原文链接：Hacker News

2小时前
Obsidian插件Multi ASR发布：整合OpenAI与Gemini多模型语音识别

Obsidian社区推出了一款名为Multi ASR的强大插件，旨在为用户提供集成的语音识别服务。该插件不仅全面兼容OpenAI和Gemini的各类模型接口，还集成了智谱AI、阿里云、火山云等五大主流ASR服务商。用户支持自定义模型、提示词及参数，并能灵活处理本地文件或网络链接，将转录结果无缝输出至笔记中，极大提升了知识记录的效率。

原文链接：Linux.do

2小时前
破解Antigravity额度之谜：周限重置机制实测解析

经过多日实测，Anthropic Antigravity平台的Sonnet模型每5小时限制调用150次。数据显示，一周内累计调用约265次（不足3轮满额）即触发周限制。当周额度剩余低于40%时，界面显示逻辑会自动从“5小时额度”切换为“周额度剩余”，导致用户看到“n天后重置”的提示。此外，混用Opus模型将加速额度消耗。该测试揭示了平台复杂的额度管理机制，为开发者合理规划API调用提供了重要参考。

原文链接：Linux.do

2小时前