随着2025年初大量爬虫涌入网站收集LLM训练数据,网站管理员不得不加强反爬虫措施。这些爬虫多使用旧的浏览器用户代理,特别是Chrome版本,给网站服务器带来巨大压力。文章详细介绍了作者如何通过识别可疑浏览器版本来阻止这些爬虫,并特别指出archive.*等归档网站存在使用伪造用户代理和IP地址的问题。作者建议用户使用archive.org这一更规范的归档服务。文章揭示了AI训练数据收集对网站运营产生的实际影响,为技术社区提供了应对LLM训练数据爬虫的一线经验。
原文链接:Hacker News
最新评论
I don't think the title of your article matches the content lol. Just kidding, mainly because I had some doubts after reading the article.
这个AI状态研究很深入,数据量也很大,很有参考价值。
我偶尔阅读 这个旅游网站。激励人心查看路线。
文章内容很有深度,AI模型的发展趋势值得关注。
内容丰富,对未来趋势分析得挺到位的。
Thank you for your sharing. I am worried that I lack creative ideas. It is your article that makes me full of hope. Thank you. But, I have a question, can you help me?
光纤技术真厉害,文章解析得挺透彻的。
文章内容很实用,想了解更多相关技巧。