深入浅出大模型基石:从 jieba 分词看文本表示的算法演进
本文源自 Datawhale 开源项目,系统梳理了自然语言处理(NLP)的底层逻辑——文本表示与分词技术。文章以经典的 jieba 库为例,深入浅出地讲解了基于词典构建有向无环图(DAG)及利用动态规划寻找最大概率路径的算法原理,并剖析了隐...
本文源自 Datawhale 开源项目,系统梳理了自然语言处理(NLP)的底层逻辑——文本表示与分词技术。文章以经典的 jieba 库为例,深入浅出地讲解了基于词典构建有向无环图(DAG)及利用动态规划寻找最大概率路径的算法原理,并剖析了隐...
随着磁介质的自然衰变和读取设备的消失,全球数十亿张软盘正面临数据永久丢失的风险,大量早期的科研与个人记录可能随之湮灭。剑桥大学图书馆档案员Leontien Talboom正在与时间赛跑,致力于抢救这一早期计算时代的“数字化石”。面对软盘格式...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
阿里巴巴通义千问团队推出了全新的Qwen3.5 Medium系列模型,包含35B及122B等版本。令人瞩目的是,这些开源模型在基准测试中表现超越了OpenAI GPT-5-mini和Anthropic Claude Sonnet 4.5。该...
青墨(QingMo)是一个致力于实现漫剧与短剧全流程自动化生产的 AI 开源平台,涵盖了从故事创意、剧本生成、分镜规划、角色/场景图绘制到多角色配音与视频合成的完整链路。该项目基于 Next.js 16、React 19 和 OpenRou...
针对近期社区热议的AI驱动的写小说工具“Author”,开发者提供了详细的本地Docker部署方案。由于原项目仓库暂未包含容器化部署文件,该教程填补了这一空白,提供了两种部署路径:一是直接拉取预构建的Docker镜像,适合快速体验;二是基于...
一位开发者在Hacker News上分享了其构建生产级最近邻(KNN)系统的经验。尽管README被指由AI生成,但作者强调了代码的原创性及严格的基准测试。文章指出,经典KNN在实际落地中面临维度灾难、延迟波动和内存占用等挑战。作者通过引入...
Linux.do 社区发布了一款优化后的轻量级“伪英汉词典”提示词。经多模型测试,该提示词在 Qwen3-coder-480b 模型(温度0)下表现最佳,能够精准输出音标、词性、释义及双语例句。该工具已支持接入 Cherry Studio ...
近期社区反馈显示,ChatGPT 在处理“美以伊战争”等敏感地缘政治话题时,疑似触发了预设的“安全提示词”。尽管模型有时能检索到相关事实,但在输出端仍被强制返回“没有权威来源证实”的否认声明,且在多轮对话中出现前后矛盾的现象。这一行为让人联...
近期,大量基于Claude和GPT Codex的第三方公益及付费API服务出现大规模故障。用户反馈称,Claude Code多数节点全军覆没,表现为报错或响应为空,且疑似被自动切换至国产智谱GLM模型导致性能大幅下降。同时,GPT Code...
本文是作者对自己人生最快乐时刻的回顾与反思。2020年,作者暂时放下了枯燥的科技工作,成为了一名少年篮球队教练,通过在现实世界中指导孩子、建立团队连接,他获得了前所未有的成就感和满足感。文章随后将这段经历与当下的AI热潮相结合,指出了一个令...
近日,OpenAI 的严苛风控策略再次引发开发者社区热议。据一位用户在技术社区反馈,其仅用于本地调用、未搭建反向代理的账号突遭停用,疑似与早期 Codex 注册行为或多账号登录有关。尽管这属于个案,但这一现象折射出 OpenAI 对违规行为...
针对LLM在创意写作领域的应用难点,该项目在GitHub上建立了一份高质量的精选资源列表,收录了2022年以来关于故事、小说及剧本生成的129项相关研究。与简单的链接堆砌不同,作者对链接进行了严格校验,并从技术维度细分出故事规划、多智能体协...
据《金融时报》报道,DeepSeek计划于下周发布代号为V4的新一代大语言模型。不同于以往的纯文本模型,V4将是一个支持图片、视频和文本生成的“多模态”模型,标志着其在多模态领域的重大突破。尤为引人注目的是,DeepSeek已与华为及寒武纪...
这款名为 Digest 的开源工具旨在解决技术社区的阅读效率问题。它能自动从 V2EX 和 Hacker News 抓取热门内容,并利用类似 HN 的“重力”时间衰减算法进行智能排序。其核心亮点在于集成了 Jina AI Reader 抓取...
Rivet 推出了 Actors,这是一种专为“有思维的软件”设计的无服务器原语。它旨在解决 AI Agent、租户或文档的状态管理难题。每个 Actor 都内置了内存状态、SQLite 持久化存储、工作流调度以及 WebSocket 实时...
本文提出了一种名为“验证规格驱动开发(VSDD)”的AI原生软件工程方法论。VSDD将规格驱动(SDD)、测试驱动(TDD)和验证驱动(VDD)融合为统一的AI编排流程。该方法论利用Claude等模型构建代码,同时引入由Gemini扮演的“...
本文详细记录了作者如何在 iPad 或手机上通过 SSH 远程连接 Mac,利用 Claude Code 等 AI Coding Agent 进行开发的完整方案。文章深入解决了移动端远程开发的三大痛点:利用 Python 脚本将 Agent...
针对传统 RAG 难以处理长周期状态变化和叙事脉络的痛点,作者开源了基于 LangGraph 的 Agentic RAG 项目 narrarc。该项目将聊天记录视为有状态的叙事节点,通过双层索引和多步推理机制,实现了对复杂时间跨度问题的精准...
针对OpenAI官方更新导致代码混淆从而使第三方脚本失效的问题,社区开发者迅速进行了修复。由于OpenAI官方迟迟未推出Codex应用的Windows版本,该开发者基于现有项目进行了重构,通过自动化脚本构建了Windows端的打包与补丁方案...
针对开发者在使用 Claude Code、Gemini-cli 等 AI 编码工具时面临的“权限确认”与“远程监管”痛点,一款名为 RemoteVibe 的 iOS 应用正式上架 App Store。该应用允许用户通过手机远程连接并监控本地...