云聚 AI Token Plan 满 199 减 35 元
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

Toy的文章

Claude Code 合租,4 人车 400 一个月,KYC 封号都不用你管

Claude Code 合租,4 人车 400 一个月,KYC 封号都不用你管

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。

在大型代码库里用好 Claude Code-Toy's Tech Notes

在大型代码库里用好 Claude Code

Anthropic 五月十四号发了一篇长文,叫《How Claude Code works in large codebases》,是他们《Claude Code at scale》系列的第一篇。这是官方第一次系统化地把”大型代...

赞(0)ToyToyAI 阅读()
Positional Encoding 怎么解决词序问题-Toy's Tech Notes

Positional Encoding 怎么解决词序问题

Transformer 刚出来时,很多人把注意力都放在 self-attention 上。那当然没错,因为它确实重新定义了模型怎么看上下文。但如果只盯着 attention,你会漏掉另一个同样关键的问题:模型怎么知道词序? 这是我看完这期视频后最强烈的感受。Transformer 的突破,不只是让每个词都能看见别的词,

赞(0)ToyToy架构 阅读()
Self-Attention 为什么成了 Transformer 的核心机制-Toy's Tech Notes

Self-Attention 为什么成了 Transformer 的核心机制

软件模型有过一个很长的阶段:它们能读句子,却不太会“理解句子”。问题不在词表,也不完全在参数规模,而在于早期模型看待语言的方式太像流水线——前一个词处理完,才能轮到后一个词。这样一来,句子一长,前面的信息就会慢慢变模糊。 这就是我看完这期视频后最想记住的一点:Transformer 真正改变局面的地方,不是简单把模型做

赞(0)ToyToy架构 阅读()
Multi-Head Attention:一句话有歧义怎么办?多看几遍-Toy's Tech Notes

Multi-Head Attention:一句话有歧义怎么办?多看几遍

自然语言天生有歧义。 "The detective followed the spy with binoculars." 这句话有两个完全合理的理解:侦探拿着望远镜跟踪间谍,或者间谍带着望远镜刚好被侦探跟上了。人脑能瞬间意识到两种可能,但早期的 AI 模型做不到——它只会 picks up 其中一种,另一种直接丢掉。

赞(0)ToyToy架构 阅读()

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐