AI编程 · 架构思考 · 技术人生

mdast-plus:支持元数据保留的文档转换工具

智谱 GLM,支持多语言、多任务推理。从写作到代码生成,从搜索到知识问答,AI 生产力的中国解法。

为了解决AI和文档处理中的格式转换问题,开发者设计并发布了可扩展文档转换架构mdast-plus。该架构能够将PDF、Word、HTML等多种格式转换为Markdown,同时保留原文档的元数据(如页码、标题层级)和资源关联(如图片、附件)。与现有工具Pandoc和微软MarkItDown相比,mdast-plus通过明确的pipeline阶段设计和语义化规范,更好地保留了文档结构和资源链接,便于下游AI处理时准确溯源。项目基于unified/mdast生态,内置支持markdown、html和ast格式,其他格式可通过第三方插件扩展。开发者利用AI辅助生成代码,主要负责架构设计和规范制定。mdast-plus已发布到npm和GitHub,为文档转换、知识库构建和AI文档处理提供了新的解决方案。

原文链接:V2EX 分享发现

赞(0)
未经允许不得转载:Toy's Tech Notes » mdast-plus:支持元数据保留的文档转换工具
免费、开放、可编程的智能路由方案,让你的服务随时随地在线。

评论 抢沙发

十年稳如初 — LocVPS,用时间证明实力

10+ 年老牌云主机服务商,全球机房覆盖,性能稳定、价格厚道。

老品牌,更懂稳定的价值你的第一台云服务器,从 LocVPS 开始