AI训练数据污染问题:寻找50页纯净素材的探索
当前AI模型训练面临数据污染的挑战,一位开发者正在寻找未被大型语言模型学习过的50页PDF素材,用于对比测试半开源项目pageindex与text-embedding-3-small的性能。pageindex项目通过LLM创建索引以提高召回...
当前AI模型训练面临数据污染的挑战,一位开发者正在寻找未被大型语言模型学习过的50页PDF素材,用于对比测试半开源项目pageindex与text-embedding-3-small的性能。pageindex项目通过LLM创建索引以提高召回...