在人工智能时代,数据检索作为核心环节,一直是提升智能体性能的关键。传统检索器虽被广泛应用于RAG流程,但在处理复杂、指令密集型的企业级问答任务时,仍显力不从心。近日,Databricks推出的Instructed Retriever架构,为这一难题提供了新解法,Databricks宣称在特定任务中性能较传统RAG算法提升高达70%。

Databricks研究总监Michael Bendersky指出,传统RAG系统常将用户查询视为独立文本匹配任务,难以有效利用企业文档中丰富的元数据,如时间戳、作者信息等。例如,面对“显示过去六个月五星产品评论,排除X品牌”的指令,RAG传统系统难以准确执行。而Instructed Retriever通过重新设计检索流程,将系统规范贯穿始终,包括用户指令、带标签示例和索引模式,实现了查询分解、元数据推理和上下文相关性三大功能。
Databricks解释:“关键在于我们如何构建查询,尝试像智能体一样使用工具,而非人类。它拥有API复杂功能,能最大限度利用。”该架构使系统能理解并执行复杂的多方面指令,如将“最新FooBrand产品(不包括Lite型号)”分解为结构化查询。同时,通过元数据推理,将自然语言指令转化为数据库过滤器,提升检索准确性。此外,上下文相关性功能确保符合用户意图的文档排名靠前,即使关键词匹配度较低。
随着企业从简单文档搜索转向智能体工作流程,Instructed Retriever的重要性日益凸显。Databricks认为,情境记忆与复杂检索服务于不同目的,但两者对于企业级AI系统都至关重要。Instructed Retriever现已作为Databricks Agent Bricks一部分提供,内置于Knowledge Assistant产品中,尤其适用于金融、电子商务和医疗保健等领域。









