跳转至

共享文献库检索

Labridge将在构建好的共享文献库中进行检索,以获得解决问题所需要的信息。

我们使用了多层级、混合式的检索方式来提高检索结果的准确性。具体的细节参见 源码文档 Fun_modules.paper.retrieve.shared_paper_retrieve

共享文献库检索

第一步检索:

在第一步检索中,我们在共享文献库中的内容向量数据库中搜索与问题向量最相似的vector_similarity_top_k个文本块,并获取它们所属的文献节点。 如果制定了特定的 user_id, 将仅在该用户的文献中进行检索。

第二步相关性分析:

在第一步检索出的相关文献的范围内,我们将使用 LLM 对这些文献的Abstract & Summary和问题文本的相关性进行打分, 获取相关性分数最高的 docs_top_k 份文献。

最后的相似性检索:

在第二步筛选出的文献范围内,我们在这些文献的文本中检索与问题向量最相似的 re_retrieve_top_k 个文本块。 由于本次检索是最终的细粒度的检索,因此本次检索过程中,提供给Embedding模型的文本只有文献文本块本身的文本,不包含任何额外的Metadata。

添加上下文与相关总结:

在最后,我们可以选择为检索出的文本块加上它们的上下文,以及它们所属文献的总结。将这些内容作为最终的检索结果提供给 LLM