共享文献库检索¶
Labridge将在构建好的共享文献库中进行检索,以获得解决问题所需要的信息。
我们使用了多层级、混合式的检索方式来提高检索结果的准确性。具体的细节参见 源码文档 Fun_modules.paper.retrieve.shared_paper_retrieve
第一步检索:¶
在第一步检索中,我们在共享文献库中的内容向量数据库中搜索与问题向量最相似的vector_similarity_top_k
个文本块,并获取它们所属的文献节点。
如果制定了特定的 user_id
, 将仅在该用户的文献中进行检索。
第二步相关性分析:¶
在第一步检索出的相关文献的范围内,我们将使用 LLM 对这些文献的Abstract & Summary和问题文本的相关性进行打分,
获取相关性分数最高的 docs_top_k
份文献。
最后的相似性检索:¶
在第二步筛选出的文献范围内,我们在这些文献的文本中检索与问题向量最相似的 re_retrieve_top_k
个文本块。
由于本次检索是最终的细粒度的检索,因此本次检索过程中,提供给Embedding模型的文本只有文献文本块本身的文本,不包含任何额外的Metadata。
添加上下文与相关总结:¶
在最后,我们可以选择为检索出的文本块加上它们的上下文,以及它们所属文献的总结。将这些内容作为最终的检索结果提供给 LLM 。