跳到主要内容
更好的探索性搜索;更好的主题搜索
召唤的相关性排名算法使用两种类型的相关因子:动态等级和静态等级。动态秩因子描述给定查询与每个记录匹配的匹配程度如何。静态等级因素基于每个记录的特征代表重要性。我们所观察到的常见相关问题涉及动态等级的影响太强的情况,使得具有低静态等级的记录在顶部搜索结果中出现。另一种常见类型的相关问题涉及短冠军的偏见。
例如,考虑短暂的主题查询,例如语言学或全球变暖。许多顶级结果召唤返回将有短标题(这不包括字幕),其中许多都会有与给定查询完全匹配的标题。较长的标题的物品通常是对用户的重视(例如,较新的出版物,更高引文计数,更重要的内容类型等)的重视。

今年我们对召唤算法进行了一些重大改进,旨在提高研究人员在各种情况下的经验,包括探索性搜索,搜索特定主题,并搜索已知项目。现在,由于这些变化,我们相信研究人员将能够找到最佳信息,更快,更容易。

更好的探索性搜索;更好的主题搜索
召唤的相关性排名算法使用两种类型的相关因子:动态等级和静态等级。动态秩因子描述给定查询与每个记录匹配的匹配程度如何。静态等级因素基于每个记录的特征代表重要性。我们所观察到的常见相关问题涉及动态等级的影响太强的情况,使得具有低静态等级的记录在顶部搜索结果中出现。另一种常见类型的相关问题涉及短冠军的偏见。
例如,考虑短暂的主题查询,例如语言学或全球变暖。许多顶级结果召唤返回将有短标题(这不包括字幕),其中许多都会有与给定查询完全匹配的标题。较长的标题的物品通常是对用户的重视(例如,较新的出版物,更高引文计数,更重要的内容类型等)的重视。

新算法
新算法具有来自当前算法的两个主要变化。

  • 更加强调静态排名 -新算法使用比当前算法更加强调静态秩因子。这修复了此前提到的许多问题。但是,重要的是找到动态等级的正确平衡和静态等级,因为对静态等级的太多强调会导致新的问题。我们已经尝试了各种权重,以找到我们相信最能做的平衡。
  • 现场长度归一化和精确标题匹配的影响较少 -利用新算法,字段长度归一化和精确标题(和精确标题+字幕)的影响较少。这些变化有助于将偏差减少到短标题,并允许具有高静态等级的更长的标题,以显示顶部结果。

此外,我们根据我们的相关分析和实验,我们对上述两个主要变更进行了多种调整,并补充了这些更改。These tweaks include, but are not limited to, adjusting the influence of term frequency, better influence of phrase matching, adjusting the weight of various content types (e.g., Book, eBook, Journal), modifying the impact of recency, and adjusting the influence of citation counts.

最终用户的意思是什么?
通过这些改进,我们希望用户看到:
  • 在最佳结果中出现低静态等级的记录问题较少,例如:
    • 旧出版物(特别是期刊文章和报纸文章)
    • 不太重要的内容类型,例如非学术杂志文章,书评等。
  • 如果您与查询相关,则在最佳结果中包含长标题的更多记录
  • 在书籍上面出现的书籍评论的问题较少
  • 在最新版本之前出现的一本书的旧版较少的问题
Overall, with the new algorithm, short and general topical queries (e.g., linguistics, global warming) will tend to return more books, eBooks and journals among the top results, while long and specific topical queries (e.g., linguistics universal grammar, global warming Kyoto protocol) will tend to return more journal articles among the top results.
我们的最终目标是提高我们相关性排名算法的整体质量。然而,鉴于相关性排名算法的复杂性,修复现有相关问题可能会导致其他地方的新相关问题。为确保新算法是一个改进,我们将其提交给召唤咨询委员会和其他一些外部测试人员进行反馈。总的来说,测试人员报告说,新算法与当前算法不好,而不是更好,大多数评级为“更好”或“更好”。随着一个测试仪所说的:“结果”对用户更好地说话,并为他们提供更多帮助,以便如何通过结果扩展搜索。“
已知物品搜索
我们还发布了一个针对已知项目搜索的改进 - 一种搜索类型,其中用户知道有关项目的标题,作者和/或其他信息,并搜索项目。尽管这种概念的变化,但已知的项目搜索被认为是“图书馆和信息科学领域中最广泛部署的概念之一”(Lee,et。al。2007)。图书馆员似乎普遍共识,即已知物品搜索是网络级发现系统的弱点。
虽然标题+作者查询,引文查询和其他已知项目搜索从召唤的高级搜索界面工作,但大多数休闲用户可能无法使用这些方法,只需使用基本搜索框。因此,通过基本搜索,尤其是标题+作者和标题+小标题+作者查询,已知项目搜索查询,非常常见。
人们可以在召唤的自动完成建议和查询建议中看到此类查询,这是基于询问的查询日志。例如,如果召唤搜索框中的常识中的用户类型,则用户将看到常见的感觉托马斯·潘恩作为自动完成建议。然而,通过召唤的旧相关算法,此查询常识托马斯·潘恩可能不会在顶级结果中返回书籍记录。
当用户不使用高级搜索界面或特殊查询语法时,我们已知的项目搜索改进改进了已知项目查询的相关性。改进应该特别适用于标题+作者查询和标题+字幕+作者搜索书籍,电子书和日记文章。其他字段组合,例如标题,字幕,作者,发布标题(用于书籍文章)或版本(用于书籍和电子书),也有利于这些改进。最终结果是最终用户应该能够比以前更容易地找到那些已知的项目。
相关性改进前进
虽然我们相信最近的相关算法的变化显示出明显的改进,但相关性是一个持续的,具有挑战性的问题。我们不断研究新用例或相关挑战。正如我们解决当前问题,新形式的内容,元数据实践的变化,从用户的不断变化的标准和不断变化的期望和行为可确保将始终有新用例来解决。
参考
李,金哈,艾伦称性和琳达C.史密斯。“已知项目搜索:概念的变化”。在第69届ASIS&T年度会议第43页的议程中,可用http://eprints.rclis.org/8748/1/Lee_known-Item.pdf.
2015年9月30日

相关文章

客户继续使用相同的Proquest支持团队

Proquest已完成收购EX Libris集团,并形成了一个新的业务部门:EX Libris,Proquest公司。这个新的业务部门将管理现有的发现,知识库和管理解决方案,包括:Alma,Aleph,BX,...

学到更多

从2015年日历年份柜台使用报告中获得最大数量

很快就足够了,是我们的数据检索服务(DRS)上传您的年终使用报告并使您在Intotra评估平台上运行的统一报告中提供的数据。查看我们推荐的操作项...

学到更多

召唤相关性

今年,我们对召唤算法进行了一些重大改进,旨在提高研究人员在各种情况下的经验,包括探索性搜索,寻找特定主题,并寻找知名的......

学到更多

搜索更新

类别

档案

跟随