Skip to content

信息检索

Awesome Information Retrieval Awesome

Join the chat at https://gitter.im/awesome-information-retrieval/Lobby

来自整个网络的信息检索和网络搜索资源的精选列表.

Introduction

Information Retrieval 涉及为用户查询查找相关信息,范围从简单的数据库搜索领域到复杂的网络搜索(例如 - Google、Bing、Yahoo). 目前,研究人员正在开发算法来解决 Information Need 用户,通过最大化 User and Topic Relevance 的检索结果,同时最小化 Information Overload 和检索时间.

Contributing

请随时寄给我 pull requests 或 [电子邮件] (mailto:harshal.priyadarshi@utexas.edu) 我添加新链接. 我非常愿意接受建议和更正. 请看 contributions guide.

Books

Courses

Software

  • Apache Lucene - 可用于测试信息检索算法的开源搜索引擎. Twitter 使用这个核心进行实时搜索.
  • The Lemur Project - Lemur 项目开发搜索引擎、浏览器工具栏、文本分析工具和数据资源,以支持信息检索和文本挖掘软件的研究和开发.
  • Indri Search Engine - Apache Lucene 的另一个开源搜索引擎竞争对手.
  • Lemur Toolkit - 用于语言建模、过滤和分类研究的开源工具包.

Datasets

Standard IR Collections

  • DBPedia - 关联数据网.
  • Cranfield Collections - 这是 IR 领域的首批集合之一,但数据集对于任何统计显着性分析来说都太小,但仍然适合试点运行.
  • TREC Collections - TREC 是大多数 IR 和 Web 搜索算法使用的基准数据集. 它有多个轨道,每个轨道都包含用于测试特定任务的数据集. 轨道以及建议的用例是:
  • Blog - 探索博客圈中的信息搜索行为.
  • Chemical IR - 应对为化学 IR 构建大型化学试验台的挑战.
  • Clinical Decision Support - 研究将医疗案例与患者护理相关信息联系起来的技术.
  • Confusion - 学习 Known Item Searching 问题.
  • Contextual Suggestion - 研究复杂信息需求的搜索技术(基于上下文和用户兴趣).
  • Crowdsourcing - 探索执行和评估搜索的众包方法.
  • Enterprise - 研究搜索组织数据.
  • Entity - 对 Web 数据执行与实体相关的搜索(查找实体及其属性).
  • Filtering - 鉴于稳定的信息需求,二元决定检索新传入的文档.
  • Federated Web Search - 研究各种搜索服务结果的合并性能.
  • Genomics - 研究基因组数据和相应文档的检索效率.
  • HARD - 通过利用搜索者的上下文从文档中获得高精度检索.
  • Interactive Track - 研究用户与文本检索系统的交互.
  • Knowledge base acceleration - 研究提高人类知识库效率的算法.
  • Legal Track - 研究对法律文件用例具有高召回率的检索系统.
  • Medical Track - 探索对患者记录数据的非结构化搜索性能.
  • Microblog Track - 检查微博站点对实时信息需求的满意度.
  • Million Query Track - 探索对大量查询的临时检索.
  • Novelty Track - 调查系统定位新(非冗余)信息的能力.
  • Question Answering Track - 超出文档检索范围的测试系统,以检索事实、列表和定义类型问题的答案.
  • Relevance Feedback Track - 用于深入评估相关反馈过程.
  • Robust Track - 研究个别主题的有效性.
  • Session Track - 开发用于测量信息需要漂移的多查询会话的方法.
  • SPAM Track - 基准垃圾邮件过滤方法.
  • Tasks Track - 测试系统是否可以引发可能的任务,用户可能会尝试完成查询.
  • Temporal Summarization Track - 开发允许用户随着时间的推移有效监控与事件相关的信息的系统.
  • Terabyte Track - 测试 IR 系统对大规模收集的可扩展性.
  • Web Track - 探索一般网络搜索中常见的信息搜索行为.
  • GOV2 Test Collection - 这是最大的 Web 文档集合之一,由 Charlie Clarke 和 Ian Soboroff 使用 NIST 硬件和网络从政府网站抓取,然后由 Nick Craswel 格式化.
  • NTCIR Test Collection - 这是各种数据集的集合,从临时集合、中国 IR 集合、移动点击集合到医学集合. 该合集的重点主要是东亚语言和跨语言信息检索.
  • CLIR Test Collections - 该数据集可用于 CJKE(中日韩英)语言之间的跨语言 IR. 它适用于以下任务:
    • 多语言 CLIR
    • CLEAR 双语
    • 单一语言 CLIR
  • Cross Language Q&A (CLQA) dataset collection - 它支持以下双语和单语:
    • Bi-lingua
    • 日语到英语.
    • 中文到英文.
    • 英语到日语.
    • 英文到中文.
    • 单一语言
    • 中文到中文.
    • 日语到日语.
    • 英语到英语.
  • Advanced Cross Linugal Information Retrieval and Question Answering (ACLIA) - 该数据集用于跨语言问答任务,但该任务的复杂度高于 CLQA 数据集.
  • Conference and Labs of the Evaluation Forum (CLEF) dataset - 它包含多语言文档集. 测试套件包括:
  • AdHoc - 新闻测试套件.
  • 领域特定测试套件 - 关于科学文章的集合.
  • 问答测试套件.
  • Reuters Corpora - 语料库现在可通过 NIST 获得. 语料库包括以下内容:
  • RCV1(路透社语料库第 1 卷)- 仅包含英语新闻故事.
  • RCV2(路透社语料库第 2 卷)- 包含 13 种语言的故事(荷兰语、法语、德语、中文、日语、俄语、葡萄牙语、西班牙语、拉丁美洲西班牙语、意大利语、丹麦语、挪威语和瑞典语). 请注意,这些故事不是平行的.
  • TRC(汤森路透文本研究合集)- 这是一个相当新的语料库,包含 1,800,370 条新闻报道,涵盖从 2008-01-01 00:00:03 到 2009-02-28 23:54:14 的时间段.
  • 20 Newsgroup dataset - 该数据集包含 20000 条新闻组消息.来自 20 个新闻组主题的帖子.
  • English Gigaword Fifth Edition - 该数据集是英文新闻专线文本数据的综合档案,包括标题、日期线和文章.
  • Document Understanding Conference (DUC) datasets - 过去的新闻专线/论文数据集 (DUC 2001 - DUC 2007) 可应要求提供.

Talks

Technical Talks

Philosophical Talks

Conferences

  • 网络搜索与数据挖掘会议 - WSDM.
  • 信息检索特别兴趣小组 - SIGIR.
  • 文本检索会议 - TREC.
  • 欧洲信息检索会议 - ECIR.
  • 万维网大会 - WWW.
  • 信息和知识管理会议 - CIKM.
  • 信息检索评估论坛 - FIRE.
  • 评估论坛的会议和实验室 - CLEF.
  • NII 信息访问研究试验台和社区 - NTCIR.

Blogs

Interesting Reads

License

CC0

在法律允许的范围内, Harshal Priyadarshi 并且所有贡献者都放弃了该作品的所有版权和相关或邻接权.