信息检索

Awesome Information Retrieval Awesome

Join the chat at https://gitter.im/awesome-information-retrieval/Lobby

来自网络各处的信息检索和网络搜索资源的精选列表.

Introduction

Information Retrieval 涉及查找用户查询的相关信息,范围从简单的数据库搜索领域到网络搜索的复杂方面(例如Google,Bing,Yahoo). 目前,研究人员正在开发算法来解决 Information Need 用户,通过最大化 [User and Topic Relevance](https://en.wikipedia.org/wiki/Relevance_(information_retrieval)检索结果,同时最小化 Information Overload 和检索时间.

Contributing

请随时发送给我 pull requests 或[email](mailto:harshal.priyadarshi@utexas.edu)我添加新链接. 我对建议和更正非常开放. 请看看 contributions guide.

Books

Courses

Software

  • Apache Lucene - 可用于测试信息检索算法的开源搜索引擎. Twitter使用这个核心进行实时搜索.
  • The Lemur Project - Lemur项目开发搜索引擎,浏览器工具栏,文本分析工具和数据资源,支持信息检索和文本挖掘软件的研究和开发.
  • Indri Search Engine - Apache Lucene的另一个开源搜索引擎竞争对手.
  • Lemur Toolkit - 用于语言建模,过滤和分类研究的开源工具包.

Datasets

Standard IR Collections

  • DBPedia - 关联数据网.
  • Cranfield Collections - 这是IR域中的第一个集合之一,但是数据集对于任何统计显着性分析而言都太小,但仍适用于试运行.
  • TREC Collections - TREC是大多数IR和Web搜索算法使用的基准数据集. 它有几个轨道,每个轨道由数据集组成,用于测试特定任务. 跟踪以及建议的用例是:
  • Blog - 探索博客圈中寻求信息的行为.
  • Chemical IR - 解决建立化学IR大型化学试验台的挑战.
  • Clinical Decision Support - 调查将医疗案例与患者护理相关信息联系起来的技术.
  • Confusion - 学习 Known Item Searching 问题.
  • Contextual Suggestion - 调查复杂信息需求的搜索技术(基于上下文和用户兴趣).
  • Crowdsourcing - 探索用于执行和评估搜索的众包方法.
  • Enterprise - 研究组织数据的搜索.
  • Entity - 在Web数据上执行与实体相关的搜索(查找实体及其属性).
  • Filtering - 在稳定的信息需求下,二元决定检索新的传入文件.
  • Federated Web Search - 研究各种搜索服务结果的合并性能.
  • Genomics - 研究基因组学数据和相应文档的检索效率.
  • HARD - 通过利用搜索者的上下文从文档中获取高精度检索.
  • Interactive Track - 研究用户与文本检索系统的交互.
  • Knowledge base acceleration - 研究提高人类知识库效率的算法.
  • Legal Track - 对法律文件用例具有高召回率的研究检索系统.
  • Medical Track - 探索患者记录数据的非结构化搜索性能.
  • Microblog Track - 检查对微博网站的实时信息需求的满意度.
  • Million Query Track - 探索大量查询的临时检索.
  • Novelty Track - 调查系统查找新(非冗余)信息的能力.
  • Question Answering Track - 测试系统,扩展到文档检索之外,检索factoid,list和definition类型问题的答案.
  • Relevance Feedback Track - 用于深入评估相关反馈过程.
  • Robust Track - 研究个人主题的有效性.
  • Session Track - 开发用于测量信息需求漂移的多查询会话的方法.
  • SPAM Track - 基准垃圾邮件过滤方法.
  • Tasks Track - 测试系统是否可以引发可能的任务,用户可能正在尝试完成查询.
  • Temporal Summarization Track - 开发允许用户有效监控与事件相关的信息的系统.
  • Terabyte Track - 测试IR系统对大规模收集的可扩展性.
  • Web Track - 探索寻求一般网络搜索中常见行为的信息.
  • GOV2 Test Collection - 这是Charlie Clarke和Ian Soboroff利用NIST硬件和网络抓取政府网站获得的最大网络文件集之一,然后由Nick Craswel格式化.
  • NTCIR Test Collection - 这是从Ad-hoc集合,中国IR集合,移动点击集合到医疗馆藏的各种数据集的集合. 该系列的重点主要是东亚语言和跨语言信息检索.
  • CLIR Test Collections - 此数据集可用于CJKE(中日韩韩语)语言之间的跨语言IR. 它适用于以下任务:
    • 多语言CLIR
    • 双语CLIR
    • 单语CLIR
  • Cross Language Q&A (CLQA) dataset collection - 它支持以下双语和单语:
    • 双语
    • 日语到英语.
    • 中文到英文.
    • 英语到日语.
    • 英文到中文.
    • 单语
    • 中文到中文.
    • 日语到日语.
    • 英语到英语.
  • Advanced Cross Linugal Information Retrieval and Question Answering (ACLIA) - 数据集用于跨语言问答的任务,但任务的复杂性高于CLQA数据集.
  • Conference and Labs of the Evaluation Forum (CLEF) dataset - 它包含多语言文档集. 测试套件包括:
  • AdHoc - 新闻测试套件.
  • 领域特定测试套件 - 关于科学文章的集合.
  • 问题答疑测试套件.
  • Reuters Corpora - 现在可以通过NIST获得语料库. 语料库包括以下内容:
  • RCV1(路透社的语料库第1卷) - 仅包含英语新闻故事.
  • RCV2 (Reuter's Corpus Volume 2) - Consists of stories in 13 languages (Dutch, French, German, Chinese, Japanese, Russian, Portuguese, Spanish, Latin American Spanish, Italian, Danish, Norwegian, and Swedish). Note that the stories are not parallel.
  • TRC(汤森路透文本研究收藏) - 这是一个相当新近的语料库,包括1,800,370个新闻报道,涵盖2008-01-01 00:00:03至2009-02-28 23:54:14期间.
  • 20 Newsgroup dataset - 此数据集包含20000个新闻组消息.取自20个新闻组主题.
  • English Gigaword Fifth Edition - 此数据集是英文新闻专线文本数据的综合档案,包括标题,日期和文章.
  • Document Understanding Conference (DUC) datasets - 可根据要求提供过去的新闻专线/纸质数据集(DUC 2001 - DUC 2007).

Talks

Technical Talks

Philosophical Talks

Conferences

  • 网络搜索和数据挖掘会议 - WSDM.
  • 信息检索特别兴趣小组 - SIGIR.
  • 文本检索会议 - TREC.
  • 欧洲信息检索会议 - ECIR.
  • 万维网会议 - WWW.
  • 信息和知识管理会议 - CIKM.
  • 信息检索评估论坛 - FIRE.
  • 评估论坛的会议和实验室 - CLEF.
  • NII测试床和社区信息访问研究 - NTCIR.

Blogs

Interesting Reads

License

CC0

在法律允许的范围内, Harshal Priyadarshi 并且所有贡献者已放弃对此作品的所有版权及相关或相邻权利.