信息检索

Awesome Information Retrieval ¶

来自整个网络的信息检索和网络搜索资源的精选列表.

Introduction¶

Information Retrieval 涉及为用户查询查找相关信息，范围从简单的数据库搜索领域到复杂的网络搜索（例如 - Google、Bing、Yahoo）. 目前，研究人员正在开发算法来解决 Information Need 用户，通过最大化 User and Topic Relevance 的检索结果，同时最小化 Information Overload 和检索时间.

Contributing¶

请随时寄给我 pull requests 或 [电子邮件] (mailto:harshal.priyadarshi@utexas.edu) 我添加新链接. 我非常愿意接受建议和更正. 请看 contributions guide.

Books¶

Introduction to Information Retrieval - CD Manning、P. Raghavan、H. Schütze. 剑桥大学出版社，2008 年.（信息检索入门的第一本书）.
Search Engines: Information Retrieval in Practice - Bruce Croft、Don Metzler 和 Trevor Strohman. 2009 年.（对于有兴趣了解搜索引擎如何工作的读者来说是一本好书.这本书非常详细）.
Modern Information Retrieval - R. Baeza-Yates，B. Ribeiro-Neto. 艾迪生卫斯理出版社，1999 年.
Information Retrieval in Practice - B. Croft、D. Metzler、T. Strohman. 培生教育，2009 年.
Mining the Web: Analysis of Hypertext and Semi Structured Data - S. Chakrabarti. 摩根考夫曼，2002 年.
Language Modeling for Information Retrieval - WB Croft, J. Lafferty. Springer，2003.（处理信息检索的语言建模方面.它还广泛详细介绍了该领域的概率观点，这很有趣）.
Information Retrieval: A Survey - Ed Greengrass，2000 年.（传统信息检索的综合调查，深度学习时代之前）.
Introduction to Modern Information Retrieval - GG 乔杜里. Neal-Schuman，2003 年.（面向图书馆和信息研究专业的学生）.
Text Information Retrieval Systems - CT Meadow、BR Boyce、DH Kraft、CL Barry. Academic Press，2007（图书馆/信息科学视角）.

Courses¶

INF384H / CS395T / INF350E: Concepts of Information Retrieval (and Web Search) - Matthew Lease（德克萨斯大学奥斯汀分校）.
CS 276 / LING 286: Information Retrieval and Web Search - Chris Manning 和 Pandu Nayak（斯坦福大学）.
CS 371R: Information Retrieval and Web Search - Raymond J. Mooney（德克萨斯大学奥斯汀分校）.
CS 172: Introduction to Information Retrieval - Vagelis Hristidis（加州大学河滨分校）.
SIMS 240: Principles of Information Retrieval - Ray R. Larson（加州大学伯克利分校）.
11-442 / 11-642: Search Engines - 杰米·卡兰 (CMU).
600.466: Information Retrieval and Web Agents - David Yarowsky（约翰霍普金斯大学）.
CS 435: Information Retrieval, Discovery, and Delivery - Andrea LaPaugh（普林斯顿大学）.
Information Retrieval and Data Mining - 博士. Jilles Vreeken，教授，博士. 博士格哈德·魏库姆 (MPI).
Coursera - Text Retrieval and Search Engines - ChengXiang Zhai 教授（伊利诺伊大学香槟分校）.

Software¶

Apache Lucene - 可用于测试信息检索算法的开源搜索引擎. Twitter 使用这个核心进行实时搜索.
The Lemur Project - Lemur 项目开发搜索引擎、浏览器工具栏、文本分析工具和数据资源，以支持信息检索和文本挖掘软件的研究和开发.
Indri Search Engine - Apache Lucene 的另一个开源搜索引擎竞争对手.
Lemur Toolkit - 用于语言建模、过滤和分类研究的开源工具包.

Datasets¶

Standard IR Collections¶

DBPedia - 关联数据网.
Cranfield Collections - 这是 IR 领域的首批集合之一，但数据集对于任何统计显着性分析来说都太小，但仍然适合试点运行.
TREC Collections - TREC 是大多数 IR 和 Web 搜索算法使用的基准数据集. 它有多个轨道，每个轨道都包含用于测试特定任务的数据集. 轨道以及建议的用例是：
Blog - 探索博客圈中的信息搜索行为.
Chemical IR - 应对为化学 IR 构建大型化学试验台的挑战.
Clinical Decision Support - 研究将医疗案例与患者护理相关信息联系起来的技术.
Confusion - 学习 Known Item Searching 问题.
Contextual Suggestion - 研究复杂信息需求的搜索技术（基于上下文和用户兴趣）.
Crowdsourcing - 探索执行和评估搜索的众包方法.
Enterprise - 研究搜索组织数据.
Entity - 对 Web 数据执行与实体相关的搜索（查找实体及其属性）.
Filtering - 鉴于稳定的信息需求，二元决定检索新传入的文档.
Federated Web Search - 研究各种搜索服务结果的合并性能.
Genomics - 研究基因组数据和相应文档的检索效率.
HARD - 通过利用搜索者的上下文从文档中获得高精度检索.
Interactive Track - 研究用户与文本检索系统的交互.
Knowledge base acceleration - 研究提高人类知识库效率的算法.
Legal Track - 研究对法律文件用例具有高召回率的检索系统.
Medical Track - 探索对患者记录数据的非结构化搜索性能.
Microblog Track - 检查微博站点对实时信息需求的满意度.
Million Query Track - 探索对大量查询的临时检索.
Novelty Track - 调查系统定位新（非冗余）信息的能力.
Question Answering Track - 超出文档检索范围的测试系统，以检索事实、列表和定义类型问题的答案.
Relevance Feedback Track - 用于深入评估相关反馈过程.
Robust Track - 研究个别主题的有效性.
Session Track - 开发用于测量信息需要漂移的多查询会话的方法.
SPAM Track - 基准垃圾邮件过滤方法.
Tasks Track - 测试系统是否可以引发可能的任务，用户可能会尝试完成查询.
Temporal Summarization Track - 开发允许用户随着时间的推移有效监控与事件相关的信息的系统.
Terabyte Track - 测试 IR 系统对大规模收集的可扩展性.
Web Track - 探索一般网络搜索中常见的信息搜索行为.
GOV2 Test Collection - 这是最大的 Web 文档集合之一，由 Charlie Clarke 和 Ian Soboroff 使用 NIST 硬件和网络从政府网站抓取，然后由 Nick Craswel 格式化.
NTCIR Test Collection - 这是各种数据集的集合，从临时集合、中国 IR 集合、移动点击集合到医学集合. 该合集的重点主要是东亚语言和跨语言信息检索.
CLIR Test Collections - 该数据集可用于 CJKE（中日韩英）语言之间的跨语言 IR. 它适用于以下任务：
- 多语言 CLIR
- CLEAR 双语
- 单一语言 CLIR
Cross Language Q&A (CLQA) dataset collection - 它支持以下双语和单语：
- Bi-lingua
- 日语到英语.
- 中文到英文.
- 英语到日语.
- 英文到中文.
- 单一语言
- 中文到中文.
- 日语到日语.
- 英语到英语.
Advanced Cross Linugal Information Retrieval and Question Answering (ACLIA) - 该数据集用于跨语言问答任务，但该任务的复杂度高于 CLQA 数据集.
Conference and Labs of the Evaluation Forum (CLEF) dataset - 它包含多语言文档集. 测试套件包括：
AdHoc - 新闻测试套件.
领域特定测试套件 - 关于科学文章的集合.
问答测试套件.
Reuters Corpora - 语料库现在可通过 NIST 获得. 语料库包括以下内容：
RCV1（路透社语料库第 1 卷）- 仅包含英语新闻故事.
RCV2（路透社语料库第 2 卷）- 包含 13 种语言的故事（荷兰语、法语、德语、中文、日语、俄语、葡萄牙语、西班牙语、拉丁美洲西班牙语、意大利语、丹麦语、挪威语和瑞典语）. 请注意，这些故事不是平行的.
TRC（汤森路透文本研究合集）- 这是一个相当新的语料库，包含 1,800,370 条新闻报道，涵盖从 2008-01-01 00:00:03 到 2009-02-28 23:54:14 的时间段.
20 Newsgroup dataset - 该数据集包含 20000 条新闻组消息.来自 20 个新闻组主题的帖子.
English Gigaword Fifth Edition - 该数据集是英文新闻专线文本数据的综合档案，包括标题、日期线和文章.
Document Understanding Conference (DUC) datasets - 过去的新闻专线/论文数据集 (DUC 2001 - DUC 2007) 可应要求提供.

External Curation Links¶

Talks¶

Technical Talks¶

Extreme Classification: A New Paradigm for Ranking & Recommendation - Manik Verma（微软研究院）
The next web - Tim Berners-Lee (Ted Talk) [Tim Berners-Lee 发明了万维网. 他领导万维网联盟 (W3C)，监督 Web 的标准和开发].
Is Pivot a turning point for web exploration? - Gary Flake，微软技术研究员（TED 演讲）.
Challenges in Building Large-Scale Information Retrieval Systems - Jeff Dean（WSDM 会议，2009 年）.
Knowledge-based Information Retrieval with Wikipedia - David Wilne（怀卡托大学，2008 年）.
Music Information Retrieval Using Locality Sensitive Hashing - Steve Tjoa（RackSpace 开发人员）[这个演讲表明 IR 不仅仅是文本和图像].
The Functional Web -- The Future of Apps and the Web - Liron Shapira（Box Tech Talk）.
Information Experience - Solution to Information Overload on Web - Doug Imbruce (Techcrunch Disrupt)[Doug Imbruce is the Founder of Qwiki, Inc, a technology startup in New York, NY, acquired by Yahoo! in 2013].
Internet Privacy - Alma Whitten 博士（谷歌布鲁塞尔技术讲座）.

Philosophical Talks¶

The moral bias behind your search results - Andreas Ekström（瑞典作家兼记者，TED 演讲）.
Beware online "filter bubbles" - Eli Pariser（过滤气泡的作者，TED 演讲）.
Think your email's private? Think again - Andy Yen（CERN，TED 演讲）[本次演讲讨论隐私、搜索引擎侵犯的隐私以及人们如何保护隐私].
Do we have the right to be forgotten? - Michael Douglas [TEDx SouthBank].
The case for anonymity online - Christopher "moot" Poole" (Ted Talks) [Christopher "moot" Poole 是 4chan 的创始人，4chan 是一个在线图像板，其匿名居民催生了网络上最令人困惑和最具影响力的亚文化].

Conferences¶

网络搜索与数据挖掘会议 - WSDM.
信息检索特别兴趣小组 - SIGIR.
文本检索会议 - TREC.
欧洲信息检索会议 - ECIR.
万维网大会 - WWW.
信息和知识管理会议 - CIKM.
信息检索评估论坛 - FIRE.
评估论坛的会议和实验室 - CLEF.
NII 信息访问研究试验台和社区 - NTCIR.

Blogs¶

Information Retrieval and the Web - 谷歌研究.
IR Thoughts - 博士埃德尔·加西亚

Interesting Reads¶

Deep Neural Network Learns to Judge Books by Their Covers - 信息提取.
Can Deep Learning help solve Deep Learning - 唇读信息检索.
To reduce biases in machine learning start with openly discussing the problem - 相关性偏差.
Whoa, Google’s AI Is Really Good at Pictionary - 基于草图的搜索.
Neural Network Learns to Identify Criminals by Their Faces - 信息提取.

License¶

在法律允许的范围内， Harshal Priyadarshi 并且所有贡献者都放弃了该作品的所有版权和相关或邻接权.