Hadoop

Awesome Hadoop ¶

精选的令人惊叹的 Hadoop 和 Hadoop 生态系统资源列表. 灵感来自 Awesome PHP, Awesome Python 和 Awesome Sysadmin

Hadoop¶

Apache Hadoop - 阿帕奇哈多普
Apache Hadoop Ozone - Apache Hadoop 的对象存储
Apache Tez - Hadoop 中基于 YARN 的数据处理应用程序框架
SpatialHadoop - SpatialHadoop 是 Apache Hadoop 的 MapReduce 扩展，专门设计用于处理空间数据.
GIS Tools for Hadoop - Hadoop 框架的大数据空间分析
Elasticsearch Hadoop - Elasticsearch 实时搜索和分析与 Hadoop 原生集成. 支持 Map/Reduce、Cascading、Apache Hive 和 Apache Pig.
hadoopy - 用 Cython 编写的 Python MapReduce 库.
mrjob - mrjob 是一个 Python 2.5+ 包，可帮助您编写和运行 Hadoop Streaming 作业.
pydoop - Pydoop 是一个为 Hadoop 提供 Python API 的包.
hdfs-du - HDFS-DU 是 Hadoop 分布式文件系统的交互式可视化.
White Elephant - Hadoop 日志聚合器和仪表板
Genie - Genie 提供 REST-ful API 来运行 Hadoop、Hive 和 Pig 作业，管理多个 Hadoop 资源并在它们之间执行作业提交.
Apache Kylin - Apache Kylin 是来自 eBay Inc. 的开源分布式分析引擎，在 Hadoop 上提供 SQL 接口和多维分析 (OLAP)，支持超大数据集
Crunch - 基于 Go 的工具包，用于 Hadoop 上的 ETL 和特征提取
Apache Ignite - 分布式内存平台

YARN¶

Apache Slider - Apache Slider 是 Apache 软件基金会的一个孵化项目，其目标是使将现有应用程序部署到 YARN 集群成为可能和容易.
Apache Twill - Apache Twill 是对 Apache Hadoop® YARN 的抽象，它降低了开发分布式应用程序的复杂性，使开发人员能够更专注于他们的应用程序逻辑.
mpich2-yarn - 在 Yarn 上运行 MPICH2

NoSQL¶

下一代数据库主要解决一些问题：非关系、分布式、开源和水平可扩展.

Apache HBase - 阿帕奇 HBase
Apache Phoenix - 支持二级索引的 HBase 上的 SQL 皮肤
happybase - 一个开发人员友好的 Python 库，用于与 Apache HBase 交互.
Hannibal - Hannibal 是帮助监控和维护配置为手动拆分的 HBase 集群的工具.
Haeinsa - Haeinsa 是用于 HBase 的可线性扩展的多行、多表事务库
hindex - HBase 二级索引
Apache Accumulo - Apache Accumulo™ 排序的分布式键/值存储是一个健壮的、可扩展的、高性能的数据存储和检索系统.
OpenTSDB - 可扩展的时间序列数据库
Apache Cassandra

SQL on Hadoop¶

Hadoop 上的 SQL

Apache Hive - Apache Hive 数据仓库软件有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集
Apache Phoenix 支持二级索引的 HBase 上的 SQL 皮肤
Apache HAWQ (incubating) - Apache HAWQ 是一个 Hadoop 原生 SQL 查询引擎，结合了 MPP 数据库的关键技术优势和 Hadoop 的可扩展性和便利性
Lingual - 用于级联的 SQL 接口（MR/Tez 作业生成器）
Apache Impala - Apache Impala 是一种开源大规模并行处理 (MPP) SQL 查询引擎，用于存储在运行 Apache Hadoop 的计算机集群中的数据. Impala 被描述为 Google F1 的开源等价物，它在 2012 年激发了它的发展.
Presto - 用于大数据的分布式 SQL 查询引擎. 由 Facebook 开源.
Apache Tajo - Apache Hadoop 的数据仓库系统
Apache Drill - 无架构 SQL 查询引擎
Apache Trafodion

Data Management¶

Apache Calcite - 动态数据管理框架
Apache Atlas - 元数据标记和沿袭捕获支持复杂的业务数据分类
Apache Kudu - Kudu 提供快速插入/更新和高效柱状扫描的组合，以在单个存储层上启用多个实时分析工作负载，补充 HDFS 和 Apache HBase.
Confluent Schema registry for Kafka - Schema Registry 为您的元数据提供服务层. 它提供了一个用于存储和检索 Avro 模式的 RESTful 接口.
Hortonworks Schema Registry - Schema Registry 是构建元数据存储库的框架.

Workflow, Lifecycle and Governance¶

Apache Oozie - 阿帕奇奥齐
Azkaban
Apache Falcon - 数据管理和处理平台
Apache NiFi - 数据流系统
Apache AirFlow - Airflow 是一个工作流自动化和调度系统，可用于创作和管理数据管道
Luigi - 帮助您构建批处理作业的复杂管道的 Python 包

Data Ingestion and Integration¶

Apache Flume - 阿帕奇水槽
Suro - Netflix 的分布式数据管道
Apache Sqoop - 阿帕奇Sqoop
Apache Kafka - 阿帕奇卡夫卡
Gobblin from LinkedIn - Hadoop 的通用数据摄取框架

DSL¶

Apache Pig - 阿帕奇猪
Apache DataFu - 用于在 Hadoop 中处理大规模数据的库集合
vahara - 使用 Apache Pig 进行机器学习和自然语言处理
packetpig - 开源大数据安全分析
akela - Mozilla 的 Hadoop、HBase、Pig 等实用程序库.
seqpig - 用于 Hadoop 中大型测序数据集（例如：生物信息）的简单且可扩展的脚本
Lipstick - Pig 工作流可视化工具. Introducing Lipstick on A(pache) Pig
PigPen - PigPen 是 Clojure 的 map-reduce，或分布式 Clojure. 它编译为 Apache Pig，但您无需了解 Pig 就可以使用它.

Libraries and Tools¶

Kite Software Development Kit - 一组库、工具、示例和文档
gohadoop - Apache Hadoop YARN 的本地客户端.
Hue - 用于使用 Apache Hadoop 分析数据的 Web 界面.
Apache Zeppelin - 基于网络的笔记本，支持交互式数据分析
Apache Thrift
Apache Avro - Apache Avro 是一个数据序列化系统.
Elephant Bird - Twitter 收集的 LZO 和 Protocol Buffer 相关的 Hadoop、Pig、Hive 和 HBase 代码.
Spring for Apache Hadoop
hdfs - A native go client for HDFS
snakebite - 纯 Python HDFS 客户端
Apache Parquet - Apache Parquet 是一种列式存储格式，适用于 Hadoop 生态系统中的任何项目，无论数据处理框架、数据模型或编程语言的选择如何.
Apache Superset (incubating) - Apache Superset（孵化）是一个现代的、企业就绪的商业智能网络应用程序
Schema Registry UI - 用于 Confluent Schema Registry 的 Web 工具，用于创建/查看/搜索/发展/查看历史记录和配置 Kafka 集群的 Avro 模式.

Realtime Data Processing¶

Apache Storm
Apache Samza
Apache Spark
Apache Flink - Apache Flink 是一个用于高效、分布式、通用数据处理的平台. 它支持exactly once流处理.
Apache Pulsar (incubating) - Apache Pulsar（孵化）是一个高度可扩展、低延迟的消息传递平台，运行在商用硬件上. 它提供关于主题的简单的发布-订阅语义、保证至少一次的消息传递、订阅者的自动游标管理以及跨数据中心复制.
Apache Druid (incubating) - 高性能、面向列的分布式数据存储.

Distributed Computing and Programming¶

Apache Spark
Spark Packages - Apache Spark 包的社区索引
SparkHub - Apache Spark 社区站点
Apache Crunch
Cascading - Cascading 是经过验证的应用程序开发平台，用于在 Hadoop 上构建数据应用程序.
Apache Flink - Apache Flink 是一个用于高效、分布式、通用数据处理的平台.
Apache Apex (incubating) - 企业级统一流批处理引擎.
Apache Livy (incubating) - Apache Livy（孵化）是一种 Web 服务，它公开了一个 REST 接口，用于管理集群中长时间运行的 Apache Spark 上下文. 借助 Livy，可以在 Apache Spark 之上构建需要与许多 Spark 上下文进行细粒度交互的新应用程序.

Packaging, Provisioning and Monitoring¶

Apache Bigtop - Apache Bigtop：Apache Hadoop 生态系统的打包和测试
Apache Ambari - 阿帕奇安巴里
Ganglia Monitoring System
ankush - 一个大数据集群管理工具，可以创建和管理不同技术的集群.
Apache Zookeeper - 阿帕奇动物园管理员
Apache Curator - ZooKeeper 客户端包装器和丰富的 ZooKeeper 框架
inviso - Inviso 是一种轻量级工具，提供搜索 Hadoop 作业、可视化性能和查看集群利用率的能力.
Logit.io - 将日志从 Hadoop 发送到 Elasticsearch 以进行监控和警报.

Search¶

ElasticSearch
Apache Solr - Apache Solr 是一个开源搜索平台，建立在名为 Lucene 的 Java 库之上.
Banana - Apache Solr 的 Kibana 端口

Search Engine Framework¶

Apache Nutch - Apache Nutch 是一个高度可扩展和可伸缩的开源网络爬虫软件项目.

Security¶

Apache Ranger - Ranger 是一个框架，用于在 Hadoop 平台上启用、监控和管理全面的数据安全性.
Apache Sentry - Hadoop 的授权模块
Apache Knox Gateway - 用于与 Hadoop 集群交互的 REST API 网关.

Benchmark¶

Big Data Benchmark
HiBench
YCSB - 雅虎！ Cloud Serving Benchmark (YCSB) 是一种开源规范和程序套件，用于评估计算机程序的检索和维护能力. 它通常用于比较 NoSQL 数据库管理系统的相对性能.

Machine learning and Big Data analytics¶

Apache Mahout
Oryx 2 - 用于实时大规模机器学习的 Spark、Kafka 上的 Lambda 架构
MLlib - MLlib 是 Apache Spark 的可扩展机器学习库.
R - R 是一个用于统计计算和图形的免费软件环境.
RHadoop 包括 RHDFS、RHBase、RMR2、plyrmr
Apache Lens
Apache SINGA (incubating) - SINGA 是一个通用的分布式深度学习平台，用于在大型数据集上训练大型深度学习模型
BigDL - BigDL 是 Apache Spark 的分布式深度学习库；使用 BigDL，用户可以将他们的深度学习应用程序编写为标准的 Spark 程序，这些程序可以直接在现有的 Spark 或 Hadoop 集群上运行.
Apache Hivemall (incubating) - Apache Hivemall 是一个可扩展的机器学习库，运行在 Apache Hive、Spark 和 Pig 上.

Misc.¶

Hadoop

Awesome Hadoop ¶

Hadoop¶

YARN¶

NoSQL¶

SQL on Hadoop¶

Data Management¶

Workflow, Lifecycle and Governance¶

Data Ingestion and Integration¶

DSL¶

Libraries and Tools¶

Realtime Data Processing¶

Distributed Computing and Programming¶

Packaging, Provisioning and Monitoring¶

Search¶

Search Engine Framework¶

Security¶

Benchmark¶

Machine learning and Big Data analytics¶

Misc.¶

Resources¶

Websites¶

Presentations¶

Books¶

Hadoop and Big Data Events¶

Other Awesome Lists¶