Skip to content

Hadoop

Awesome Hadoop Awesome

精选的令人惊叹的 Hadoop 和 Hadoop 生态系统资源列表. 灵感来自 Awesome PHP, Awesome PythonAwesome Sysadmin

Hadoop

  • Apache Hadoop - 阿帕奇哈多普
  • Apache Hadoop Ozone - Apache Hadoop 的对象存储
  • Apache Tez - Hadoop 中基于 YARN 的数据处理应用程序框架
  • SpatialHadoop - SpatialHadoop 是 Apache Hadoop 的 MapReduce 扩展,专门设计用于处理空间数据.
  • GIS Tools for Hadoop - Hadoop 框架的大数据空间分析
  • Elasticsearch Hadoop - Elasticsearch 实时搜索和分析与 Hadoop 原生集成. 支持 Map/Reduce、Cascading、Apache Hive 和 Apache Pig.
  • hadoopy - 用 Cython 编写的 Python MapReduce 库.
  • mrjob - mrjob 是一个 Python 2.5+ 包,可帮助您编写和运行 Hadoop Streaming 作业.
  • pydoop - Pydoop 是一个为 Hadoop 提供 Python API 的包.
  • hdfs-du - HDFS-DU 是 Hadoop 分布式文件系统的交互式可视化.
  • White Elephant - Hadoop 日志聚合器和仪表板
  • Genie - Genie 提供 REST-ful API 来运行 Hadoop、Hive 和 Pig 作业,管理多个 Hadoop 资源并在它们之间执行作业提交.
  • Apache Kylin - Apache Kylin 是来自 eBay Inc. 的开源分布式分析引擎,在 Hadoop 上提供 SQL 接口和多维分析 (OLAP),支持超大数据集
  • Crunch - 基于 Go 的工具包,用于 Hadoop 上的 ETL 和特征提取
  • Apache Ignite - 分布式内存平台

YARN

  • Apache Slider - Apache Slider 是 Apache 软件基金会的一个孵化项目,其目标是使将现有应用程序部署到 YARN 集群成为可能和容易.
  • Apache Twill - Apache Twill 是对 Apache Hadoop® YARN 的抽象,它降低了开发分布式应用程序的复杂性,使开发人员能够更专注于他们的应用程序逻辑.
  • mpich2-yarn - 在 Yarn 上运行 MPICH2

NoSQL

下一代数据库主要解决一些问题:非关系、分布式、开源和水平可扩展.

  • Apache HBase - 阿帕奇 HBase
  • Apache Phoenix - 支持二级索引的 HBase 上的 SQL 皮肤
  • happybase - 一个开发人员友好的 Python 库,用于与 Apache HBase 交互.
  • Hannibal - Hannibal 是帮助监控和维护配置为手动拆分的 HBase 集群的工具.
  • Haeinsa - Haeinsa 是用于 HBase 的可线性扩展的多行、多表事务库
  • hindex - HBase 二级索引
  • Apache Accumulo - Apache Accumulo™ 排序的分布式键/值存储是一个健壮的、可扩展的、高性能的数据存储和检索系统.
  • OpenTSDB - 可扩展的时间序列数据库
  • Apache Cassandra

SQL on Hadoop

Hadoop 上的 SQL

  • Apache Hive - Apache Hive 数据仓库软件有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集
  • Apache Phoenix 支持二级索引的 HBase 上的 SQL 皮肤
  • Apache HAWQ (incubating) - Apache HAWQ 是一个 Hadoop 原生 SQL 查询引擎,结合了 MPP 数据库的关键技术优势和 Hadoop 的可扩展性和便利性
  • Lingual - 用于级联的 SQL 接口(MR/Tez 作业生成器)
  • Apache Impala - Apache Impala 是一种开源大规模并行处理 (MPP) SQL 查询引擎,用于存储在运行 Apache Hadoop 的计算机集群中的数据. Impala 被描述为 Google F1 的开源等价物,它在 2012 年激发了它的发展.
  • Presto - 用于大数据的分布式 SQL 查询引擎. 由 Facebook 开源.
  • Apache Tajo - Apache Hadoop 的数据仓库系统
  • Apache Drill - 无架构 SQL 查询引擎
  • Apache Trafodion

Data Management

  • Apache Calcite - 动态数据管理框架
  • Apache Atlas - 元数据标记和沿袭捕获支持复杂的业务数据分类
  • Apache Kudu - Kudu 提供快速插入/更新和高效柱状扫描的组合,以在单个存储层上启用多个实时分析工作负载,补充 HDFS 和 Apache HBase.
  • Confluent Schema registry for Kafka - Schema Registry 为您的元数据提供服务层. 它提供了一个用于存储和检索 Avro 模式的 RESTful 接口.
  • Hortonworks Schema Registry - Schema Registry 是构建元数据存储库的框架.

Workflow, Lifecycle and Governance

Data Ingestion and Integration

DSL

  • Apache Pig - 阿帕奇猪
  • Apache DataFu - 用于在 Hadoop 中处理大规模数据的库集合
  • vahara - 使用 Apache Pig 进行机器学习和自然语言处理
  • packetpig - 开源大数据安全分析
  • akela - Mozilla 的 Hadoop、HBase、Pig 等实用程序库.
  • seqpig - 用于 Hadoop 中大型测序数据集(例如:生物信息)的简单且可扩展的脚本
  • Lipstick - Pig 工作流可视化工具. Introducing Lipstick on A(pache) Pig
  • PigPen - PigPen 是 Clojure 的 map-reduce,或分布式 Clojure. 它编译为 Apache Pig,但您无需了解 Pig 就可以使用它.

Libraries and Tools

Realtime Data Processing

  • Apache Storm
  • Apache Samza
  • Apache Spark
  • Apache Flink - Apache Flink 是一个用于高效、分布式、通用数据处理的平台. 它支持exactly once流处理.
  • Apache Pulsar (incubating) - Apache Pulsar(孵化)是一个高度可扩展、低延迟的消息传递平台,运行在商用硬件上. 它提供关于主题的简单的发布-订阅语义、保证至少一次的消息传递、订阅者的自动游标管理以及跨数据中心复制.
  • Apache Druid (incubating) - 高性能、面向列的分布式数据存储.

Distributed Computing and Programming

  • Apache Spark
  • Spark Packages - Apache Spark 包的社区索引
  • SparkHub - Apache Spark 社区站点
  • Apache Crunch
  • Cascading - Cascading 是经过验证的应用程序开发平台,用于在 Hadoop 上构建数据应用程序.
  • Apache Flink - Apache Flink 是一个用于高效、分布式、通用数据处理的平台.
  • Apache Apex (incubating) - 企业级统一流批处理引擎.
  • Apache Livy (incubating) - Apache Livy(孵化)是一种 Web 服务,它公开了一个 REST 接口,用于管理集群中长时间运行的 Apache Spark 上下文. 借助 Livy,可以在 Apache Spark 之上构建需要与许多 Spark 上下文进行细粒度交互的新应用程序.

Packaging, Provisioning and Monitoring

  • Apache Bigtop - Apache Bigtop:Apache Hadoop 生态系统的打包和测试
  • Apache Ambari - 阿帕奇安巴里
  • Ganglia Monitoring System
  • ankush - 一个大数据集群管理工具,可以创建和管理不同技术的集群.
  • Apache Zookeeper - 阿帕奇动物园管理员
  • Apache Curator - ZooKeeper 客户端包装器和丰富的 ZooKeeper 框架
  • inviso - Inviso 是一种轻量级工具,提供搜索 Hadoop 作业、可视化性能和查看集群利用率的能力.
  • Logit.io - 将日志从 Hadoop 发送到 Elasticsearch 以进行监控和警报.
  • ElasticSearch
  • Apache Solr - Apache Solr 是一个开源搜索平台,建立在名为 Lucene 的 Java 库之上.
  • Banana - Apache Solr 的 Kibana 端口

Search Engine Framework

  • Apache Nutch - Apache Nutch 是一个高度可扩展和可伸缩的开源网络爬虫软件项目.

Security

  • Apache Ranger - Ranger 是一个框架,用于在 Hadoop 平台上启用、监控和管理全面的数据安全性.
  • Apache Sentry - Hadoop 的授权模块
  • Apache Knox Gateway - 用于与 Hadoop 集群交互的 REST API 网关.

Benchmark

  • Big Data Benchmark
  • HiBench
  • YCSB - 雅虎! Cloud Serving Benchmark (YCSB) 是一种开源规范和程序套件,用于评估计算机程序的检索和维护能力. 它通常用于比较 NoSQL 数据库管理系统的相对性能.

Machine learning and Big Data analytics

  • Apache Mahout
  • Oryx 2 - 用于实时大规模机器学习的 Spark、Kafka 上的 Lambda 架构
  • MLlib - MLlib 是 Apache Spark 的可扩展机器学习库.
  • R - R 是一个用于统计计算和图形的免费软件环境.
  • RHadoop 包括 RHDFS、RHBase、RMR2、plyrmr
  • Apache Lens
  • Apache SINGA (incubating) - SINGA 是一个通用的分布式深度学习平台,用于在大型数据集上训练大型深度学习模型
  • BigDL - BigDL 是 Apache Spark 的分布式深度学习库; 使用 BigDL,用户可以将他们的深度学习应用程序编写为标准的 Spark 程序,这些程序可以直接在现有的 Spark 或 Hadoop 集群上运行.
  • Apache Hivemall (incubating) - Apache Hivemall 是一个可扩展的机器学习库,运行在 Apache Hive、Spark 和 Pig 上.

Misc.

*蜂巢插件 * UDF * https://github.com/edwardcapriolo/hive_cassandra_udfs * https://github.com/livingsocial/HiveSwarm * https://github.com/ThinkBigAnalytics/Hive-Extensions-from-Think-Big-Analytics * https://github.com/twitter/elephant-bird - 推特 * https://github.com/lovelysystems/ls-hive * https://github.com/klout/brickhouse * 存储处理程序 * https://github.com/dvasilen/Hive-Cassandra * https://github.com/yc-huang/Hive-mongo * https://github.com/balshor/gdata-storagehandler * https://github.com/chimpler/hive-solr * https://github.com/bfemiano/accumulo-hive-storage-manager * 库和工具 * https://github.com/forward3d/rbhive * https://github.com/synctree/activerecord-hive-adapter * https://github.com/hrp/sequel-hive-adapter * https://github.com/forward/node-hive * https://github.com/recruitcojp/WebHive * shib - 用于查询引擎的 WebUI:Hive 和 Presto * https://github.com/dmorel/Thrift-API-HiveClient2 (Perl - HiveServer2) * PyHive - Hive 和 Presto 的 Python 接口 * https://github.com/recruitcojp/OdbcHive * HiveRunner - 基于 JUnit4 的 hadoop hive 查询的开源单元测试框架 * Beetest - 一个超级简单的实用程序,用于在本地为非 Java 开发人员测试 Apache Hive 脚本. * Hive_test- hive 和 hive-service 的单元测试框架 * 水槽插件 * Flume MongoDB Sink * Flume RabbitMQ source and sink * Flume UDP Source * .Net FlumeNG Clients

Resources

各种资源,例如书籍、网站和文章.

Websites

有用的网站和文章

Presentations

Books

Hadoop and Big Data Events

Other Awesome Lists

其他非常棒的列表可以在 awesome-awesomenessawesome 列表.