Hadoop

Awesome Hadoop Awesome

精选的Hadoop和Hadoop生态系统资源列表. 灵感来自 Awesome PHP, Awesome PythonAwesome Sysadmin

Hadoop

  • Apache Hadoop - Apache Hadoop
  • Apache Hadoop Ozone - Apache Hadoop的对象存储
  • Apache Tez - Hadoop中基于YARN的数据处理应用程序框架
  • SpatialHadoop - SpatialHadoop是Apache Hadoop的MapReduce扩展,专门用于处理空间数据.
  • GIS Tools for Hadoop - Hadoop框架的大数据空间分析
  • Elasticsearch Hadoop - Elasticsearch实时搜索和分析本地与Hadoop集成. 支持Map / Reduce,Cascading,Apache Hive和Apache Pig.
  • hadoopy - 用Cython编写的Python MapReduce库.
  • mrjob - mrjob是一个Python 2.5+包,可以帮助您编写和运行Hadoop Streaming作业.
  • pydoop - Pydoop是一个为Hadoop提供Python API的软件包.
  • hdfs-du - HDFS-DU是Hadoop分布式文件系统的交互式可视化.
  • White Elephant - Hadoop日志聚合器和仪表板
  • Genie - Genie提供REST-ful API来运行Hadoop,Hive和Pig作业,以及管理多个Hadoop资源并在它们之间执行作业提交.
  • Apache Kylin - Apache Kylin是来自eBay Inc.的开源分布式分析引擎,它在Hadoop上提供SQL接口和多维分析(OLAP),支持极大的数据集
  • Crunch - 基于Go的工具包,用于ETL和Hadoop上的特征提取
  • Apache Ignite - 分布式内存平台

YARN

  • Apache Slider - Apache Slider是Apache Software Foundation的一个孵化项目,其目标是使现有应用程序可以轻松部署到YARN集群中.
  • Apache Twill - Apache Twill是ApacheHadoop®YARN的抽象,它降低了开发分布式应用程序的复杂性,使开发人员能够更专注于他们的应用程序逻辑.
  • mpich2-yarn - 在纱线上运行MPICH2

NoSQL

下一代数据库主要解决一些问题:非关系型,分布式,开源和水平可扩展.

  • Apache HBase - Apache HBase
  • Apache Phoenix - 支持二级索引的HBase上的SQL皮肤
  • happybase - 与Apache HBase交互的开发人员友好的Python库.
  • Hannibal - Hannibal是帮助监视和维护配置为手动拆分的HBase-Clusters的工具.
  • Haeinsa - Haeinsa是HBase的可线性扩展的多行,多表事务库
  • hindex - HBase的二级索引
  • Apache Accumulo - Apache Accumulo™分类,分布式键/值存储是一个强大,可扩展,高性能的数据存储和检索系统.
  • OpenTSDB - 可扩展时间序列数据库
  • Apache Cassandra

SQL on Hadoop

  • Hadoop上的SQL *

  • Apache Hive - Apache Hive数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集

  • Apache Phoenix HBase上的SQL皮肤支持二级索引
  • Apache HAWQ (incubating) - Apache HAWQ是一个Hadoop本机SQL查询引擎,它结合了MPP数据库的关键技术优势和Hadoop的可扩展性和便利性
  • Lingual - 用于级联的SQL接口(MR / Tez作业生成器)
  • Apache Impala - Apache Impala是一个开源大规模并行处理(MPP)SQL查询引擎,用于存储在运行Apache Hadoop的计算机集群中的数据. Impala被描述为Google F1的开源版本,它激发了它在2012年的发展.
  • Presto - 用于大数据的分布式SQL查询引擎. 由Facebook开源.
  • Apache Tajo - Apache Hadoop的数据仓库系统
  • Apache Drill - 无架构的SQL查询引擎
  • Apache Trafodion

Data Management

  • Apache Calcite - 动态数据管理框架
  • Apache Atlas - 元数据标记和谱系捕获,支持复杂的业务数据分类
  • Apache Kudu - Kudu提供快速插入/更新和高效柱状扫描的组合,可在单个存储层上实现多个实时分析工作负载,从而补充HDFS和Apache HBase.
  • Confluent Schema registry for Kafka - Schema Registry为您的元数据提供服务层. 它提供了一个RESTful接口,用于存储和检索Avro架构.
  • Hortonworks Schema Registry - Schema Registry is a framework to build metadata repositories.

Workflow, Lifecycle and Governance

Data Ingestion and Integration

DSL

  • Apache Pig - 阿帕奇猪
  • Apache DataFu - 用于在Hadoop中处理大规模数据的库集合
  • vahara - 使用Apache Pig进行机器学习和自然语言处理
  • packetpig - 开源大数据安全分析
  • akela - Mozilla的Hadoop,HBase,Pig等实用程序库.
  • seqpig - Hadoop中针对大型测序数据集(例如,生物信息)的简单且可扩展的脚本
  • Lipstick - Pig工作流可视化工具. Introducing Lipstick on A(pache) Pig
  • PigPen - PigPen是Clojure的map-reduce,或者是分布式Clojure. 它编译为Apache Pig,但你不需要了解Pig使用它.

Libraries and Tools

Realtime Data Processing

  • Apache Storm
  • Apache Samza
  • Apache Spark
  • Apache Flink - Apache Flink是一个高效,分布式,通用数据处理平台. 它只支持一次流处理.
  • Apache Pulsar (incubating) - Apache Pulsar(孵化)是一种在商用硬件上运行的高度可扩展,低延迟的消息传递平台. 它提供了关于主题的简单pub-sub语义,保证至少一次传递消息,为订阅者提供自动游标管理以及跨数据中心复制.
  • Apache Druid (incubating) - 高性能,面向列的分布式数据存储.

Distributed Computing and Programming

  • Apache Spark
  • Spark Packages - Apache Spark的社区包索引
  • SparkHub - Apache Spark的社区站点
  • Apache Crunch
  • Cascading - Cascading是用于在Hadoop上构建数据应用程序的成熟应用程序开发平台.
  • Apache Flink - Apache Flink是一个高效,分布式,通用数据处理平台.
  • Apache Apex (incubating) - 企业级统一流和批处理引擎.
  • Apache Livy (incubating) - Apache Livy(孵化)是一种Web服务,它公开了一个REST接口,用于管理集群中长时间运行的Apache Spark上下文. 使用Livy,可以在Apache Spark之上构建新的应用程序,这需要与许多Spark上下文进行细粒度的交互.

Packaging, Provisioning and Monitoring

Search Engine Framework

  • Apache Nutch - Apache Nutch是一个高度可扩展和可扩展的开源Web爬虫软件项目.

Security

  • Apache Ranger - Ranger是一个框架,用于在Hadoop平台上启用,监控和管理全面的数据安全性.
  • Apache Sentry - Hadoop的授权模块
  • Apache Knox Gateway - 用于与Hadoop集群交互的REST API网关.
  • Project Rhino - 英特尔的开源工作,旨在增强Hadoop生态系统的现有数据保护功能,以解决安全性和合规性挑战,并将代码贡献给Apache.

Benchmark

  • Big Data Benchmark
  • HiBench
  • Big-Bench
  • YCSB - 雅虎! Cloud Serving Benchmark(YCSB)是一个开源规范和程序套件,用于评估计算机程序的检索和维护功能. 它通常用于比较NoSQL数据库管理系统的相对性能.

Machine learning and Big Data analytics

  • Apache Mahout
  • Oryx 2 - Spark,Kafka上的Lambda架构,用于实时大规模机器学习
  • MLlib - MLlib是Apache Spark的可扩展机器学习库.
  • R - R是用于统计计算和图形的免费软件环境.
  • RHadoop 包括RHDFS,RHBase,RMR2,plyrmr
  • Apache Lens
  • Apache SINGA (incubating) - SINGA是一个通用的分布式深度学习平台,用于在大型数据集上训练大型深度学习模型
  • BigDL - BigDL是Apache Spark的分布式深度学习库; 使用BigDL,用户可以将他们的深度学习应用程序编写为标准的Spark程序,它可以直接在现有的Spark或Hadoop集群上运行.
  • Apache Hivemall (incubating) - Apache Hivemall是一个可扩展的机器学习库,可在Apache Hive,Spark和Pig上运行.

Misc.

Resources

各种资源,如书籍,网站和文章.

Websites

有用的网站和文章

Presentations

Books

Hadoop and Big Data Events

Other Awesome Lists

其他惊人的令人敬畏的名单可以在 awesome-awesomenessawesome 名单.