Skip to content

大数据

Awesome Big Data

Awesome

很棒的大数据框架、资源和其他很棒的精选列表. 灵感来自 awesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.

随时欢迎您的贡献!

RDBMS

  • MySQL 世界上最受欢迎的开源数据库.
  • PostgreSQL 世界上最先进的开源数据库.
  • Oracle Database - 对象关系数据库管理系统.
  • Teradata - 高性能MPP数据仓库平台.

Frameworks

  • Bistro - 用于批处理和流分析的通用数据处理引擎. 它基于一种新颖的数据模型,该模型通过函数表示数据并通过列操作处理数据,而不是像 MapReduce 或 SQL 等传统方法中仅设置操作.
  • IBM Streams - 分布式处理和实时分析平台. 与大数据生态系统中的许多流行技术(Kafka、HDFS、Spark 等)集成
  • Apache Hadoop - 分布式处理框架. 集成了 MapReduce(并行处理)、YARN(作业调度)和 HDFS(分布式文件系统).
  • Tigon - 高吞吐量实时流处理框架.
  • Pachyderm - Pachyderm 是一个基于 Docker 和 Kubernetes 构建的数据存储平台,可提供可重现的数据处理和分析.
  • Polyaxon - 可重现和可扩展的机器学习和深度学习平台.
  • Smooks - 用于构建 XML 和非 XML(CSV、EDI、Java 等)流应用程序的可扩展 Java 框架.

Distributed Programming

  • AddThis Hydra - 最初由 AddThis 开发的分布式数据处理和存储系统.
  • AMPLab SIMR - 在 Hadoop MapReduce v1 上运行 Spark.
  • Apache APEX - 用于大数据流和批处理的统一企业平台.
  • Apache Beam - 用于定义和执行数据处理工作流的统一模型和一组特定于语言的 SDK.
  • Apache Crunch - 一个简单的 Java API,用于连接和数据聚合等任务,这些任务在普通 MapReduce 上实现起来很乏味.
  • Apache DataFu - 由 LinkedIn 开发的 Hadoop 和 Pig 的用户定义函数集合.
  • Apache Flink - 高性能运行时,自动程序优化.
  • Apache Gearpump - 基于Akka的实时大数据流引擎.
  • Apache Gora - 内存数据模型和持久性框架.
  • Apache Hama - BSP(批量同步并行)计算框架.
  • Apache MapReduce - 用于在集群上使用并行分布式算法处理大型数据集的编程模型.
  • Apache Pig - 用于表达 Hadoop 数据分析程序的高级语言.
  • Apache REEF - 可保留的评估器执行框架,以简化和统一大数据系统的较低层.
  • Apache S4 - 流处理框架,S4 的实现.
  • Apache Spark - 内存集群计算框架.
  • Apache Spark Streaming - 流处理框架,Spark 的一部分.
  • Apache Storm - Twitter 也在 YARN 上进行流处理的框架.
  • Apache Samza - 基于 Kafka 和 YARN 的流处理框架.
  • Apache Tez - 用于执行基于 YARN 的复杂 DAG(有向无环图)任务的应用程序框架.
  • Apache Twill - 对 YARN 的抽象降低了开发分布式应用程序的复杂性.
  • Baidu Bigflow - 一个允许编写分布式计算程序的接口,提供许多简单、灵活、强大的 API 来轻松处理任何规模的数据.
  • Cascalog - 数据处理和查询库.
  • Cheetah - 基于 MapReduce 的高性能自定义数据仓库.
  • Concurrent Cascading - Hadoop 上的数据管理/分析框架.
  • Damballa Parkour - Clojure 的 MapReduce 库.
  • Datasalt Pangool - 替代 MapReduce 范例.
  • DataTorrent StrAM - 实时引擎旨在以尽可能无阻塞的方式启用分布式、异步、实时内存中大数据计算,同时将开销和对性能的影响降至最低.
  • Facebook Corona - 消除单点故障的 Hadoop 增强功能.
  • Facebook Peregrine - 地图减少框架.
  • Facebook Scuba - 分布式内存数据存储.
  • Google Dataflow - 创建数据管道以帮助他们摄取、转换和分析数据.
  • Google MapReduce - 地图减少框架.
  • Google MillWheel - 容错流处理框架.
  • IBM Streams - 分布式处理和实时分析平台. 提供开箱即用的高级分析工具包,如地理空间、时间序列等.
  • JAQL - 用于处理结构化、半结构化和非结构化数据的声明性编程语言.
  • Kite - 是一组库、工具、示例和文档,专注于使在 Hadoop 生态系统之上构建系统变得更加容易.
  • Metamarkets Druid - 大型数据集实时分析框架.
  • Netflix PigPen - 编译为 Apache Pig 的 Clojure 的 map-reduce.
  • Nokia Disco - 诺基亚开发的 MapReduce 框架.
  • Onyx - 云的分布式计算.
  • Pinterest Pinlater - 异步作业执行系统.
  • Pydoop - 用于 Hadoop 的 Python MapReduce 和 HDFS API.
  • Ray - 用于构建和运行分布式应用程序的快速而简单的框架.
  • Rackerlabs Blueflood - 多租户分布式度量处理系统
  • Skale - NodeJS 中的高性能分布式数据处理.
  • Stratosphere - 通用集群计算框架.
  • Streamdrill - 可用于计算不同时间窗口内事件流的活动并找到最活跃的事件流.
  • streamsx.topology - 支持使用 Java、Python 或 Scala 构建 IBM Streams 应用程序的库.
  • Tuktu - 易于使用的批处理和流计算平台,使用 Scala、Akka 和 Play 构建!
  • Twitter Heron - Heron 是来自 Twitter 的实时、分布式、容错流处理引擎,取代了 Storm.
  • Twitter Scalding - 用于 Map Reduce 作业的 Scala 库,基于级联构建.
  • Twitter Summingbird - Streaming MapReduce with Scalding and Storm, by Twitter.
  • Twitter TSAR - Twitter 的 TimeSeries AggregatoR.
  • Wallaroo - 超快和弹性的数据处理引擎. 大数据或快速数据 - 无需大惊小怪,无需 Java.

Distributed Filesystem

Distributed Index

  • Pilosa 开源分布式位图索引,可显着加速跨多个海量数据集的查询.

Document Data Model

  • Actian Versant - 商业面向对象的数据库管理系统.
  • Crate Data - 是一个开源的大规模可扩展数据存储. 它需要零管理.
  • Facebook Apollo - Facebook 的类似 Paxos 的 NoSQL 数据库.
  • jumboDB - 基于 Hadoop 的面向文档的数据存储.
  • LinkedIn Espresso - 水平可扩展的面向文档的 NoSQL 数据存储.
  • MarkLogic - 与模式无关的企业 NoSQL 数据库技术.
  • Microsoft Azure DocumentDB - 支持 MongoDB 协议的 NoSQL 云数据库服务
  • MongoDB - 面向文档的数据库系统.
  • RavenDB - 事务性开源文档数据库.
  • RethinkDB - 支持表连接和分组依据等查询的文档数据库.

Key Map Data Model

注意:业界存在一些术语混淆,两个不同的东西被称为“列式数据库”. 此处列出的一些是围绕“键映射”数据模型构建的分布式持久数据库:所有数据都有一个(可能是复合的)键,键值对的映射与该键相关联. 在一些系统中,多个这样的值映射可以与一个键相关联,并且这些映射被称为“列族”(值映射键被称为“列”).

另一组也可称为“列式数据库”的技术的特点是它在磁盘或内存中存储数据的方式——而不是以传统方式存储数据,在传统方式中,给定键的所有列值都彼此相邻存储,“逐行”,这些系统将所有值彼此相邻存储. 因此,需要更多的工作来获取给定键的所有列,但获取给定列的所有值所需的工作更少.

前一组在这里被称为“关键地图数据模型”. 这些和之间的界线 Key-value Data Model 商店相当模糊.

后者更多地是关于存储格式而不是数据模型,列在下面 Columnar Databases.

您可以在 Daniel Abadi 教授的博客上阅读更多关于这种区别的信息: Distinguishing two major types of Column Stores.

  • Apache Accumulo - 基于 Hadoop 构建的分布式键/值存储.
  • Apache Cassandra - 受 BigTable 启发的面向列的分布式数据存储.
  • Apache HBase - 受 BigTable 启发的面向列的分布式数据存储.
  • Baidu Tera - 受 BigTable 启发的互联网级数据库.
  • Facebook HydraBase - 由 Facebook 开发的 HBase 的演变.
  • Google Cloud Datastore - 是一个完全托管的无模式数据库,用于在 BigTable 上存储非关系数据.
  • Hypertable - 受 BigTable 启发的面向列的分布式数据存储.
  • InfiniDB - 通过 MySQL 接口访问并使用大量并行处理来并行化查询.
  • Tephra - HBase 的交易.
  • Twitter Manhattan - 用于 Twitter 规模的实时、多租户分布式数据库.
  • ScyllaDB - 用 C++ 编写的面向列的分布式数据存储,与 Apache Cassandra 完全兼容.

Key-value Data Model

  • Aerospike - NoSQL 闪存优化,内存中. 开源和“C 语言(不是 Java 或 Erlang)中的服务器代码经过精确调整以避免上下文切换和内存复制.”
  • Amazon DynamoDB - 分布式键/值存储,Dynamo 论文的实现.
  • Badger - 一个快速、简单、高效、持久的键值存储,用 Go 语言原生编写.
  • Bolt - Go 的嵌入式键值数据库.
  • BTDB - .Net 中的键值数据库,具有对象数据库层、RPC、动态 IL 等
  • BuntDB - 一个快速的、可嵌入的、内存中的键/值数据库,用于 Go,具有自定义索引和地理空间支持.
  • Edis - 是 Redis 的协议兼容服务器替代品.
  • ElephantDB - 专门用于从 Hadoop 导出数据的分布式数据库.
  • EventStore - 分布式时间序列数据库.
  • GhostDB - a distributed, in-memory, general purpose key-value data store that delivers microsecond performance at any scale.
  • Graviton - 一个简单、快速、版本化、经过身份验证、可嵌入的纯 Go(lang) 键值存储数据库.
  • GridDB - 适用于存储在时间序列中的传感器数据.
  • HyperDex - 可扩展的下一代键值和文档存储,具有广泛的特性,包括一致性、容错性和高性能.
  • Ignite - 是一个内存中的键值数据存储,提供完全符合 SQL 的数据访问,可以选择由磁盘存储支持.
  • LinkedIn Krati - 是一个简单的持久数据存储,具有极低的延迟和高吞吐量.
  • Linkedin Voldemort - 分布式键/值存储系统.
  • Oracle NoSQL Database - Oracle Corporation 的分布式键值数据库.
  • Redis - 在内存键值数据存储中.
  • Riak - 分散的数据存储.
  • Storehaus - 用于异步键值存储的库,由 Twitter 提供.
  • SummitDB - 内存中的 NoSQL 键/值数据库,具有磁盘持久性并使用 Raft 共识算法.
  • Tarantool - 高效的 NoSQL 数据库和 Lua 应用服务器.
  • TiKV - 由 Rust 提供支持并受 Google Spanner 和 HBase 启发的分布式键值数据库.
  • Tile38 - 地理定位数据存储、空间索引和实时地理围栏,支持多种对象类型,包括纬度/经度点、边界框、XYZ 瓦片、Geohashes 和 GeoJSON
  • TreodeDB - 复制和分片并提供原子多行写入的键值存储.

Graph Data Model

  • AgensGraph - 面向现代复杂数据环境的新一代多模型图数据库.
  • Apache Giraph - 基于 Hadoop 的 Pregel 实现.
  • Apache Spark Bagel - Pregel 的实施,Spark 的一部分.
  • ArangoDB - 多模型分布式数据库.
  • DGraph - 一个可扩展、分布式、低延迟、高吞吐量的图形数据库,旨在提供 Google 生产级别的规模和吞吐量,具有足够低的延迟以服务于实时用户查询,超过 TB 的结构化数据.
  • EliasDB - 基于图形的轻型数据库,不需要任何第三方库.
  • Facebook TAO - TAO 是 facebook 广泛使用的分布式数据存储,用于存储和服务社交图谱.
  • GCHQ Gaffer - GCHQ 的 Gaffer 是一个框架,可以轻松存储节点和边缘具有统计信息的大规模图形.
  • Google Cayley - 开源图形数据库.
  • Google Pregel - 图形处理框架.
  • GraphLab PowerGraph - 一个核心 C++ GraphLab API 和一组构建在 GraphLab API 之上的高性能机器学习和数据挖掘工具包.
  • GraphX - Spark 上的弹性分布式图形系统.
  • Gremlin - 图遍历语言.
  • Infovore - 以 RDF 为中心的 Map/Reduce 框架.
  • Intel GraphBuilder - tools to construct large-scale graphs on top of Hadoop.
  • JanusGraph - 开源、分布式图形数据库 具有多种存储后端选项(Bigtable、HBase、Cassandra 等) 和索引后端(Elasticsearch、Solr、Lucene).
  • MapGraph - GPU 上的大规模并行图形处理.
  • Microsoft Graph Engine - 一个分布式内存数据处理引擎,以强类型内存键值存储和通用分布式计算引擎为基础.
  • Neo4j - 完全用 Java 编写的图形数据库.
  • OrientDB - 文档和图形数据库.
  • Phoebus - 大规模图形处理框架.
  • Titan - 基于 Cassandra 构建的分布式图形数据库.
  • Twitter FlockDB - 分布式图形数据库.
  • NodeXL - 适用于 Microsoft® Excel® 2007、2010、2013 和 2016 的免费开源模板,可轻松浏览网络图.

Columnar Databases

注意 请阅读注释 Key-Map Data Model 部分.

  • Columnar Storage - 解释什么是列式存储以及何时需要它.
  • Actian Vector - 面向列的分析数据库.
  • ClickHouse - 一个开源的面向列的数据库管理系统,允许实时生成分析数据报告.
  • EventQL - 为大规模事件收集和分析而构建的分布式、面向列的数据库.
  • MonetDB - 列存储数据库.
  • Parquet - Hadoop 的列式存储格式.
  • Pivotal Greenplum - 专门构建的专用分析数据仓库,提供列式引擎和传统的基于行的引擎.
  • Vertica - 旨在管理大量快速增长的数据,并在用于数据仓库时提供非常快的查询性能.
  • SQream DB - GPU 驱动的大数据数据库,专为分析和数据仓库而设计,具有符合 ANSI-92 标准的 SQL,适用于 10TB 到 1PB 的数据集.
  • Google BigQuery - Google 的云产品以他们在 Dremel 上的开创性工作为后盾.
  • Amazon Redshift - Amazon 的云产品,也基于柱状数据存储后端.
  • IndexR - 一种用于大数据快速实时分析的开源列式存储格式.
  • LocustDB - 一个实验性分析数据库,旨在为商品硬件的查询性能设定新标准.

NewSQL Databases

  • Actian Ingres - 商业支持的开源 SQL 关系数据库管理系统.
  • ActorDB - 具有 KV 存储可扩展性的分布式 SQL 数据库,同时保持关系数据库的查询能力.
  • Amazon RedShift - 基于 PostgreSQL 的数据仓库服务.
  • BayesDB - 面向统计的 SQL 数据库.
  • Bedrock - 构建在 SQLite 之上的简单、模块化、网络化和分布式事务层.
  • CitusDB - 通过分片和复制扩展 PostgreSQL.
  • Cockroach - 可扩展、异地复制、交易数据存储.
  • Comdb2 - 基于乐观并发控制技术构建的集群 RDBMS.
  • Datomic - 旨在实现可扩展、灵活和智能应用程序的分布式数据库.
  • FoundationDB - 分布式数据库,灵感来自 F1.
  • Google F1 - 基于 Spanner 构建的分布式 SQL 数据库.
  • Google Spanner - 全球分布式半关系数据库.
  • H-Store - 是一个实验性的主内存并行数据库管理系统,针对联机事务处理 (OLTP) 应用程序进行了优化.
  • Haeinsa - 基于 Percolator 的 HBase 线性可扩展多行、多表事务库.
  • HandlerSocket - 用于 MySQL/MariaDB 的 NoSQL 插件.
  • InfiniSQL - 无限可扩展的 RDBMS.
  • KarelDB - 由 Apache Kafka 支持的关系数据库.
  • Map-D - GPU内存数据库,大数据分析和可视化平台.
  • MemSQL - 内存中的 SQL 数据库,在闪存上具有优化的列式存储.
  • NuoDB - SQL/ACID 兼容的分布式数据库.
  • Oracle TimesTen in-Memory Database - 具有持久性和可恢复性的内存中关系数据库管理系统.
  • Pivotal GemFire XD - 低延迟、内存中、分布式 SQL 数据存储. 为内存表数据提供 SQL 接口,在 HDFS 中持久化.
  • SAP HANA - 是一个内存中的、面向列的关系数据库管理系统.
  • SenseiDB - 分布式、实时、半结构化数据库.
  • Sky - 用于行为数据的灵活、高性能分析的数据库.
  • SymmetricDS - 用于文件和数据库同步的开源软件.
  • TiDB - TiDB 是一个分布式 SQL 数据库. 灵感来自 Google F1 的设计.
  • VoltDB - 声称是最快的内存数据库.
  • yugabyteDB - 与 PostgreSQL 兼容的开源、高性能、分布式 SQL 数据库.

Time-Series Databases

  • Axibase Time Series Database - 基于 HBase 的集成时间序列数据库,具有内置可视化、规则引擎和 SQL 支持.
  • Chronix - 一种时间序列存储,用于存储高度压缩的时间序列和快速访问时间.
  • Cube - 使用MongoDB 存储时间序列数据.
  • Heroic - 是一个基于 Cassandra 和 Elasticsearch 的可扩展时间序列数据库.
  • InfluxDB - 具有优化 IO 和查询的时间序列数据库,支持 pgsql 和 influx wire 协议.
  • QuestDB - 用于金融服务、物联网、机器学习、DevOps 和可观察性应用程序的高性能、开源 SQL 数据库.
  • IronDB - 可扩展的通用时间序列数据库.
  • Kairosdb - 类似于 OpenTSDB 但允许 Cassandra.
  • M3DB - 一个分布式时间序列数据库,可用于长期存储实时指标.
  • Newts - 基于 Apache Cassandra 的时间序列数据库.
  • TDengine - C 中的时间序列数据库,利用物联网的独特功能来提高读/写吞吐量并减少存储数据所需的空间
  • OpenTSDB - 基于 HBase 的分布式时间序列数据库.
  • Prometheus - 时间序列数据库和服务监控系统.
  • Beringei - Facebook 的内存时间序列数据库.
  • TrailDB - 用于存储和查询一系列事件的有效工具.
  • Druid 面向列的分布式数据存储是支持交互式应用程序的理想选择
  • Riak-TS Riak TS 是唯一专门针对物联网和时间序列数据优化的企业级 NoSQL 时间序列数据库.
  • Akumuli Akumuli 是一个数字时间序列数据库. 它可用于实时捕获、存储和处理时间序列数据. “akumuli”这个词可以从世界语翻译成“积累”.
  • Rhombus 用于 Cassandra 的时间序列对象存储,可处理构建宽行索引的所有复杂性.
  • Dalmatiner DB 快速分布式指标数据库
  • Blueflood 旨在摄取和处理时间序列数据的分布式系统
  • Timely Timely 是一个时间序列数据库应用程序,它基于 Accumulo 和 Grafana 提供对时间序列数据的安全访问.
  • SiriDB 具有集群功能的高度可扩展、强大且快速的开源时间序列数据库.
  • Thanos - Thanos 是一组组件,用于使用多个(现有的)Prometheus 部署创建具有无限存储容量的高度可用的度量系统.
  • VictoriaMetrics - 与 Prometheus 兼容的快速、可扩展且资源有效的开源 TSDB. 包括单节点和集群版本

SQL-like processing

  • Actian SQL for Hadoop - 对所有 Hadoop 数据的高性能交互式 SQL 访问.
  • Apache Drill - 受 Dremel 启发的交互式分析框架.
  • Apache HCatalog - Hadoop 的表和存储管理层.
  • Apache Hive - 用于 Hadoop 的类似 SQL 的数据仓库系统.
  • Apache Calcite - 允许高效翻译涉及异构和联合数据的查询的框架.
  • Apache Phoenix - HBase 上的 SQL 皮肤.
  • Aster Database - 用于 MapReduce 的类似 SQL 的分析处理.
  • Cloudera Impala - 交互式分析框架,灵感来自 Dremel.
  • Concurrent Lingual - 用于级联的类似 SQL 的查询语言.
  • Datasalt Splout SQL - 用于大数据集的完整 SQL 查询引擎.
  • Dremio - 基于 Apache Arrow 的开源、类似 SQL 的数据即服务平台.
  • Facebook PrestoDB - 分布式 SQL 查询引擎.
  • Google BigQuery - 交互式分析框架,Dremel 的实施.
  • Materialize - 是一个用于实时应用程序的流式数据库,使用 SQL 进行查询并支持大部分 PostgreSQL.
  • Invantive SQL - 用于在线和本地使用的 SQL 引擎,具有集成的本地数据复制和 70 多个连接器.
  • PipelineDB - 一个开源关系数据库,它在流上连续运行 SQL 查询,将结果增量存储在表中.
  • Pivotal HDB - 用于 Hadoop 的类似 SQL 的数据仓库系统.
  • RainstorDB - 用于存储 PB 级结构化和半结构化数据的数据库.
  • Spark Catalyst - 是 Spark 和 Shark 的查询优化框架.
  • SparkSQL - 使用 Spark 处理结构化数据.
  • Splice Machine - 具有 ACID 事务的全功能 SQL-on-Hadoop RDBMS.
  • Stinger - Hive 的交互式查询.
  • Tajo - Hadoop 上的分布式数据仓库系统.
  • Trafodion - 针对大数据交易或运营工作负载的企业级 SQL-on-HBase 解决方案.

Data Ingestion

  • redpanda - 关键任务系统的 Kafka® 替代品; 快 10 倍. 用 C++ 编写.
  • Amazon Kinesis - 大规模实时处理流数据.
  • Amazon Web Services Glue - 无服务器完全托管的提取、转换和加载 (ETL) 服务
  • Census - 一种反向 ETL 产品,可让您将数据从数据仓库同步到 SaaS 应用程序. 无需工程支持 — 只需 SQL.
  • Apache Chukwa - 数据收集系统.
  • Apache Flume - 管理大量日志数据的服务.
  • Apache Kafka - 分布式发布-订阅消息系统.
  • Apache NiFi - Apache NiFi 是一个集成的数据物流平台,用于在不同系统之间自动移动数据.
  • Apache Pulsar - 具有非常灵活的消息传递模型和直观的客户端 API 的分布式发布-订阅消息传递平台.
  • Apache Sqoop - 在 Hadoop 和结构化数据存储之间传输数据的工具.
  • Embulk - 开源批量数据加载器,有助于在各种数据库、存储、文件格式和云服务之间传输数据.
  • Facebook Scribe - 流式日志数据聚合器.
  • Fluentd - 收集事件和日志的工具.
  • Gazette - 基于云存储构建的分布式流媒体基础设施,可以轻松混合和匹配批处理和流媒体范例.
  • Google Photon - 地理分布式系统,用于实时连接多个连续流动的数据流,具有高可扩展性和低延迟.
  • Heka - 开源流处理软件系统.
  • HIHO - 将不同数据源与 Hadoop 连接起来的框架.
  • Kestrel - 分布式消息队列系统.
  • LinkedIn Databus - 数据库的更改捕获事件流.
  • LinkedIn Kamikaze - 用于压缩排序整数数组的实用程序包.
  • LinkedIn White Elephant - 日志聚合器和仪表板.
  • Logstash - 用于管理事件和日志的工具.
  • Netflix Suro - 基于 Chukwa 的日志聚合器,如 Storm 和 Samza.
  • Pinterest Secor - 是一个实现 Kafka 日志持久化的服务.
  • Linkedin Gobblin - linkedin 的通用数据摄取框架.
  • Skizze - 草图数据存储以使用概率数据结构处理有关计数和草图的所有问题.
  • StreamSets Data Collector - 具有简单易用的 IDE 的连续大数据摄取基础设施.
  • Alooma - 数据管道即服务,支持将 MySQL 等数据源移动到数据仓库中.
  • RudderStack - 用 go 编写的开源客户数据基础设施(分段、mParticle 替代方案).
  • Zilla - 为事件驱动架构和流构建的 API 网关,支持 HTTP、SSE、gRPC、MQTT 和原生 Kafka 协议等标准协议.

Service Programming

  • Akka Toolkit - JVM 上分布式和容错事件驱动应用程序的运行时.
  • Apache Avro - data serialization system.
  • Apache Curator - Apache ZooKeeper 的 Java 库.
  • Apache Karaf - 在任何 OSGi 框架之上运行的 OSGi 运行时.
  • Apache Thrift - 构建二进制协议的框架.
  • Apache Zookeeper - 过程管理的集中服务.
  • Google Chubby - 松耦合分布式系统的锁定服务.
  • Hydrosphere Mist - 一种将 Apache Spark 分析作业和机器学习模型公开为实时、批处理或反应式 Web 服务的服务.
  • Linkedin Norbert - 集群管理器.
  • Mara - 一个轻量级的自以为是的 ETL 框架,介于普通脚本和 Apache Airflow 之间
  • OpenMPI - 消息传递框架.
  • Serf - 用于服务发现和编排的去中心化解决方案.
  • Spotify Luigi - 用于构建批处理作业的复杂管道的 Python 包. 它处理依赖项解析、工作流管理、可视化、处理故障、命令行集成等等.
  • Spring XD - 用于数据摄取、实时分析、批处理和数据导出的分布式和可扩展系统.
  • Twitter Elephant Bird - 用于处理 LZOP 压缩数据的库.
  • Twitter Finagle - JVM 的异步网络堆栈.

Scheduling

  • Apache Airflow - 一个以编程方式创作、安排和监控工作流程的平台.
  • Apache Aurora - 是在 Apache Mesos 之上运行的服务调度程序.
  • Apache Falcon - 数据管理框架.
  • Apache Oozie - 工作流作业调度程序.
  • Azure Data Factory - 用于本地、云和 HDInsight 的基于云的管道编排
  • Chronos - 分布式和容错调度器.
  • Cronicle - 分布式、易于安装、基于 NodeJS 的任务调度程序
  • Dagster - 用于机器学习、分析和 ETL 的数据协调器.
  • Linkedin Azkaban - 批处理工作流作业调度程序.
  • Schedoscope - 用于敏捷调度 Hadoop 作业的 Scala DSL.
  • Sparrow - 调度平台.

Machine Learning

  • Azure ML Studio - 基于云的 AzureML、R、Python 机器学习平台
  • brain - JavaScript 中的神经网络.
  • Oryx - Apache Spark 上的 Lambda 架构,用于实时大规模机器学习的 Apache Kafka.
  • Concurrent Pattern - 用于级联的机器学习库.
  • convnetjs - Javascript 中的深度学习. 在浏览器中训练卷积神经网络(或普通神经网络).
  • DataVec - 用于 Java 和 Scala 深度学习的矢量化和数据预处理库. Deeplearning4j 生态系统的一部分.
  • Deeplearning4j - 用于 JVM(Java、Scala、Clojure)的快速、开放的深度学习. 由 C++ 库提供支持的神经网络配置层. 使用 Spark 和 Hadoop 在多个 GPU 和 CPU 上训练网络.
  • Decider - Ruby 中灵活且可扩展的机器学习.
  • ENCOG - 支持各种高级算法的机器学习框架,以及支持规范化和处理数据的类.
  • etcML - 机器学习的文本分类.
  • Etsy Conjecture - Scalding 中的可扩展机器学习.
  • Feast - 用于管理、发现和访问机器学习功能的功能存储. Feast 为模型训练和模型服务提供一致的特征数据视图.
  • GraphLab Create - Python 中的机器学习平台,包含广泛的 ML 工具包、数据工程和部署工具.
  • H2O - 使用 Hadoop 的统计、机器学习和数学运行时. R 和蟒蛇.
  • Karate Club - 用于图形结构化数据的无监督机器学习库. Python
  • Keras - 受 Torch 启发的直观神经网络 API,运行在 Theano 和 Tensorflow 之上.
  • Lambdo - Lambdo 是一个工作流引擎,它通过统一特征工程和机器学习操作显着简化了分析过程.
  • Little Ball of Fur - 图形结构化数据的子采样库. Python
  • Mahout - 用于 Hadoop 的 Apache 支持的机器学习库.
  • MLbase - 用于 BDAS 堆栈的分布式机器学习库.
  • MLPNeuralNet - 适用于 iOS 和 Mac OS X 的快速多层感知器神经网络库.
  • ML Workspace - 专门用于机器学习和数据科学的多合一基于 Web 的 IDE.
  • MOA - MOA实时进行大数据流挖掘,大规模机器学习.
  • MonkeyLearn - 文本挖掘变得容易. 从文本中提取和分类数据.
  • ND4J - JVM 的矩阵库. 用于 Java 的 Numpy.
  • nupic - Numenta 智能计算平台:仿脑机器智能平台,以及基于皮层学习算法的生物学精确神经网络.
  • PredictionIO - 基于 Hadoop、Mahout 和 Cascading 的机器学习服务器.
  • PyTorch Geometric Temporal - PyTorch Geometric 的时间扩展库.
  • RL4J - Java 和 Scala 的强化学习. 包括 Deep-Q 学习和 A3C 算法,并与 Open AI 的 Gym 集成. 在 Deeplearning4j 生态系统中运行.
  • SAMOA - 分布式流式机器学习框架.
  • scikit-learn - scikit-learn:Python 中的机器学习.
  • Shapley - 一个数据驱动的框架,用于量化机器学习集成中分类器的价值.
  • Spark MLlib - 一些常见机器学习 (ML) 功能的 Spark 实现.
  • Sibyl - 谷歌的大规模机器学习系统.
  • TensorFlow - 来自谷歌的图书馆,用于使用数据流图进行机器学习.
  • Theano - 蒙特利尔大学支持的以 Python 为中心的机器学习库.
  • Torch - 由纽约大学和 Facebook 支持的带有 Lua API 的深度学习库.
  • Velox - 服务于机器学习预测的系统.
  • Vowpal Wabbit - 由微软和雅虎赞助的学习系统.
  • WEKA - 一套机器学习软件.
  • BidMach - CPU 和 GPU 加速的机器学习库.

Benchmarking

Security

System Deployment

Applications

  • 411 - 一个 Web 应用程序,用于对 Elasticsearch 中的计划搜索产生的警报管理.
  • Adobe spindle - 使用 Scala、Spark 和 Parquet 的下一代 Web 分析处理.
  • Apache Metron - 一个集成多种开源大数据技术的平台,以提供集中的安全监控和分析工具.
  • Apache Nutch - 开源网络爬虫.
  • Apache OODT - 为 NASA 的科学档案捕获、处理和共享数据.
  • Argus - 时间序列监控和告警平台.
  • AthenaX - 一个流分析平台,使用户能够使用结构化查询语言 (SQL) 运行生产质量的大规模流分析.
  • Atlas - 用于管理维度时间序列数据的后端.
  • Countly - 基于 Node.js 和 MongoDB 的开源移动和网络分析平台.
  • Domino - 运行、扩展、共享和部署模型——无需任何基础设施.
  • Eclipse BIRT - 基于 Eclipse 的报告系统.
  • ElastAert - ElastAlert 是一个简单的框架,用于针对 ElasticSearch 中数据的异常、尖峰或其他感兴趣的模式发出警报.
  • Eventhub - 开源事件分析平台.
  • HASH - 开源仿真和可视化平台.
  • Hermes - 构建在 Kafka 之上的异步消息代理.
  • Hunk - Hadoop 的 Splunk 分析.
  • Imhotep - Indeed 的大型分析平台.
  • Indicative - Web 和移动分析工具,具有数据仓库(AWS、BigQuery)集成.
  • Jupyter - 用于跨所有编程语言的交互式数据科学和科学计算的笔记本和项目应用程序.
  • MADlib - 用于分析数据的 RDBMS 数据处理库.
  • Kapacitor - 用于处理、监控和警报时间序列数据的开源框架.
  • Kylin - 来自 eBay 的开源分布式分析引擎.
  • PivotalR - Pivotal HD / HAWQ 和 PostgreSQL 上的 R.
  • Rakam - 由 Postgresql、Kinesis 和 PrestoDB 提供支持的开源实时自定义分析平台.
  • Qubole - 自动扩展 Hadoop 集群,内置数据连接器.
  • SnappyData - 用于实时操作分析的分布式内存数据存储,提供流分析、OLTP(联机事务处理)和 OLAP(联机分析处理)构建在单个集成集群中的 Spark 上.
  • Snowplow - 企业级网络和事件分析,由 Hadoop、Kinesis、Redshift 和 Postgres 提供支持.
  • SparkR - Spark 的 R 前端.
  • Splunk - 机器生成数据的分析器.
  • Sumo Logic - 基于云的机器生成数据分析器.
  • Substation - Substation 是一个用 Go 编写的云原生数据管道和转换工具包.
  • Talend - YARN、Hadoop、HBASE、Hive、HCatalog 和 Pig 的统一开源环境.

Search engine and framework

  • Apache Lucene - 搜索引擎库.
  • Apache Solr - Apache Lucene 的搜索平台.
  • Elassandra - 是 Elasticsearch 的一个分支,经过修改后可以在 Apache Cassandra 之上以可扩展且有弹性的对等架构运行.
  • ElasticSearch - 基于 Apache Lucene 的搜索和分析引擎.
  • Enigma.io – 用于探索、过滤、分析、搜索和导出从网络上抓取的大量数据集的免费增值网络应用程序.
  • Google Caffeine - 连续索引系统.
  • Google Percolator - 连续索引系统.
  • HBase Coprocessor - 实施 Percolator,HBase 的一部分.
  • LinkedIn Bobo - is a Faceted Search implementation written purely in Java, an extension to Apache Lucene.
  • LinkedIn Cleo - 是一个灵活的软件库,用于快速开发部分、乱序和实时预输入搜索.
  • LinkedIn Galene - LinkedIn 的搜索架构.
  • LinkedIn Zoie - 是一个用 Java 编写的实时搜索/索引系统.
  • MG4J - MG4J(Java 管理千兆字节)是用 Java 编写的大型文档集合的全文搜索引擎. 它是高度可定制的、高性能的,并提供最先进的功能和新的研究算法.
  • Sphinx Search Server - 全文搜索引擎.
  • Vespa - 是一个用于对大型数据集进行低延迟计算的引擎. 它存储和索引您的数据,以便可以在服务时对数据执行查询、选择和处理.
  • Facebook Faiss - 是一个用于高效相似性搜索和密集向量聚类的库. 它包含搜索任意大小的向量集的算法,直到可能不适合 RAM 的向量集. 它还包含用于评估和参数调整的支持代码. Faiss 是用 C++ 编写的,具有完整的 Python/numpy 包装器.
  • Annoy - 是一个带有 Python 绑定的 C++ 库,用于搜索空间中靠近给定查询点的点. 它还创建基于文件的大型只读数据结构,这些数据结构被映射到内存中,以便许多进程可以共享相同的数据.
  • Weaviate - Weaviate 是一个基于 GraphQL 的语义搜索引擎,具有内置(词)嵌入.

MySQL forks and evolutions

  • Amazon RDS - 亚马逊云中的 MySQL 数据库.
  • Drizzle - MySQL 6.0 的演变.
  • Google Cloud SQL - 谷歌云中的 MySQL 数据库.
  • MariaDB - 增强的 MySQL 替代品.
  • MySQL Cluster - 使用 NDB Cluster 存储引擎的 MySQL 实现.
  • Percona Server - 增强的 MySQL 替代品.
  • ProxySQL - MySQL 的高性能代理.
  • TokuDB - TokuDB 是 MySQL 和 MariaDB 的存储引擎.
  • WebScaleSQL - 是来自几家在大规模运行 MySQL 方面面临类似挑战的公司的工程师之间的协作.

PostgreSQL forks and evolutions

  • HadoopDB - MapReduce 和 DBMS 的混合体.
  • IBM Netezza - 高性能数据仓库设备.
  • Postgres-XL - 可扩展的基于 PostgreSQL 的开源数据库集群.
  • RecDB - 完全在 PostgreSQL 内部构建的开源推荐引擎.
  • Stado - 开源 MPP 数据库系统,仅针对数据仓库和数据集市应用程序.
  • Yahoo Everest - 多 peta 字节数据库/由 PostgreSQL 派生的 MPP.
  • TimescaleDB - 针对快速摄取和复杂查询优化的开源时间序列数据库
  • PipelineDB - 流式 SQL 数据库. 一种开源关系数据库,可在流上连续运行 SQL 查询,将结果增量存储在表中

Memcached forks and evolutions

Embedded Databases

  • Actian PSQL - 由 Pervasive Software 开发的符合 ACID 的 DBMS,针对应用程序的嵌入进行了优化.
  • BerkeleyDB - 为键/值数据提供高性能嵌入式数据库的软件库.
  • HanoiDB - Erlang LSM BTree 存储.
  • LevelDB - 由 Google 编写的快速键值存储库,提供从字符串键到字符串值的有序映射.
  • LMDB - Symas 开发的超快速、超紧凑的键值嵌入式数据存储.
  • RocksDB - 基于 LevelDB 的可嵌入持久键值存储,用于快速存储.

Business Intelligence

  • BIME Analytics - 云中的商业智能平台.
  • Blazer - 商业智能变得简单.
  • Chartio - 精益商业智能平台可视化和探索您的数据.
  • Count - 使用 SQL 或拖放的基于笔记本的分析和可视化平台.
  • datapine - 云中的自助式商业智能工具.
  • Dekart - 基于 Kepler.gl 的 Google BigQuery 的大规模地理空间分析.
  • GoodData - platform for data products and embedded analytics.
  • Jaspersoft - 强大的商业智能套件.
  • Jedox Palo - 可定制的商业智能平台.
  • Jethrodata - 交互式大数据分析.
  • intermix.io - Amazon Redshift 的性能监控
  • Metabase - 为公司中的每个人提供商业智能和分析的最简单、最快的方法.
  • Microsoft - 商业智能软件和平台.
  • Microstrategy - 商业智能、移动智能和网络应用软件平台.
  • Numeracy - 快速、干净的 SQL 客户端和商业智能.
  • Pentaho - 商业智能平台.
  • Qlik - 商业智能和分析平台.
  • Redash - 开源商业智能平台,支持多数据源和计划查询.
  • Saiku Analytics - 开源分析平台.
  • Knowage - 开源商业智能平台. (以前 SpagoBi)
  • SparklineData SNAP - 由 Apache Spark 提供支持的现代 BI 平台.
  • Tableau - 商业智能平台.
  • Zoomdata - 大数据分析.

Data Visualization

  • Airpal - PrestoDB 的网页用户界面.
  • AnyChart - 具有纯 JS API 的快速、简单和灵活的 JavaScript (HTML5) 图表库.
  • Arbor - 使用网络工作者和 jQuery 的图形可视化库.
  • Banana - visualize logs and time-stamped data stored in Solr. Port of Kibana.
  • Bloomery - Impala 的网页用户界面.
  • Bokeh - 一个强大的 Python 交互式可视化库,以现代 Web 浏览器为目标进行演示,目标是提供优雅、简洁的 D3.js 风格的新颖图形构造,同时也提供这种能力,在超大或流媒体上提供高性能交互数据集.
  • C3 - 基于 D3 的可重用图表库
  • CartoDB - 具有强大的前端编辑功能和强大的 API 的地理空间数据库的开源或免费增值托管.
  • chartd - 响应迅速、与视网膜兼容的图表,只有一个 img 标签.
  • Chart.js - 开源 HTML5 图表可视化.
  • Chartist.js - 另一个开源 HTML5 图表可视化.
  • Crossfilter - 用于在浏览器中探索大型多变量数据集的 JavaScript 库. 适用于 dc.js 和 d3.js.
  • Cubism - 用于时间序列可视化的 JavaScript 库.
  • Cytoscape - 用于可视化复杂网络的 JavaScript 库.
  • DC.js - 构建维度图表以与使用 d3.js 呈现的 crossfilter 一起工作. 非常适合将图表/附加元数据连接到 D3 中的悬停事件.
  • D3 - 用于处理文档的 javaScript 库.
  • D3.compose - 从可重复使用的图表和组件中构建复杂的、数据驱动的可视化.
  • D3Plus - d3.js 的一组相当强大的可重用图表和样式.
  • Dash - 用于 Python、R、Julia 和 Jupyter 的分析 Web 应用程序. 建立在 plotly 之上,不需要 JS
  • Dekart - 基于 Kepler.gl 的 Google BigQuery 的大规模地理空间分析.
  • DevExtreme React Chart - 用于 Bootstrap 和 Material Design 的高性能基于插件的 React 图表.
  • Echarts - 百度企业排行榜.
  • Envisionjs - 动态 HTML5 可视化.
  • FnordMetric - 编写返回 SVG 图表而不是表格的 SQL 查询
  • Frappe Charts - 受 GitHub 启发的简单现代 SVG 图表,适用于零依赖性网络.
  • Freeboard - 用于 IOT 和其他 Web 混搭的笔源实时仪表板生成器.
  • Gephi - 一个屡获殊荣的开源平台,用于可视化和操作大型图形和网络连接. 它就像 Photoshop,但用于图形. 适用于 Windows 和 Mac OS X.
  • Google Charts - 简单的图表 API.
  • Grafana - Graphite 仪表板前端、编辑器和图形编辑器.
  • Graphite - 可扩展的实时图形.
  • Highcharts - 简单灵活的图表 API.
  • IPython - 为交互式计算提供丰富的架构.
  • Kibana - 可视化日志和时间戳数据
  • Lumify - 开源大数据分析与可视化平台
  • Matplotlib - 用 Python 绘图.
  • Metricsgraphic.js - 建立在 D3 之上的库,针对时间序列数据进行了优化
  • NVD3 - d3.js 的图表组件.
  • Peity - 渐进式 SVG 条形图、折线图和饼图.
  • Plot.ly - 易于使用的网络服务,允许快速创建复杂的图表,从热图到直方图. 使用 Plotly 的在线电子表格上传数据以创建图表并为其设计样式. 分叉别人的阴谋.
  • Plotly.js 强大的开源 javascript 图形库.
  • Recline - 用于以纯 Javascript 和 HTML 构建数据应用程序的简单但功能强大的库.
  • Redash - 用于查询和可视化数据的开源平台.
  • ReCharts - 基于 React 组件构建的可组合图表库
  • Shiny - R 的 Web 应用程序框架.
  • Sigma.js - 专门用于图形绘制的 JavaScript 库.
  • Superset - 一个设计为可视化、直观和交互式的数据探索平台,可以轻松地对数据进行切片、切块和可视化,并以思维的速度进行分析.
  • Vega - 可视化语法.
  • Zeppelin - 笔记本式协作数据分析.
  • Zing Charts - 用于大数据的 JavaScript 图表库.
  • DataSphere Studio - 一站式数据应用开发管理门户.

Internet of things and sensor data

  • Apache Edgent (Incubating) - 可以嵌入网关和小型边缘设备的编程模型和微内核样式运行时,支持在边缘设备上进行本地实时分析.
  • Azure IoT Hub - 基于云的双向监控和消息中心
  • TempoIQ - 基于云的传感器分析.
  • 2lemetry - 物联网平台.
  • Pubnub - 数据流网络
  • ThingWorx - 智能系统的快速开发和连接
  • IFTTT - 如果这样那么那样
  • Evrything- 使产品智能化
  • NetLytics - Analytics platform to process network data on Spark.
  • Ably - 用于物联网的发布/订阅消息传递平台

Interesting Readings

Interesting Papers

2015 - 2016

  • 2015 - Facebook - 万亿边:Facebook 规模的图形处理.

2013 - 2014

  • 2014 - 斯坦福 - 海量数据集的挖掘.
  • 2013 - Microsoft - 云中大数据的可扩展渐进式分析.
  • 2013 - Metamarkets - Druid:实时分析数据存储.
  • 2013 - Google - F1 中的在线异步架构更改.
  • 2013 - Google - MillWheel:互联网规模的容错流处理.
  • 2013 - Facebook - Scuba:在 Facebook 深入研究数据.
  • 2013 - Facebook - Unicorn:一种用于搜索社交图谱的系统.
  • 2013 - Facebook - 在 Facebook 上扩展 Memcache.

2011 - 2012

  • 2012 - Twitter - 统一日志基础设施 用于 Twitter 的数据分析.
  • 2012 - AMPLab - 使用 Spark 对 Hadoop 数据进行快速交互式分析.
  • 2012 - Microsoft - Paxos 复制状态机作为高性能数据存储的基础.
  • 2012 - 微软 - Paxos 并行化.
  • 2012 - AMPLab - BlinkDB:​​对非常大的数据进行有界错误和有界响应时间的查询.
  • 2012 - Google - 每次鼠标点击处理一万亿个细胞.

2001 - 2010

  • 2010 - Facebook - 大海捞针:Facebook 的照片存储.
  • 2010 - Google - Pregel:大规模图形处理系统.
  • 2010 - Yahoo - S4:分布式流计算平台.
  • 2009 - HadoopDB:用于分析工作负载的 MapReduce 和 DBMS 技术的架构混合体.
  • 2008 - AMPLab - Chukwa:大型监控系统.
  • 2007 - Amazon - Dynamo:Amazon 的高可用性键值存储.

Videos

Books

Streaming

  • Data Science at Scale with Python and Dask - Data Science at Scale with Python and Dask 教您如何构建可以处理大量数据的分布式数据项目.
  • Streaming Data - 流数据介绍流和实时数据系统的概念和要求.
  • Storm Applied - Storm Applied 是使用 Apache Storm 执行与处理和分析实时数据流相关的实际任务的实用指南.
  • Fundamentals of Stream Processing: Application Design, Systems, and Analytics - 这本全面的实践指南结合了流处理的基本构建块和新兴研究,非常适合应用程序设计人员、系统构建人员、分析开发人员以及该领域的学生和研究人员.
  • Stream Data Processing: A Quality of Service Perspective - 提出了一种适用于流和复杂事件处理的新范例.
  • Unified Log Processing - 统一日志处理是在您的业务中实施事件流(Kafka 或 Kinesis)统一日志的实用指南
  • Kafka Streams in Action - Kafka Streams in Action 教您对流入 Kafka 平台的数据实施流处理所需的一切知识,让您专注于从数据中获取更多信息,而不会牺牲时间或精力.
  • Big Data - 大数据教您使用一种架构构建大数据系统,该架构利用集群硬件以及专门设计用于捕获和分析网络规模数据的新工具.
  • Spark in Action & Spark in Action 2nd Ed. - Spark in Action 教您使用 Spark 有效处理批处理和流数据所需的理论和技能. 完全更新为 Spark 2.0.
  • Kafka in Action - Kafka in Action 是对使用 Kafka 的各个方面的快节奏介绍,您需要真正获得它的好处.
  • Fusion in Action - Fusion in Action 教您构建功能齐全的数据分析管道,包括文档和数据搜索以及分布式数据集群.
  • Reactive Data Handling - Reactive Data Handling 是 Manuel Bernhardt 精心挑选的五个章节的集合,向您介绍构建能够处理实时处理大数据负载的反应式应用程序——免费电子书!
  • Azure Data Engineering - 一本关于一般数据工程和具体 Azure 平台的书
  • Grokking Streaming Systems - Grokking Streaming Systems 帮助您了解什么是流媒体系统、它们如何工作以及它们是否适合您的业务. 编写为与工具无关,无论您选择哪种框架,您都可以应用所学知识.

Distributed systems

Graph Based approach

Data Visualization

Other Awesome Lists