大数据

Awesome Big Data

Awesome

精选的大数据框架,资源和其他令人敬畏的精选列表. 灵感来自 awesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.

欢迎您的贡献!

RDBMS

  • MySQL 世界上最流行的开源数据库.
  • PostgreSQL 世界上最先进的开源数据库.
  • Oracle Database - 对象关系数据库管理系统.
  • Teradata - 高性能MPP数据仓库平台.

Frameworks

  • Bistro - 用于批处理和流分析的通用数据处理引擎. 它基于一种新颖的数据模型,它通过 functions 表示数据,并通过列操作处理数据,而不是像MapReduce或SQL这样的常规方法中设置操作.
  • IBM Streams - 分布式处理和实时分析的平台. 与大数据生态系统中的许多流行技术(Kafka,HDFS,Spark等)集成
  • Apache Hadoop - 分布式处理框架. 集成MapReduce(并行处理),YARN(作业调度)和HDFS(分布式文件系统).
  • Tigon - 高吞吐量实时流处理框架.
  • Pachyderm - Pachyderm是一个基于Docker和Kubernetes构建的数据存储平台,可提供可重复的数据处理和分析.
  • Polyaxon - 可重复和可扩展的机器学习和深度学习的平台.

Distributed Programming

  • AddThis Hydra - 最初在AddThis开发的分布式数据处理和存储系统.
  • AMPLab SIMR - 在Hadoop MapReduce v1上运行Spark.
  • Apache APEX - 用于大数据流和批处理的统一企业平台.
  • Apache Beam - 用于定义和执行数据处理工作流的统一模型和一组特定于语言的SDK.
  • Apache Crunch - 一个简单的Java API,用于加入和数据聚合等任务,这些任务在普通的MapReduce上实现起来很繁琐.
  • Apache DataFu - 由LinkedIn开发的Hadoop和Pig的用户定义函数的集合.
  • Apache Flink - 高性能运行时和自动程序优化.
  • Apache Gearpump - 基于Akka的实时大数据流媒体引擎.
  • Apache Gora - 内存数据模型和持久性的框架.
  • Apache Hama - BSP(批量同步并行)计算框架.
  • Apache MapReduce - 用于在群集上使用并行分布式算法处理大型数据集的编程模型.
  • Apache Pig - 用于表达Hadoop数据分析程序的高级语言.
  • Apache REEF - 可保留的评估程序执行框架,以简化和统一大数据系统的较低层.
  • Apache S4 - 流处理框架,S4的实现.
  • Apache Spark - 内存中集群计算的框架.
  • Apache Spark Streaming - 流处理框架,Spark的一部分.
  • Apache Storm - Twitter也在YARN上进行流处理的框架.
  • Apache Samza - 基于Kafka和YARN的流处理框架.
  • Apache Tez - 用于执行基于YARN的任务的复杂DAG(有向无环图)的应用程序框架.
  • Apache Twill - 对YARN的抽象,降低了开发分布式应用程序的复杂性.
  • Baidu Bigflow - 允许编写分布式计算程序的接口,提供大量简单,灵活,功能强大的API,可轻松处理任何规模的数据.
  • Cascalog - 数据处理和查询库.
  • Cheetah - MapReduce之上的高性能,自定义数据仓库.
  • Concurrent Cascading - Hadoop上的数据管理/分析框架.
  • Damballa Parkour - Clojure的MapReduce库.
  • Datasalt Pangool - 替代MapReduce范例.
  • DataTorrent StrAM - 实时引擎旨在以尽可能不受限制的方式实现分布式,异步,实时内存中大数据计算,同时将开销和性能降至最低.
  • Facebook Corona - Hadoop增强功能,可消除单点故障.
  • Facebook Peregrine - Map Reduce框架.
  • Facebook Scuba - 分布式内存数据存储.
  • Google Dataflow - 创建数据管道以帮助他们提取,转换和分析数据.
  • Google MapReduce - map reduce框架.
  • Google MillWheel - 容错流处理框架.
  • IBM Streams - 分布式处理和实时分析的平台. 提供开箱即用的高级分析工具包,如地理空间,时间序列等.
  • JAQL - 用于处理结构化,半结构化和非结构化数据的声明性编程语言.
  • Kite - 是一组库,工具,示例和文档,专注于使在Hadoop生态系统之上构建系统变得更加容易.
  • Metamarkets Druid - 用于实时分析大型数据集的框架.
  • Netflix PigPen - 用于编译Apache Pig的Clojure的map-reduce.
  • Nokia Disco - 由诺基亚开发的MapReduce框架.
  • Onyx - 云的分布式计算.
  • Pinterest Pinlater - 异步作业执行系统.
  • Pydoop - 用于Hadoop的Python MapReduce和HDFS API.
  • Ray - 用于构建和运行分布式应用程序的快速而简单的框架.
  • Rackerlabs Blueflood - 多租户分布式度量处理系统
  • Skale - NodeJS中的高性能分布式数据处理.
  • Stratosphere - 通用集群计算框架.
  • Streamdrill - 用于计算不同时间窗口上事件流的活动并找到最活跃的时间窗口.
  • streamsx.topology - 使用Java,Python或Scala构建IBM Streams应用程序的库.
  • Tuktu - 易于使用的批处理和流式计算平台,使用Scala,Akka和Play构建!
  • Twitter Heron - Heron是一个实时的,分布式的,容错的流处理引擎,来自Twitter取代Storm.
  • Twitter Scalding - 用于Map Reduce作业的Scala库,基于Cascading构建.
  • Twitter Summingbird - 通过Twitter流式传输MapReduce与烫伤和风暴.
  • Twitter TSAR - Twitter的TimeSeries AggregatoR.
  • Wallaroo - 超快速和弹性数据处理引擎. 大数据或快速数据 - 无需大惊小怪,无需Java.

Distributed Filesystem

Distributed Index

  • Pilosa 开源分布式位图索引,可显着加速跨多个海量数据集的查询.

Document Data Model

  • Actian Versant - 面向商业对象的数据库管理系统.
  • Crate Data - 是一个开源的大规模可扩展数据存储. 它需要零管理.
  • Facebook Apollo - Facebook的Paxos式NoSQL数据库.
  • jumboDB - 面向Hadoop的面向文档的数据存储.
  • LinkedIn Espresso - 可横向扩展的面向文档的NoSQL数据存储.
  • MarkLogic - 与架构无关的企业NoSQL数据库技术.
  • Microsoft Azure DocumentDB - 具有MongoDB协议支持的NoSQL云数据库服务
  • MongoDB - 面向文档的数据库系统.
  • RavenDB - 一个事务性的开源文档数据库.
  • RethinkDB - 支持表连接和分组依据等查询的文档数据库.

Key Map Data Model

注意:业界存在一些术语混淆,两种不同的东西称为“柱状数据库”. 这里列出的一些是围绕“键 - 映射”数据模型构建的分布式持久性数据库:所有数据都有一个(可能是复合的)密钥,键值对的映射与之关联. 在一些系统中,多个这样的值映射可以与密钥相关联,并且这些映射被称为“列族”(其中值映射键被称为“列”).

另一组也称为“柱状数据库”的技术的特征在于它如何在磁盘或内存中存储数据 - 而不是以传统方式存储数据,其中给定密钥的所有列值彼此相邻存储,“逐行”,这些系统将所有值相互存储. 因此,需要更多的工作来获取给定键的所有列,但是需要更少的工作来获取给定列的所有值.

前一组在这里被称为“关键地图数据模型”. 这些和之间的界限 Key-value Data Model 商店相当模糊.

后者更多地是关于存储格式而不是数据模型,列在下面 Columnar Databases.

你可以在Daniel Abadi教授的博客上阅读更多关于这种区别的信息: Distinguishing two major types of Column Stores.

  • Apache Accumulo - 基于Hadoop构建的分布式键/值存储.
  • Apache Cassandra - 受BigTable启发的面向列的分布式数据存储区.
  • Apache HBase - 受BigTable启发的面向列的分布式数据存储区.
  • Baidu Tera - 受BigTable启发的互联网规模数据库.
  • Facebook HydraBase - Facebook制作HBase的演变.
  • Google Cloud Datastore - 是一个完全托管的无模式数据库,用于在BigTable上存储非关系数据.
  • Hypertable - 受BigTable启发的面向列的分布式数据存储区.
  • InfiniDB - 通过MySQL接口访问,并使用大规模并行处理来并行化查询.
  • Tephra - HBase的交易.
  • Twitter Manhattan - 用于Twitter规模的实时,多租户分布式数据库.
  • ScyllaDB - 使用C ++编写的面向列的分布式数据存储区,与Apache Cassandra完全兼容.

Key-value Data Model

  • Aerospike - NoSQL闪存优化,内存中. 开源和“C'中的服务器代码(不是J​​ava或Erlang)经过精确调整,以避免上下文切换和内存复制.”
  • Amazon DynamoDB - 分布式键/值存储,Dynamo纸张的实现.
  • Badger - Go中本地编写的快速,简单,高效且持久的键值存储.
  • Bolt - Go的嵌入式键值数据库.
  • BTDB - .Net中的键值数据库,包括对象DB层,RPC,动态IL等等
  • BuntDB - Go的快速,可嵌入,内存中键/值数据库,具有自定义索引和地理空间支持.
  • Edis - 是Redis的协议兼容服务器替代品.
  • ElephantDB - 专门从Hadoop导出数据的分布式数据库.
  • EventStore - 分布式时间序列数据库.
  • GridDB - 适用于存储在时间序列中的传感器数据.
  • HyperDex - 可扩展的下一代键值和文档存储,具有多种功能,包括一致性,容错性和高性能.
  • Ignite - 是一个内存中的键值数据存储,提供完全符合SQL的数据访问,可以选择由磁盘存储支持.
  • LinkedIn Krati - 是一个简单的持久数据存储,具有非常低的延迟和高吞吐量.
  • Linkedin Voldemort - 分布式密钥/值存储系统.
  • Oracle NoSQL Database - Oracle Corporation的分布式键值数据库.
  • Redis - 在内存键值数据存储区中.
  • Riak - 分散的数据存储区.
  • Storehaus - 通过Twitter使用异步键值存储库的库.
  • SummitDB - 内存中的NoSQL键/值数据库,具有磁盘持久性并使用Raft一致性算法.
  • Tarantool - 高效的NoSQL数据库和Lua应用服务器.
  • TiKV - 由Rust提供支持且受Google Spanner和HBase启发的分布式键值数据库.
  • Tile38 - 地理定位数据存储,空间索引和实时地理围栏,支持各种对象类型,包括纬度/经度点,边界框,XYZ切片,Geohashes和GeoJSON
  • TreodeDB - 复制和分片的键值存储,并提供原子多行写入.

Graph Data Model

  • AgensGraph - 用于现代复杂数据环境的新一代多模型图数据库.
  • Apache Giraph - 基于Hadoop实现Pregel.
  • Apache Spark Bagel - 实施Pregel,Spark的一部分.
  • ArangoDB - 多模型分布式数据库.
  • DGraph - 可扩展,分布式,低延迟,高吞吐量的图形数据库,旨在提供谷歌生产水平的规模和吞吐量,具有足够低的延迟,可以提供超过数TB的结构化数据的实时用户查询.
  • EliasDB - 基于轻量级图形的数据库,不需要任何第三方库.
  • Facebook TAO - TAO是分布式数据存储,在Facebook上广泛用于存储和提供社交图.
  • GCHQ Gaffer - GCHQ的Gaffer是一个框架,可以轻松存储节点和边缘有统计数据的大型图形.
  • Google Cayley - 开源图数据库.
  • Google Pregel - 图形处理框架.
  • GraphLab PowerGraph - 核心C ++ GraphLab API以及基于GraphLab API构建的高性能机器学习和数据挖掘工具包的集合.
  • GraphX - Spark上的弹性分布式图形系统.
  • Gremlin - 图形遍历语言.
  • Infovore - 以RDF为中心的Map / Reduce框架.
  • Intel GraphBuilder - 在Hadoop之上构建大型图形的工具.
  • JanusGraph - 开源,分布式图形数据库 有多个存储后端选项(Bigtable,HBase,Cassandra等) 和索引后端(Elasticsearch,Solr,Lucene).
  • MapGraph - GPU上的大规模并行图处理.
  • Microsoft Graph Engine - 分布式内存数据处理引擎,以强类型内存键值存储和通用分布式计算引擎为基础.
  • Neo4j - 完全用Java编写的图形数据库.
  • OrientDB - 文档和图形数据库.
  • Phoebus - 大规模图处理的框架.
  • Titan - 分布式图形数据库,构建于Cassandra之上.
  • Twitter FlockDB - 分布式图形数据库.
  • NodeXL - Microsoft®Excel®2007,2010,2013和2016的免费开源模板,可以轻松浏览网络图.

Columnar Databases

注意请阅读说明 Key-Map Data Model 部分.

  • Columnar Storage - 对什么是柱状存储以及何时需要它的说明.
  • Actian Vector - 面向列的分析数据库.
  • C-Store - 面向列的DBMS.
  • ClickHouse - 面向开源列的数据库管理系统,允许实时生成分析数据报告.
  • EventQL - 面向列的分布式数据库,专为大规模事件收集和分析而构建.
  • MonetDB - 列存储数据库.
  • Parquet - Hadoop的列式存储格式.
  • Pivotal Greenplum - 专门构建的专用分析数据仓库,提供柱状引擎以及传统的基于行的引擎.
  • Vertica - 旨在管理大量,快速增长的数据量,并在用于数据仓库时提供非常快速的查询性能.
  • SQream DB - GPU驱动的大数据数据库,专为分析和数据仓库而设计,符合ANSI-92标准的SQL,适用于10TB到1PB的数据集.
  • Google BigQuery - 谷歌的云产品以他们在Dremel上的开创性工作为后盾.
  • Amazon Redshift - 亚马逊的云产品,也基于柱状数据存储后端.
  • IndexR - 一种开源列式存储格式,用于快速实时分析大数据.
  • LocustDB - 旨在为商用硬件设置查询性能的新标准的实验性分析数据库.

NewSQL Databases

  • Actian Ingres - 商业支持的开源SQL关系数据库管理系统.
  • ActorDB - 具有KV存储的可伸缩性的分布式SQL数据库,同时保持关系数据库的查询功能.
  • Amazon RedShift - 基于PostgreSQL的数据仓库服务.
  • BayesDB - 面向统计的SQL数据库.
  • Bedrock - 在SQLite上构建的简单,模块化,联网和分布式事务层.
  • CitusDB - 通过分片和复制扩展PostgreSQL.
  • Cockroach - 可扩展,地理复制,事务数据存储.
  • Comdb2 - 基于乐观并发控制技术的集群RDBMS.
  • Datomic - 分布式数据库,旨在实现可扩展,灵活和智能的应用程序
  • FoundationDB - 受F1启发的分布式数据库.
  • Google F1 - 基于Spanner构建的分布式SQL数据库.
  • Google Spanner - 全球分布的半关系数据库.
  • H-Store - 是一个实验性的主内存并行数据库管理系统,针对在线事务处理(OLTP)应用程序进行了优化.
  • Haeinsa - 基于Percolator的HBase线性可扩展多行,多表事务库.
  • HandlerSocket - MySQL / MariaDB的NoSQL插件.
  • InfiniSQL - 无限可扩展RDBMS.
  • Map-D - GPU内存数据库,大数据分析和可视化平台.
  • MemSQL - 在内存中SQL数据库,在闪存上优化了柱状存储.
  • NuoDB - 符合SQL / ACID的分布式数据库.
  • Oracle TimesTen in-Memory Database - 具有持久性和可恢复性的内存中关系数据库管理系统.
  • Pivotal GemFire XD - 低延迟,内存中,分布式SQL数据存储. 为内存表数据提供SQL接口,可在HDFS中保留.
  • SAP HANA - 是一个内存中,面向列的关系数据库管理系统.
  • SenseiDB - 分布式,实时,半结构化数据库.
  • Sky - 用于灵活,高性能的行为数据分析的数据库.
  • SymmetricDS - 用于文件和数据库同步的开源软件.
  • TiDB - TiDB是一个分布式SQL数据库. 灵感来自Google F1的设计.
  • VoltDB - 声称是最快的内存数据库.

Time-Series Databases

  • Axibase Time Series Database - HBase之上的集成时间序列数据库,内置可视化,规则引擎和SQL支持.
  • Chronix - 时间序列存储,用于存储高度压缩的时间序列和快速访问时间.
  • Cube - 使用MongoDB存储时间序列数据.
  • Heroic - 是一个基于Cassandra和Elasticsearch的可扩展时间序列数据库.
  • InfluxDB - 分布式时间序列数据库.
  • IronDB - 可扩展的通用时间序列数据库.
  • Kairosdb - 类似于OpenTSDB但允许使用Cassandra.
  • M3DB - a distributed time series database that can be used for storing realtime metrics at long retention.
  • Newts - 基于Apache Cassandra的时间序列数据库.
  • OpenTSDB - 在HBase之上的分布式时间序列数据库.
  • Prometheus - 时间序列数据库和服务监控系统.
  • Beringei - Facebook的内存时间序列数据库.
  • TrailDB - 用于存储和查询一系列事件的有效工具.
  • Druid 面向列的分布式数据存储非常适合为交互式应用程
  • Riak-TS Riak TS是唯一专门针对物联网和时间序列数据进行优化的企业级NoSQL时间序列数据库.
  • Akumuli Akumuli是一个数字时间序列数据库. 它可用于实时捕获,存储和处理时间序列数据. “akumuli”这个词可以从世界语翻译为“积累”.
  • Rhombus Cassandra的时间序列对象存储,用于处理构建宽行索引的所有复杂性.
  • Dalmatiner DB 快速分布式度量数据库
  • Blueflood 用于摄取和处理时间序列数据的分布式系统
  • Timely Timely是一个时间序列数据库应用程序,提供基于Accumulo和Grafana的时间序列数据的安全访问.
  • SiriDB 具有集群功能的高度可扩展,强大且快速的开源时间序列数据库.
  • Thanos - Thanos是一组组件,用于使用多个(现有)Prometheus部署创建具有无限存储容量的高可用度量系统.
  • VictoriaMetrics - 与Prometheus兼容的快速,可扩展且资源有效的开源TSDB. 包括单节点和群集版本

SQL-like processing

Data Ingestion

  • Amazon Kinesis - 大规模实时处理流数据.
  • Amazon Web Services Glue - 无服务器完全托管的提取,转换和加载(ETL)服务
  • Apache Chukwa - 数据收集系统.
  • Apache Flume - 用于管理大量日志数据的服务.
  • Apache Kafka - 分布式发布 - 订阅消息传递系统.
  • Apache NiFi - Apache NiFi是一个集成的数据物流平台,用于自动化不同系统之间的数据移动.
  • Apache Sqoop - 在Hadoop和结构化数据存储之间传输数据的工具.
  • Cloudera Morphlines - 帮助ETL到Solr,HBase和HDFS的框架.
  • Embulk - 开源批量数据加载器,可帮助在各种数据库,存储,文件格式和云服务之间进行数据传输.
  • Facebook Scribe - 流式日志数据聚合器.
  • Fluentd - 收集事件和日志的工具.
  • Google Photon - 地理上分布式系统,用于实时连接多个连续流动的数据流,具有高可扩展性和低延迟.
  • Heka - 开源流处理软件系统.
  • HIHO - 用于将不同数据源与Hadoop连接的框架.
  • Kestrel - 分布式消息队列系统.
  • LinkedIn Databus - 数据库的更改捕获事件流.
  • LinkedIn Kamikaze - 用于压缩排序整数数组的实用程序包.
  • LinkedIn White Elephant - 记录聚合器和仪表板.
  • Logstash - 用于管理事件和日志的工具.
  • Netflix Suro - 根据Chukwa记录像Storm和Samza这样的agregattor.
  • Pinterest Secor - 是一项实现Kafka日志持久性的服务.
  • Linkedin Gobblin - linkedin的通用数据提取框架.
  • Skizze - 草绘数据存储以处理使用概率数据结构进行计数和草绘的所有问题.
  • StreamSets Data Collector - 使用简单易用的IDE连续大数据摄取基础设施.
  • Yahoo Pulsar - 分布式pub-sub消息传递平台,具有非常灵活的消息传递模型和直观的客户端API.
  • Alooma - 数据管道即服务,可将MySQL等数据源移动到数据仓库中.

Service Programming

  • Akka Toolkit - JVM上的分布式和容错事件驱动应用程序的运行时.
  • Apache Avro - 数据序列化系统.
  • Apache Curator - Apache ZooKeeper的Java库.
  • Apache Karaf - 在任何OSGi框架之上运行的OSGi运行时.
  • Apache Thrift - 构建二进制协议的框架.
  • Apache Zookeeper - 流程管理的集中服务.
  • Google Chubby - 松散耦合分布式系统的锁定服务.
  • Hydrosphere Mist - 用于将Apache Spark分析作业和机器学习模型公开为实时,批处理或响应式Web服务的服务.
  • Linkedin Norbert - 集群经理.
  • Mara - 简单易懂的ETL框架,介于普通脚本和Apache Airflow之间
  • OpenMPI - 消息传递框架.
  • Serf - 用于服务发现和编排的分散式解决方案.
  • Spotify Luigi - 用于构建批处理作业的复杂管道的Python包. 它处理依赖项解析,工作流管理,可视化,处理故障,命令行集成等等.
  • Spring XD - 分布式和可扩展的系统,用于数据摄取,实时分析,批处理和数据导出.
  • Twitter Elephant Bird - 用于处理LZOP压缩数据的库.
  • Twitter Finagle - JVM的异步网络堆栈.

Scheduling

Machine Learning

  • Azure ML Studio - 基于云的AzureML,R,Python机器学习平台
  • brain - JavaScript中的神经网络.
  • Cloudera Oryx - 实时大规模机器学习.
  • Concurrent Pattern - Cascading的机器学习库.
  • convnetjs - 在Javascript中深度学习. 在您的浏览器中训练卷积神经网络(或普通的).
  • DataVec - 用于Java和Scala深度学习的矢量化和数据预处理库. Deeplearning4j生态系统的一部分.
  • Deeplearning4j - 快速,开放的JVM深度学习(Java,Scala,Clojure). 由C ++库提供支持的神经网络配置层. 使用Spark和Hadoop在多个GPU和CPU上训练网络.
  • Decider - Ruby中的灵活和可扩展的机器学习.
  • ENCOG - 机器学习框架,支持各种高级算法,以及支持类来规范化和处理数据.
  • etcML - 机器学习的文本分类.
  • Etsy Conjecture - 可扩展的机器学习在烫伤.
  • Feast - 用于管理,发现和访问机器学习功能的功能存储. 盛宴为模型训练和模型服务提供了一致的特征数据视图.
  • GraphLab Create - Python中的机器学习平台,具有广泛的ML工具包,数据工程和部署工具.
  • H2O - 使用Hadoop进行统计,机器学习和数学运行时. R和Python.
  • Keras - An intuitive neural net API inspired by Torch that runs atop Theano and Tensorflow.
  • Lambdo 是一个工作流引擎,通过在一个分析管道中组合(i)特征工程和机器学习(ii)模型训练和预测(iii)表格填充和通过用户定义(Python)函数的列评估,显着简化数据处理和分析.
  • Mahout - 用于Hadoop的Apache支持的机器学习库.
  • MLbase - 用于BDAS堆栈的分布式机器学习库.
  • MLPNeuralNet - 适用于iOS和Mac OS X的快速多层感知器神经网络库.
  • MOA - MOA实时进行大数据流挖掘,并进行大规模机器学习.
  • MonkeyLearn - 文本挖掘变得简单. 从文本中提取和分类数据.
  • ND4J - A matrix library for the JVM. Numpy for Java.
  • nupic - 用于智能计算的Numenta平台:一个基于大脑的机器智能平台,以及基于皮层学习算法的生物精确神经网络.
  • PredictionIO - Hadoop,Mahout和Cascading上的机器学习服务器buit.
  • RL4J - Java和Scala的强化学习. 包括Deep-Q学习和A3C算法,并与Open AI的健身房集成. 在Deeplearning4j生态系统中运行.
  • SAMOA - 分布式流媒体机器学习框架.
  • scikit-learn - scikit-learn:Python中的机器学习.
  • Spark MLlib - 一些常见的机器学习(ML)功能的Spark实现.
  • Sibyl - Google大规模机器学习系统.
  • TensorFlow - 来自Google的图书馆,用于使用数据流图进行机器学习.
  • Theano - 蒙特利尔大学支持的以Python为中心的机器学习库.
  • Torch - 由纽约大学和Facebook支持的具有Lua API的深度学习库.
  • Velox - 用于提供机器学习预测的系统.
  • Vowpal Wabbit - 由微软和雅虎赞助的学习系统!
  • WEKA - suite of machine learning software.
  • BidMach - CPU和GPU加速的机器学习库.

Benchmarking

Security

System Deployment

Applications

  • 411 - 由于计划搜索Elasticsearch而导致的警报管理Web应用程序.
  • Adobe spindle - 使用Scala,Spark和Parquet进行下一代Web分析处理.
  • Apache Kiji - 基于HBase实时收集和分析数据的框架.
  • Apache Metron - 集成各种开源大数据技术的平台,为安全监控和分析提供集中的工具.
  • Apache Nutch - 开源网络爬虫.
  • Apache OODT - 为NASA的科学档案捕获,处理和共享数据.
  • Argus - 时间序列监控和警报平台.
  • AthenaX - 流分析平台,使用户能够使用结构化查询语言(SQL)运行生产质量的大规模流分析.
  • Atlas - 用于管理维度时间序列数据的后端.
  • Countly - 基于Node.js和MongoDB的开源移动和网络分析平台.
  • Domino - 运行,扩展,共享和部署模型 - 无需任何基础架构.
  • Eclipse BIRT - 基于Eclipse的报告系统.
  • ElastAert - ElastAlert是一个简单的框架,用于警告ElasticSearch中的数据中的异常,尖峰或其他感兴趣的模式.
  • Eventhub - 开源事件分析平台.
  • Hermes - 构建在Kafka之上的异步消息代理.
  • HIPI Library - 用于在Hadoop的MapReduce上执行图像处理任务的API.
  • Hunk - 针对Hadoop的Splunk分析.
  • Imhotep - 确实是大规模分析平台.
  • Jupyter - 跨所有编程语言的交互式数据科学和科学计算的笔记本和项目应用程序.
  • MADlib - 用于分析数据的RDBMS的数据处理库.
  • Kapacitor - 用于处理,监控和警告时间序列数据的开源框架.
  • Kylin - 来自eBay的开源分布式分析引擎.
  • PivotalR - 关于Pivotal HD / HAWQ和PostgreSQL的R.
  • Rakam - 由Postgresql,Kinesis和PrestoDB提供支持的开源实时自定义分析平台.
  • Qubole - 自动扩展Hadoop集群,内置数据连接器.
  • Sense - 用于数据科学和大数据分析的云平台.
  • SnappyData - 用于实时运营分析的分布式内存数据存储,在单个集成集群中提供基于Spark构建的流分析,OLTP(在线事务处理)和OLAP(在线分析处理).
  • Snowplow - 由Hadoop,Kinesis,Redshift和Postgres提供支持的企业级Web和事件分析.
  • SparkR - Spark的R前端.
  • Splunk - 机器生成数据的分析器.
  • Sumo Logic - 基于云的分析器,用于机器生成的数据.
  • Talend - YARN,Hadoop,HBASE,Hive,HCatalog和Pig的统一开源环境.
  • Warp - 通过示例工具查询大数据(OS X app)

Search engine and framework

  • Apache Lucene - 搜索引擎库.
  • Apache Solr - Apache Lucene的搜索平台.
  • Elassandra - 是一个Elasticsearch的分支,经过修改,可以在Apache Cassandra上运行,具有可扩展且灵活的对等体系结构.
  • ElasticSearch - 基于Apache Lucene的搜索和分析引擎.
  • Enigma.io - 免费增强的Web应用程序,用于浏览,过滤,分析,搜索和导出从Web上抓取的大量数据集.
  • Facebook Unicorn - 社交图搜索平台.
  • Google Caffeine - 连续索引系统.
  • Google Percolator - 连续索引系统.
  • [TeraGoogle]() - 大型搜索索引.
  • HBase Coprocessor - 实施Percolator,HBase的一部分.
  • LinkedIn Bobo - 是纯粹用Java编写的分面搜索实现,是Apache Lucene的扩展.
  • LinkedIn Cleo - 是一个灵活的软件库,用于实现部分,无序和实时预先搜索的快速开发.
  • LinkedIn Galene - LinkedIn的搜索架构.
  • LinkedIn Zoie - 是一个用Java编写的实时搜索/索引系统.
  • MG4J - MG4J(管理Gigabytes for Java)是一个用Java编写的大型文档集的全文搜索引擎. 它具有高度可定制性,高性能,并提供最先进的功能和新的研究算法.
  • Sphinx Search Server - 全文搜索引擎.
  • Vespa - 是大数据集上低延迟计算的引擎. 它存储和索引您的数据,以便可以在服务时执行对数据的查询,选择和处理.

MySQL forks and evolutions

  • Amazon RDS - 亚马逊云中的MySQL数据库.
  • Drizzle - MySQL 6.0的演变.
  • Google Cloud SQL - 谷歌云中的MySQL数据库.
  • MariaDB - 增强的,直接替代MySQL.
  • MySQL Cluster - 使用NDB Cluster存储引擎的MySQL实现.
  • Percona Server - 增强的,直接替代MySQL.
  • ProxySQL - MySQL的高性能代理.
  • TokuDB - TokuDB是MySQL和MariaDB的存储引擎.
  • WebScaleSQL - 是来自几家公司的工程师之间的合作,这些公司在大规模运行MySQL时面临类似的挑战.

PostgreSQL forks and evolutions

  • HadoopDB - MapReduce和DBMS的混合体.
  • IBM Netezza - 高性能数据仓库设备.
  • Postgres-XL - 基于PostgreSQL的可扩展开源数据库集群.
  • RecDB - 完全在PostgreSQL内部构建的开源推荐引擎.
  • Stado - 仅针对数据仓库和数据集市应用的开源MPP数据库系统.
  • Yahoo Everest - 由PostgreSQL派生的多peta字节数据库/ MPP.
  • TimescaleDB - 针对快速摄取和复杂查询而优化的开源时间序列数据库
  • PipelineDB - 流式SQL数据库. 一个开源关系数据库,它在流上连续运行SQL查询,逐步将结果存储在表中

Memcached forks and evolutions

Embedded Databases

  • Actian PSQL - Pervasive Software开发的符合ACID标准的DBMS,针对嵌入应用程序进行了优化.
  • BerkeleyDB - 一个软件库,为键/值数据提供高性能的嵌入式数据库.
  • HanoiDB - Erlang LSM BTree Storage.
  • LevelDB - 在Google编写的快速键值存储库,提供从字符串键到字符串值的有序映射.
  • LMDB - Symas开发的超快速,超紧凑的键值嵌入式数据存储.
  • RocksDB - 基于LevelDB的可嵌入持久键值存储,用于快速存储.

Business Intelligence

  • BIME Analytics - 云中的商业智能平台.
  • Blazer - business intelligence made simple.
  • Chartio - 精益商业智能平台,可视化和探索您的数据.
  • datapine - 云中的自助商业智能工具.
  • GoodData - 数据产品和嵌入式分析平台.
  • Jaspersoft - 强大的商业智能套件.
  • Jedox Palo - 可定制的商业智能平台.
  • Jethrodata - 互动大数据分析.
  • Metabase - 向公司中的每个人提供商业智能和分析的最简单,最快捷的方法.
  • Microsoft - 商业智能软件和平台.
  • Microstrategy - 用于商业智能,移动智能和网络应用的软件平台.
  • Numeracy - 快速,干净的SQL客户端和商业智能.
  • Pentaho - 商业智能平台.
  • Qlik - 商业智能和分析平台.
  • Redash - 开源商业智能平台,支持多个数据源和计划查询.
  • Saiku - 开源分析平台.
  • SpagoBI - 开源商业智能平台.
  • SparklineData SNAP - 由Apache Spark提供支持的现代BI平台.
  • Tableau - 商业智能平台.
  • Zoomdata - 大数据分析.

Data Visualization

  • Airpal - PrestoDB的Web UI.
  • AnyChart - 快速,简单和灵活的JavaScript(HTML5)图表库,具有纯JS API.
  • Arbor - 使用web worker和jQuery的图形可视化库.
  • Banana - 可视化存储在Solr中的日志和带时间戳的数据. Kibana港.
  • Bloomery - Impala的Web UI.
  • Bokeh - 功能强大的Python交互式可视化库,面向现代Web浏览器进行演示,目标是以D3.js的风格提供优雅,简洁的新颖图形构造,同时通过非常大的流媒体或流媒体提供高性能交互功能数据集.
  • C3 - 基于D3的可重用图表库
  • CartoDB - 地理空间数据库的开源或免费增值托管,具有强大的前端编辑功能和强大的API.
  • chartd - 仅具有img标签的响应式视网膜兼容图表.
  • Chart.js - 开源HTML5图表可视化.
  • Chartist.js - 另一个开源HTML5图表可视化.
  • Crossfilter - 用于在浏览器中探索大型多变量数据集的JavaScript库. 适用于dc.js和d3.js.
  • Cubism - 用于时间序列可视化的JavaScript库.
  • Cytoscape - 用于可视化复杂网络的JavaScript库.
  • DC.js - 使用d3.js生成的使用crossfilter本地工作的维度图表. 非常适合将图表/其他元数据连接到D3中的悬停事件.
  • D3 - 用于操作文档的javaScript库.
  • D3.compose - 从可重用的图表和组件中构建复杂的,数据驱动的可视化.
  • D3Plus - d3.js的一组相当强大的可重用图表和样式.
  • DevExtreme React Chart - 用于Bootstrap和Material Design的基于插件的高性能React图表.
  • Echarts - Baidus企业图表.
  • Envisionjs - 动态HTML5可视化.
  • FnordMetric - 编写返回SVG图表而不是表格的SQL查询
  • Frappe Charts - GitHub启发的简单和现代SVG图表,为Web提供零依赖.
  • Freeboard - 用于物联网和其他网络混搭的笔源实时仪表板构建器.
  • Gephi - 屡获殊荣的开源平台,用于可视化和操作大型图形和网络连接. 这就像Photoshop,但对于图表. 适用于Windows和Mac OS X.
  • Google Charts - 简单的图表API.
  • Grafana - 石墨仪表板前端,编辑器和图形作曲家.
  • Graphite - 可扩展的实时图形.
  • Highcharts - 简单灵活的图表API.
  • IPython - 为交互式计算提供丰富的架构.
  • Kibana - 可视化日志和带时间戳的数据
  • Lumify - 开源大数据分析和可视化平台
  • Matplotlib - 用Python绘图.
  • Metricsgraphic.js - 基于D3构建的库,针对时间序列数据进行了优化
  • NVD3 - d3.js的图表组件
  • Peity - 渐进式SVG条形图,折线图和饼图.
  • Plot.ly - 易于使用的Web服务,可以快速创建复杂的图表,从热图到直方图. 使用Plotly的在线电子表格上传数据以创建和设置图表. 分叉别人的情节.
  • Plotly.js 开源的javascript图形库,可以提供强大的功能.
  • Recline - 简单但功能强大的库,用于在纯Javascript和HTML中构建数据应用程序.
  • Redash - 用于查询和可视化数据的开源平台.
  • ReCharts - 基于React组件构建的可组合图表库
  • Shiny - R的Web应用程序框架
  • Sigma.js - 专用于图形绘制的JavaScript库.
  • Superset - 数据探索平台,设计为直观,直观和交互式,可以轻松切片,切块和可视化数据,并以思维速度执行分析.
  • Vega - 可视化语法.
  • Zeppelin - 笔记本式协作数据分析.
  • Zing Charts - 用于大数据的JavaScript图表库.

Internet of things and sensor data

  • Apache Edgent (Incubating) - 编程模型和微内核样式运行时,可嵌入网关和小型边缘设备,在边缘设备上实现本地,实时分析.
  • Azure IoT Hub - 基于云的双向监控和消息中心
  • TempoIQ - 基于云的传感器分析.
  • 2lemetry - 物联网平台.
  • Pubnub - 数据流网络
  • ThingWorx - 智能系统的快速开发和连接
  • IFTTT - 如果这样那么
  • Evrything- 使产品变得聪明
  • NetLytics - 用于处理Spark网络数据的分析平台.

Interesting Readings

Interesting Papers

2015 - 2016

  • 2015 - Facebook - 一万亿边缘:Facebook规模的图形处理.

2013 - 2014

  • 2014 - 斯坦福 - 大规模数据集的挖掘.
  • 2013 - Microsoft - 云中大数据的可扩展渐进式分析.
  • 2013 - Metamarkets - 德鲁伊:一个实时分析数据存储.
  • 2013 - Google - 在线,F1中的异步架构更改.
  • 2013 - Google - MillWheel:Internet规模的容错流处理.
  • 2013 - Facebook - Scuba:在Facebook上潜入数据.
  • 2013 - Facebook - 独角兽:搜索社交图的系统.
  • 2013 - Facebook - 在Facebook上扩展Memcache.

2011 - 2012

  • 2012 - Twitter - 统一记录基础设施 在Twitter上进行数据分析.
  • 2012 - AMPLab - 使用Spark快速和交互式分析Hadoop数据.
  • 2012 - Microsoft - Paxos复制状态机作为高性能数据存储的基础.
  • 2012 - 微软 - Paxos Made Parallel.
  • 2012 - AMPLab - BlinkDB:​​对超大数据的有界错误和有限响应时间的查询.
  • 2012 - Google - 每次点击鼠标处理一万亿个单元格.

2001 - 2010

  • 2010 - Facebook - 在Haystack找到一针:Facebook的照片存储.
  • 2010 - Google - Pregel:用于大规模图形处理的系统.
  • 2010 - Yahoo - S4:分布式流计算平台.
  • 2009 - HadoopDB:用于分析工作负载的MapReduce和DBMS技术的架构混合体.
  • 2008 - AMPLab - Chukwa:一个大型监控系统.
  • 2007 - 亚马逊 - Dynamo:亚马逊的高可用键值商店.

Videos

  • Spark in Motion - Spark in Motion教您如何使用Spark进行批处理和流式数据分析.

Books

Streaming

  • Data Science at Scale with Python and Dask - 使用Python和Dask进行规模化的数据科学教您如何构建可处理大量数据的分布式数据项目.
  • Streaming Data - Streaming Data介绍了流媒体和实时数据系统的概念和要求.
  • Storm Applied - Storm Applied是使用Apache Storm处理与处理和分析实时数据流相关的实际任务的实用指南.
  • Fundamentals of Stream Processing: Application Design, Systems, and Analytics - 这一全面的实用指南结合了基本构建模块和流处理方面的新兴研究,是应用程序设计人员,系统构建人员,分析开发人员以及该领域的学生和研究人员的理想选择.
  • Stream Data Processing: A Quality of Service Perspective - 提出适用于流和复杂事件处理的新范例.
  • Unified Log Processing - 统一日志处理是实现业务中事件流(Kafka或Kinesis)统一日志的实用指南
  • Kafka Streams in Action - Kafka Streams in Action教您了解流入Kafka平台的数据流处理所需的一切,让您专注于从数据中获取更多信息,而不会浪费时间或精力.
  • Big Data - 大数据教您使用一种架构来构建大数据系统,该架构利用集群硬件以及专门用于捕获和分析Web级数据的新工具.
  • Spark in Action & Spark in Action 2nd Ed. - Spark in Action教您使用Spark有效处理批量和流数据所需的理论和技能. 完全更新Spark 2.0.
  • Kafka in Action - Kafka in Action是一个快节奏的介绍,与Kafka合作的每个方面都需要真正获益.
  • Fusion in Action - Fusion in Action教您构建功能齐全的数据分析管道,包括文档和数据搜索以及分布式数据集群.
  • Reactive Data Handling - Reactive Data Handling is a collection of five hand-picked chapters, selected by Manuel Bernhardt, that introduce you to building reactive applications capable of handling real-time processing with large data loads--free eBook!

Distributed systems

Graph Based approach

Data Visualization

Other Awesome Lists