大数据

Awesome Big Data

Awesome

精选的很棒的大数据框架,资源和其他很棒的清单. 受启发 awesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.

永远欢迎您的贡献!

RDBMS

  • MySQL The world's most popular open source database.
  • PostgreSQL 世界上最先进的开源数据库.
  • Oracle Database -对象关系数据库管理系统.
  • Teradata -高性能MPP数据仓库平台.

Frameworks

  • Bistro -用于批处理和流分析的通用数据处理引擎. 它基于一种新颖的数据模型,该模型通过函数表示数据,并通过列操作处理数据,这与传统方法(如MapReduce或SQL)中仅具有设置操作相反.
  • IBM Streams -分布式处理和实时分析的平台. 集成了大数据生态系统中的许多流行技术(Kafka,HDFS,Spark等)
  • Apache Hadoop -分布式处理的框架. 集成MapReduce(并行处理),YARN(作业调度)和HDFS(分布式文件系统).
  • Tigon -高吞吐量实时流处理框架.
  • Pachyderm -Pachyderm是一个基于Docker和Kubernetes的数据存储平台,可提供可重现的数据处理和分析.
  • Polyaxon -用于可重现和可扩展的机器学习和深度学习的平台.

Distributed Programming

  • AddThis Hydra -最初由AddThis开发的分布式数据处理和存储系统.
  • AMPLab SIMR -在Hadoop MapReduce v1上运行Spark.
  • Apache APEX -用于大数据流和批处理的统一企业平台.
  • Apache Beam -用于定义和执行数据处理工作流的统一模型和特定于语言的SDK集.
  • Apache Crunch -一个简单的Java API,用于执行诸如在简单MapReduce上实现乏味的加入和数据聚合之类的任务.
  • Apache DataFu -LinkedIn开发的Hadoop和Pig用户定义功能集合.
  • Apache Flink -高性能运行时和自动程序优化.
  • Apache Gearpump -基于Akka的实时大数据流引擎.
  • Apache Gora -内存数据模型和持久性框架.
  • Apache Hama -BSP(批量同步并行)计算框架.
  • Apache MapReduce -用于在集群上使用并行分布式算法处理大型数据集的编程模型.
  • Apache Pig -用于表达Hadoop数据分析程序的高级语言.
  • Apache REEF -可保留的评估程序执行框架,以简化和统一大数据系统的较低层.
  • Apache S4 -流处理框架,实现S4.
  • Apache Spark -内存集群计算框架.
  • Apache Spark Streaming -流处理框架,Spark的一部分.
  • Apache Storm -也可以在YARN上通过Twitter处理流的框架.
  • Apache Samza -基于Kafka和YARN的流处理框架.
  • Apache Tez -基于YARN构建的用于执行任务的复杂DAG(有向无环图)的应用程序框架.
  • Apache Twill -基于YARN的抽象,降低了开发分布式应用程序的复杂性.
  • Baidu Bigflow -允许编写分布式计算程序的接口,该程序提供许多简单,灵活,功能强大的API,可轻松处理任何规模的数据.
  • Cascalog -数据处理和查询库.
  • Cheetah -基于MapReduce的高​​性能,自定义数据仓库.
  • Concurrent Cascading -Hadoop上的数据管理/分析框架.
  • Damballa Parkour -用于Clojure的MapReduce库.
  • Datasalt Pangool -替代MapReduce范例.
  • DataTorrent StrAM -实时引擎旨在以尽可能不受阻碍的方式启用分布式,异步,实时内存中大数据计算,而开销却最小,并且对性能没有影响.
  • Facebook Corona -Hadoop增强功能,可消除单点故障.
  • Facebook Peregrine -Map Reduce框架.
  • Facebook Scuba -分布式内存数据存储.
  • Google Dataflow -创建数据管道以帮助他们评估,转换和分析数据.
  • Google MapReduce -地图减少框架.
  • Google MillWheel -容错流处理框架.
  • IBM Streams -分布式处理和实时分析的平台. 提供了用于高级分析(如地理空间,时间序列等)的工具箱.
  • JAQL -用于处理结构化,半结构化和非结构化数据的声明性编程语言.
  • Kite -是一组库,工具,示例和文档,旨在简化在Hadoop生态系统之上构建系统的过程.
  • Metamarkets Druid -大型数据集实时分析的框架.
  • Netflix PigPen -Clojure的map-reduce,可编译为Apache Pig.
  • Nokia Disco -诺基亚开发的MapReduce框架.
  • Onyx -面向云的分布式计算.
  • Pinterest Pinlater -异步作业执行系统.
  • Pydoop -适用于Hadoop的Python MapReduce和HDFS API.
  • Ray -用于构建和运行分布式应用程序的快速,简单的框架.
  • Rackerlabs Blueflood -多租户分布式度量处理系统
  • Skale -NodeJS中的高性能分布式数据处理.
  • Stratosphere -通用集群计算框架.
  • Streamdrill -可用于统计不同时间段内事件流的活动并找到最活跃的事件流.
  • streamsx.topology -支持在Java,Python或Scala中构建IBM Streams应用程序的库.
  • Tuktu -使用Scala,Akka和Play构建的易于使用的批处理和流计算平台!
  • Twitter Heron -Heron是Twitter的一种实时,分布式,容错流处理引擎,取代了Storm.
  • Twitter Scalding -用于Map Reduce作业的Scala库,基于层叠.
  • Twitter Summingbird -通过Twitter流式传输带有缩放和风暴的MapReduce.
  • Twitter TSAR -Twitter的TimeSeries AggregatoR.
  • Wallaroo -超快速,弹性的数据处理引擎. 大数据或快速数据-不必大惊小怪,不需要Java.

Distributed Filesystem

Distributed Index

  • Pilosa 开源分布式位图索引,可极大地加速跨多个海量数据集的查询.

Document Data Model

  • Actian Versant -商业面向对象的数据库管理系统.
  • Crate Data -是开源的大规模可扩展数据存储. 它需要零管理.
  • Facebook Apollo -Facebook的类似Paxos的NoSQL数据库.
  • jumboDB -通过Hadoop面向文档的数据存储.
  • LinkedIn Espresso -水平可扩展的面向文档的NoSQL数据存储.
  • MarkLogic -与模式无关的企业NoSQL数据库技术.
  • Microsoft Azure DocumentDB -带有对MongoDB的协议支持的NoSQL云数据库服务
  • MongoDB -面向文档的数据库系统.
  • RavenDB -一个可交易的开源文档数据库.
  • RethinkDB -支持诸如表联接和分组依据之类的查询的文档数据库.

Key Map Data Model

注意:行业中存在一些术语混乱,有两种不同的名称称为“列式数据库”. 这里列出的一些分布式持久数据库是围绕“键映射”数据模型构建的:所有数据都有一个(可能是复合的)键,键-值对映射与之关联. 在某些系统中,多个这样的值映射可以与一个键相关联,并且这些映射被称为“列族”(值映射键被称为“列”).

另一组也可以称为“列数据库”的技术的区别在于,它是如何在磁盘或内存上存储数据的-而不是像传统方式那样将数据存储在给定键的所有列值彼此相邻的位置上,即“逐行”,这些系统将所有值彼此相邻存储. 因此,需要更多的工作来获取给定键的所有列,但是需要更少的工作来获取给定键的所有值.

前一组在此称为“键映射数据模型”. 这些与 Key-value Data Model 商店相当模糊.

后者是关于存储格式而不是数据模型,在下面列出 Columnar Databases.

您可以在Daniel Abadi教授的博客上了解有关此区别的更多信息: Distinguishing two major types of Column Stores.

  • Apache Accumulo -基于Hadoop构建的分布式键/值存储.
  • Apache Cassandra -受BigTable启发的面向列的分布式数据存储.
  • Apache HBase -受BigTable启发的面向列的分布式数据存储.
  • Baidu Tera -受BigTable启发的互联网规模的数据库.
  • Facebook HydraBase -Facebook开发的HBase.
  • Google Cloud Datastore - is a fully managed, schemaless database for storing non-relational data over BigTable.
  • Hypertable -受BigTable启发的面向列的分布式数据存储.
  • InfiniDB -通过MySQL接口访问,并使用大量并行处理来并行化查询.
  • Tephra -HBase的交易.
  • Twitter Manhattan -用于Twitter规模的实时,多租户分布式数据库.
  • ScyllaDB -用C ++编写的面向列的分布式数据存储,与Apache Cassandra完全兼容.

Key-value Data Model

  • Aerospike -NoSQL闪存优化的内存. 开源和“已对C语言中的服务器代码(不是J​​ava或Erlang)进行了精确调整,以避免上下文切换和内存复制.”
  • Amazon DynamoDB - distributed key/value store, implementation of Dynamo paper.
  • Badger -使用Go原生编写的快速,简单,高效且持久的键值存储.
  • Bolt -Go的嵌入式键值数据库.
  • BTDB -具有对象数据库层,RPC,动态IL等的.Net中的键值数据库
  • BuntDB -Go的快速,可嵌入的内存中键/值数据库,具有自定义索引和地理空间支持.
  • Edis -是Redis的协议兼容服务器替代品.
  • ElephantDB -专门用于从Hadoop导出数据的分布式数据库.
  • EventStore -分布式时间序列数据库.
  • GridDB -适用于按时间序列存储的传感器数据.
  • HyperDex -具有各种功能(包括一致性,容错性和高性能)的可扩展的下一代键值和文档存储.
  • Ignite -是一个内存中的键值数据存储,提供了完全的SQL兼容数据访问,可以选择由磁盘存储支持.
  • LinkedIn Krati -是一个简单的持久性数据存储,具有非常低的延迟和高吞吐量.
  • Linkedin Voldemort -分布式键/值存储系统.
  • Oracle NoSQL Database -由Oracle Corporation提供的分布式键值数据库.
  • Redis -在内存键值数据存储区中.
  • Riak -分散的数据存储.
  • Storehaus -通过Twitter与异步键值存储一起使用的库.
  • SummitDB -内存中的NoSQL键/值数据库,具有磁盘持久性并使用Raft共识算法.
  • Tarantool -高效的NoSQL数据库和Lua应用程序服务器.
  • TiKV -由Rust提供动力并受Google Spanner和HBase启发的分布式键值数据库.
  • Tile38 -地理位置数据存储,空间索引和实时地理围栏,支持多种对象类型,包括纬度/经度点,边界框,XYZ磁贴,地理哈希和GeoJSON
  • TreodeDB -键值存储,已复制和分片,并提供原子多行写入.

Graph Data Model

  • AgensGraph -用于现代复杂数据环境的新一代多模型图形数据库.
  • Apache Giraph -基于Hadoop的Pregel的实现.
  • Apache Spark Bagel -实现Pregel(Spark的一部分).
  • ArangoDB -多模型分布式数据库.
  • DGraph -可扩展,分布式,低延迟,高吞吐量的图形数据库,旨在提供Google生产级别的规模和吞吐量,并具有足够低的延迟以服务于数TB的结构化数据.
  • EliasDB -基于轻量级图的数据库,不需要任何第三方库.
  • Facebook TAO -TAO是分布式数据存储,在Facebook上广泛用于存储和服务社交图.
  • GCHQ Gaffer -GCHQ的Gaffer是一个框架,可轻松存储其中节点和边具有统计信息的大规模图形.
  • Google Cayley -开源图形数据库.
  • Google Pregel -图形处理框架.
  • GraphLab PowerGraph -核心C ++ GraphLab API和在GraphLab API之上构建的高性能机器学习和数据挖掘工具包的集合.
  • GraphX -Spark上的弹性分布式图系统.
  • Gremlin -图形遍历语言.
  • Infovore -以RDF为中心的Map / Reduce框架.
  • Intel GraphBuilder -在Hadoop之上构建大规模图形的工具.
  • JanusGraph -开源的分布式图形数据库 具有多个存储后端选项(Bigtable,HBase,Cassandra等) 和索引后端(Elasticsearch,Solr,Lucene).
  • MapGraph -在GPU上进行大规模并行图处理.
  • Microsoft Graph Engine -分布式内存数据处理引擎,以强类型的内存键值存储和通用分布式计算引擎为基础.
  • Neo4j -完全用Java编写的图形数据库.
  • OrientDB -文档和图形数据库.
  • Phoebus -大规模图形处理的框架.
  • Titan -基于Cassandra构建的分布式图形数据库.
  • Twitter FlockDB - distributed graph database.
  • NodeXL -适用于Microsoft®Excel®2007、2010、2013和2016的免费开源模板,可轻松浏览网络图.

Columnar Databases

注意请阅读以下说明 Key-Map Data Model 部分.

  • Columnar Storage -关于什么是柱状存储以及何时需要的说明.
  • Actian Vector -面向列的分析数据库.
  • C-Store -面向列的DBMS.
  • ClickHouse -面向列的开源数据库管理系统,可实时生成分析数据报告.
  • EventQL -为大型事件收集和分析而构建的分布式,面向列的数据库.
  • MonetDB -列存储数据库.
  • Parquet -Hadoop的列式存储格式.
  • Pivotal Greenplum -专用的专用分析数据仓库,提供了列式引擎以及传统的基于行的引擎.
  • Vertica - is designed to manage large, fast-growing volumes of data and provide very fast query performance when used for data warehouses.
  • SQream DB -由GPU驱动的大数据数据库,专为分析和数据仓库而设计,具有符合ANSI-92的SQL,适用于10TB至1PB的数据集.
  • Google BigQuery -Google在Dremel上的开拓性工作为后盾的云产品.
  • Amazon Redshift -亚马逊的云产品,也基于列式数据存储后端.
  • IndexR -一种开源的柱状存储格式,用于大数据的快速实时分析.
  • LocustDB -实验分析数据库,旨在为商品硬件的查询性能设置新标准.

NewSQL Databases

  • Actian Ingres -商业支持的开源SQL关系数据库管理系统.
  • ActorDB -具有KV存储可扩展性的分布式SQL数据库,同时保留了关系数据库的查询功能.
  • Amazon RedShift -基于PostgreSQL的数据仓库服务.
  • BayesDB -面向统计的SQL数据库.
  • Bedrock -建立在SQLite之上的简单,模块化,网络化和分布式事务层.
  • CitusDB -通过分片和复制扩展PostgreSQL.
  • Cockroach -可扩展,地理复制,事务性数据存储.
  • Comdb2 -基于乐观并发控制技术构建的集群RDBMS.
  • Datomic -旨在支持可扩展,灵活和智能应用程序的分布式数据库.
  • FoundationDB -受F1启发的分布式数据库.
  • Google F1 -建立在Spanner上的分布式SQL数据库.
  • Google Spanner -全局分布的半关系数据库.
  • H-Store -是一个实验性的主内存并行数据库管理系统,针对在线事务处理(OLTP)应用进行了优化.
  • Haeinsa -基于Percolator的HBase的线性可扩展多行,多表事务库.
  • HandlerSocket -适用于MySQL / MariaDB的NoSQL插件.
  • InfiniSQL -无限可扩展的RDBMS.
  • KarelDB -由Apache Kafka支持的关系数据库.
  • Map-D -GPU内存数据库,大数据分析和可视化平台.
  • MemSQL -内存中的SQL数据库,具有优化的Flash列式存储.
  • NuoDB -符合SQL / ACID的分布式数据库.
  • Oracle TimesTen in-Memory Database -具有持久性和可恢复性的内存中关系数据库管理系统.
  • Pivotal GemFire XD -低延迟,内存中的分布式SQL数据存储. 为内存表数据提供SQL接口,该接口可持久存储在HDFS中.
  • SAP HANA -是一个内存,面向列的关系数据库管理系统.
  • SenseiDB -分布式,实时,半结构化数据库.
  • Sky -用于行为数据的灵活,高性能分析的数据库.
  • SymmetricDS -用于文件和数据库同步的开源软件.
  • TiDB -TiDB是分布式SQL数据库. 受到Google F1设计的启发.
  • VoltDB -声称是最快的内存数据库.
  • yugabyteDB -与PostgreSQL兼容的开源,高性能,分布式SQL数据库.

Time-Series Databases

  • Axibase Time Series Database -在HBase之上的集成时间序列数据库,具有内置的可视化,规则引擎和SQL支持.
  • Chronix -时间序列存储,用于存储高度压缩的时间序列和快速访问时间.
  • Cube -使用MongoDB存储时间序列数据.
  • Heroic -是基于Cassandra和Elasticsearch的可伸缩时间序列数据库.
  • InfluxDB -分布式时间序列数据库.
  • IronDB -可扩展的通用时间序列数据库.
  • Kairosdb -与OpenTSDB相似,但允许使用Cassandra.
  • M3DB -分布式时间序列数据库,可用于长时间保留实时指标.
  • Newts -基于Apache Cassandra的时间序列数据库.
  • TDengine -C语言中的时间序列数据库,利用IoT的独特功能来提高读写吞吐量并减少存储数据所需的空间
  • OpenTSDB -在HBase之上的分布式时间序列数据库.
  • Prometheus -时间序列数据库和服务监视系统.
  • Beringei -Facebook的内存时间序列数据库.
  • TrailDB -用于存储和查询一系列事件的有效工具.
  • Druid 面向列的分布式数据存储,是为交互式应用程序提供动力的理想选择
  • Riak-TS Riak TS是唯一专门针对IoT和时间序列数据进行优化的企业级NoSQL时间序列数据库.
  • Akumuli Akumuli是一个数字时间序列数据库. 它可以用于实时捕获,存储和处理时间序列数据. 单词“ akumuli”可以从世界语翻译为“积累”.
  • Rhombus Cassandra的时间序列对象存储,处理构建宽行索引的所有复杂性.
  • Dalmatiner DB 快速分布式指标数据库
  • Blueflood 旨在吸收和处理时间序列数据的分布式系统
  • Timely Timely是一个时间序列数据库应用程序,可提供对Accumulo和Grafana的时间序列数据的安全访问.
  • SiriDB 具有集群功能的高度可扩展,健壮和快速的开源时间序列数据库.
  • Thanos -Thanos是一组组件,可使用多个(现有)Prometheus部署来创建具有无限存储容量的高可用性指标系统.
  • VictoriaMetrics -与Prometheus兼容的快速,可扩展且资源有效的开源TSDB. 包括单节点和群集版本

SQL-like processing

Data Ingestion

  • Amazon Kinesis -大规模实时处理流数据.
  • Amazon Web Services Glue -无服务器的完全托管的提取,转换和加载(ETL)服务
  • Apache Chukwa -数据收集系统.
  • Apache Flume -用于管理大量日志数据的服务.
  • Apache Kafka -分布式发布-订阅消息系统.
  • Apache NiFi -Apache NiFi是一个集成的数据物流平台,用于自动化不同系统之间的数据移动.
  • Apache Sqoop -在Hadoop和结构化数据存储之间传输数据的工具.
  • Cloudera Morphlines -帮助ETL进行Solr,HBase和HDFS的框架.
  • Embulk -开源批量数据加载器,可帮助在各种数据库,存储,文件格式和云服务之间进行数据传输.
  • Facebook Scribe -流式日志数据聚合器.
  • Fluentd -收集事件和日志的工具.
  • Google Photon -地理上分散的系统,用于以高可伸缩性和低延迟实时连接多个连续流动的数据流.
  • Heka -开源流处理软件系统.
  • HIHO -用于将异构数据源与Hadoop连接的框架.
  • Kestrel -分布式消息队列系统.
  • LinkedIn Databus -数据库的更改捕获事件流.
  • LinkedIn Kamikaze -用于压缩排序的整数数组的实用程序包.
  • LinkedIn White Elephant -日志聚合器和仪表板.
  • Logstash -用于管理事件和日志的工具.
  • Netflix Suro -基于Chukwa的日志聚合器,例如Storm和Samza.
  • Pinterest Secor -是实现Kafka日志持久性的服务.
  • Linkedin Gobblin -linkedin的通用数据摄取框架.
  • Skizze -草图数据存储区,用于处理使用概率数据结构进行计数和草图绘制时遇到的所有问题.
  • StreamSets Data Collector -使用易于使用的IDE连续获取大数据.
  • Yahoo Pulsar -具有非常灵活的消息传递模型和直观的客户端API的分布式pub-sub消息传递平台.
  • Alooma -数据管道即服务,可将MySQL等数据源移入数据仓库.

Service Programming

  • Akka Toolkit -JVM上分布式和容错事件驱动的应用程序的运行时.
  • Apache Avro -数据序列化系统.
  • Apache Curator -Apache ZooKeeper的Java库.
  • Apache Karaf -在任何OSGi框架之上运行的OSGi运行时.
  • Apache Thrift -构建二进制协议的框架.
  • Apache Zookeeper -用于流程管理的集中服务.
  • Google Chubby -松耦合的分布式系统的锁定服务.
  • Hydrosphere Mist -用于将Apache Spark分析作业和机器学习模型公开为实时,批处理或反应式Web服务的服务.
  • Linkedin Norbert -集群管理器.
  • Mara -轻量级的,有思想的ETL框架,介于纯脚本和Apache Airflow之间
  • OpenMPI -消息传递框架.
  • Serf -用于服务发现和编排的分散式解决方案.
  • Spotify Luigi -一个Python软件包,用于构建批处理作业的复杂管道. 它处理依赖性解析,工作流管理,可视化,处理故障,命令行集成等.
  • Spring XD -用于数据提取,实时分析,批处理和数据导出的分布式可扩展系统.
  • Twitter Elephant Bird -用于处理LZOP压缩数据的库.
  • Twitter Finagle -JVM的异步网络堆栈.

Scheduling

Machine Learning

  • Azure ML Studio -基于云的AzureML,R,Python机器学习平台
  • brain -JavaScript中的神经网络.
  • Cloudera Oryx -实时大规模机器学习.
  • Concurrent Pattern -用于级联的机器学习库.
  • convnetjs -使用Java进行深度学习. 在浏览器中训练卷积神经网络(或普通的).
  • DataVec -用于Java和Scala中的深度学习的矢量化和数据预处理库. Deeplearning4j生态系统的一部分.
  • Deeplearning4j -JVM(Java,Scala,Clojure)的快速,开放式深度学习. 由C ++库提供支持的神经网络配置层. 使用Spark和Hadoop在多个GPU和CPU上训练网络.
  • Decider -Ruby中的灵活和可扩展的机器学习.
  • ENCOG -支持各种高级算法的机器学习框架,以及支持对数据进行规范化和处理的类.
  • etcML -通过机器学习进行文本分类.
  • Etsy Conjecture -可扩展的可扩展机器学习.
  • Feast -用于管理,发现和访问机器学习功能的功能存储. Feast为模型训练和模型提供了一致的特征数据视图.
  • GraphLab Create -Python中的机器学习平台,其中包含大量ML工具包,数据工程和部署工具.
  • H2O -使用Hadoop进行统计,机器学习和数学运行时. R和Python.
  • Karate Club -用于图形结构化数据的无监督机器学习库. 蟒蛇
  • Keras -受Torch启发的直观神经网络API,运行在Theano和Tensorflow之上.
  • Lambdo 是一个工作流引擎,通过将一个分析管道(i)特征工程和机器学习(ii)模型训练和预测(iii)通过用户定义的(Python)函数进行表填充和列评估相结合,大大简化了数据处理和分析.
  • Mahout -Apache支持的Hadoop机器学习库.
  • MLbase -用于BDAS堆栈的分布式机器学习库.
  • MLPNeuralNet -适用于iOS和Mac OS X的快速多层感知器神经网络库.
  • ML Workspace -专用于机器学习和数据科学的基于Web的多合一IDE.
  • MOA -MOA实时执行大数据流挖掘,并进行大规模机器学习.
  • MonkeyLearn -文本挖掘变得容易. 从文本中提取和分类数据.
  • ND4J -JVM的矩阵库. Numpy for Java.
  • nupic -Numenta智能计算平台:一个受大脑启发的机器智能平台,以及基于皮层学习算法的生物精确的神经网络.
  • PredictionIO -Hadoop,Mahout和Cascading上的机器学习服务器.
  • RL4J -Java和Scala的强化学习. 包括Deep-Q学习和A3C算法,并与Open AI的Gym集成. 在Deeplearning4j生态系统中运行.
  • SAMOA -分布式流机器学习框架.
  • scikit-learn -scikit-learn:Python中的机器学习.
  • Spark MLlib -一些常见机器学习(ML)功能的Spark实现.
  • Sibyl -Google的大规模机器学习系统.
  • TensorFlow -Google的库,用于使用数据流图进行机器学习.
  • Theano -蒙特利尔大学支持的以Python为中心的机器学习库.
  • Torch -带有Lua API的深度学习库,由纽约大学和Facebook支持.
  • Velox -用于提供机器学习预测的系统.
  • Vowpal Wabbit -由Microsoft和Yahoo!赞助的学习系统.
  • WEKA -机器学习软件套件.
  • BidMach -CPU和GPU加速的机器学习库.

Benchmarking

Security

System Deployment

Applications

  • 411 -用于通过计划搜索Elasticsearch进行警报管理的Web应用程序.
  • Adobe spindle -使用Scala,Spark和Parquet进行下一代Web分析处理.
  • Apache Kiji -基于HBase的实时收集和分析数据的框架.
  • Apache Metron -集成了各种开源大数据技术的平台,旨在提供用于安全监控和分析的集中式工具.
  • Apache Nutch -开源网络爬虫.
  • Apache OODT -捕获,处理和共享NASA科学档案的数据.
  • Argus -时间序列监视和警报平台.
  • AthenaX -流分析平台,使用户能够使用结构化查询语言(SQL)运行生产质量的大规模流分析.
  • Atlas -用于管理维时间序列数据的后端.
  • Countly -基于Node.js和MongoDB的开源移动和Web分析平台.
  • Domino -运行,扩展,共享和部署模型-无需任何基础架构.
  • Eclipse BIRT -基于Eclipse的报告系统.
  • ElastAert -ElastAlert是一个简单的框架,用于从ElasticSearch中的数据中发出异常,尖峰或其他感兴趣模式的警报.
  • Eventhub -开源事件分析平台.
  • Hermes -建立在Kafka之上的异步消息代理.
  • HIPI Library -用于在Hadoop的MapReduce上执行图像处理任务的API.
  • Hunk -用于Hadoop的Splunk分析.
  • Imhotep -确实是大型分析平台.
  • Indicative -具有数据仓库(AWS,BigQuery)集成的Web和移动分析工具.
  • Jupyter -用于所有编程语言的交互式数据科学和科学计算的笔记本和项目应用程序.
  • MADlib -RDBMS的数据处理库,用于分析数据.
  • Kapacitor -用于处理,监视和警告时间序列数据的开源框架.
  • Kylin -来自eBay的开源分布式分析引擎.
  • PivotalR -在Pivotal HD / HAWQ和PostgreSQL上使用R.
  • Rakam -由Postgresql,Kinesis和PrestoDB支持的开源实时自定义分析平台.
  • Qubole -自动扩展Hadoop集群,内置数据连接器.
  • Sense -数据科学和大数据分析的云平台.
  • SnappyData -用于实时运营分析的分布式内存数据存储,在单个集成集群中构建基于Spark的流分析,OLTP(在线事务处理)和OLAP(在线分析处理).
  • Snowplow -由Hadoop,Kinesis,Redshift和Postgres支持的企业级Web和事件分析.
  • SparkR -Spark的R前端.
  • Splunk -用于机器生成的数据的分析器.
  • Sumo Logic -基于云的分析器,用于机器生成的数据.
  • Talend -YARN,Hadoop,HBASE,Hive,HCatalog和Pig的统一开源环境.
  • Warp -通过示例工具查询大数据(OS X应用)

Search engine and framework

  • Apache Lucene -搜索引擎库.
  • Apache Solr -Apache Lucene的搜索平台.
  • Elassandra -是Elasticsearch的一个分支,经过修改可在可扩展且具有弹性的对等体系结构中运行在Apache Cassandra之上.
  • ElasticSearch -基于Apache Lucene的搜索和分析引擎.
  • Enigma.io – Freemium健壮的Web应用程序,用于浏览,过滤,分析,搜索和导出从整个Web抓取的海量数据集.
  • Facebook Unicorn -社交图搜索平台.
  • Google Caffeine -连续索引系统.
  • Google Percolator -连续索引系统.
  • [TeraGoogle]()-大型搜索索引.
  • HBase Coprocessor -实现Percolator,它是HBase的一部分.
  • LinkedIn Bobo -是完全用Java编写的Faceted Search实现,它是Apache Lucene的扩展.
  • LinkedIn Cleo -是一个灵活的软件库,可用于快速开发部分,无序和实时的预输入搜索.
  • LinkedIn Galene -LinkedIn的搜索架构.
  • LinkedIn Zoie -是用Java编写的实时搜索/索引系统.
  • MG4J -MG4J(用于Java的千兆字节管理)是用于以Java编写的大型文档集合的全文本搜索引擎. 它是高度可定制的,高性能的,并提供最新功能和新的研究算法.
  • Sphinx Search Server -全文搜索引擎.
  • Vespa -是用于对大型数据集进行低延迟计算的引擎. 它存储和索引您的数据,以便可以在投放时对数据进行查询,选择和处理.
  • Facebook Faiss -是用于高效相似性搜索和密集矢量聚类的库. 它包含可搜索任意大小的向量集的算法,最多可搜索不适合RAM的向量. 它还包含用于评估和参数调整的支持代码. Faiss用C ++编写,带有完整的Python / numpy包装器.
  • Annoy -是具有Python绑定的C ++库,用于搜索空间中与给定查询点接近的点. 它还会创建大型的基于文件的只读数据结构,并将其映射到内存中,以便许多进程可以共享相同的数据.

MySQL forks and evolutions

  • Amazon RDS -亚马逊云中的MySQL数据库.
  • Drizzle -MySQL 6.0的演变.
  • Google Cloud SQL -Google云中的MySQL数据库.
  • MariaDB -增强的,可替换的MySQL替代品.
  • MySQL Cluster -使用NDB群集存储引擎的MySQL实现.
  • Percona Server -增强的,可替换的MySQL替代品.
  • ProxySQL -MySQL的高性能代理.
  • TokuDB -TokuDB是MySQL和MariaDB的存储引擎.
  • WebScaleSQL -是多家公司的工程师之间的协作,这些公司在大规模运行MySQL时面临类似的挑战.

PostgreSQL forks and evolutions

  • HadoopDB -MapReduce和DBMS的混合体.
  • IBM Netezza -高性能数据仓库设备.
  • Postgres-XL -可伸缩的基于PostgreSQL的开源数据库集群.
  • RecDB -完全内置在PostgreSQL中的开源推荐引擎.
  • Stado -仅针对数据仓库和数据集市应用程序的开源MPP数据库系统.
  • Yahoo Everest -PostgreSQL派生的多PB的数据库/ MPP.
  • TimescaleDB -为快速提取和复杂查询而优化的开源时间序列数据库
  • PipelineDB -流式SQL数据库. 一个开源关系数据库,该数据库在流上连续运行SQL查询,并将结果增量存储在表中

Memcached forks and evolutions

Embedded Databases

  • Actian PSQL -Pervasive Software开发的符合ACID的DBMS,针对嵌入应用程序进行了优化.
  • BerkeleyDB -一个软件库,可为键/值数据提供高性能的嵌入式数据库.
  • HanoiDB -Erlang NGO BTree存储.
  • LevelDB -由Google编写的快速键值存储库,提供了从字符串键到字符串值的有序映射.
  • LMDB -Symas开发的超快速,超紧凑键值嵌入式数据存储.
  • RocksDB -可嵌入的持久键值存储,用于基于LevelDB的快速存储.

Business Intelligence

  • BIME Analytics -云中的商业智能平台.
  • Blazer -商业智能变得简单.
  • Chartio -精益的商业智能平台,以可视化和探索您的数据.
  • datapine -云中的自助式商业智能工具.
  • GoodData - platform for data products and embedded analytics.
  • Jaspersoft -强大的商务智能套件.
  • Jedox Palo -可定制的商业智能平台.
  • Jethrodata -交互式大数据分析.
  • intermix.io -Amazon Redshift的性能监控
  • Metabase -向公司中的每个人提供商业智能和分析的最简单,最快的方法.
  • Microsoft -商业智能软件和平台.
  • Microstrategy -商业智能,移动智能和网络应用程序的软件平台.
  • Numeracy -快速,干净的SQL客户端和商业智能.
  • Pentaho -商业智能平台.
  • Qlik -商业智能和分析平台.
  • Redash -开源商业智能平台,支持多个数据源和计划的查询.
  • Saiku Analytics -开源分析平台.
  • Knowage -开源商业智能平台. (前任 SpagoBi)
  • SparklineData SNAP -由Apache Spark支持的现代BI平台.
  • Tableau -商业智能平台.
  • Zoomdata -大数据分析.

Data Visualization

  • Airpal -PrestoDB的Web UI.
  • AnyChart -具有纯JS API的快速,简单和灵活的JavaScript(HTML5)图表库.
  • Arbor -使用Web Worker和jQuery的图形可视化库.
  • Banana -可视化存储在Solr中的日志和带时间戳的数据. 基巴纳港口.
  • Bloomery -Impala的Web UI.
  • Bokeh -一个功能强大的Python交互式可视化库,该库针对现代Web浏览器进行演示,目标是以D3.js样式优雅,简洁地构造新颖的图形,而且还可以通过超大型或流式传输提供高性能的交互性数据集.
  • C3 -基于D3的可重用图表库
  • CartoDB -具有强大的前端编辑功能和强大的API的地理空间数据库的开源或免费增值托管.
  • chartd -仅带有img标签的自适应视网膜兼容图表.
  • Chart.js -开源HTML5图表可视化.
  • Chartist.js -另一个开源HTML5图表可视化.
  • Crossfilter -JavaScript库,用于在浏览器中浏览大型多元数据集. 与dc.js和d3.js配合良好.
  • Cubism -用于时间序列可视化的JavaScript库.
  • Cytoscape -用于可视化复杂网络的JavaScript库.
  • DC.js -建立尺寸图以与使用d3.js渲染的交叉过滤器一起使用. 非常适合将图表/其他元数据连接到D3中的悬停事件.
  • D3 -用于处理文档的javaScript库.
  • D3.compose -从可重复使用的图表和组件组成复杂的,数据驱动的可视化文件.
  • D3Plus -d3.js的一组相当强大的可重用图表和样式.
  • DevExtreme React Chart -用于Bootstrap和Material Design的基于插件的高性能React图表.
  • Echarts -百度企业图表.
  • Envisionjs -动态HTML5可视化.
  • FnordMetric -编写返回SVG图表而不是表的SQL查询
  • Frappe Charts -GitHub启发的简单且现代的SVG图表,零依赖.
  • Freeboard -用于物联网和其他Web混搭的笔源实时仪表板构建器.
  • Gephi -屡获殊荣的开源平台,用于可视化和处理大型图形和网络连接. 它就像Photoshop,但用于图形. 适用于Windows和Mac OSX.
  • Google Charts -简单的图表API.
  • Grafana -石墨仪表板前端,编辑器和图形编辑器.
  • Graphite -可扩展的实时绘图.
  • Highcharts -简单灵活的图表API.
  • IPython -为交互式计算提供了丰富的体系结构.
  • Kibana -可视化日志和时间戳数据
  • Lumify -开源大数据分析和可视化平台
  • Matplotlib -使用Python进行绘图.
  • Metricsgraphic.js -建立在D3之上的库,该库针对时间序列数据进行了优化
  • NVD3 -d3.js的图表组件.
  • Peity -渐进式SVG条形图,折线图和饼图.
  • Plot.ly -易于使用的Web服务,可快速创建从热图到直方图的复杂图表. 使用Plotly的在线电子表格上传数据以创建图表并设置样式. 分叉他人的地块.
  • Plotly.js 绘图功能强大的开源javascript图形库.
  • Recline -简单而强大的库,用于以纯Javascript和HTML构建数据应用程序.
  • Redash -用于查询和可视化数据的开源平台.
  • ReCharts -基于React组件的可组合图表库
  • Shiny -R的Web应用程序框架.
  • Sigma.js -专门用于图形绘制的JavaScript库.
  • Superset -旨在可视,直观和交互式的数据探索平台,可轻松将数据切片,切块和可视化,并以思想的速度进行分析.
  • Vega -可视化语法.
  • Zeppelin -笔记本式协作数据分析.
  • Zing Charts -大数据的JavaScript图表库.

Internet of things and sensor data

  • Apache Edgent (Incubating) -可以嵌入到网关和占用空间小的边缘设备中的编程模型和微内核样式运行时,可以在边缘设备上进行本地实时分析.
  • Azure IoT Hub -基于云的双向监视和消息传递中心
  • TempoIQ -基于云的传感器分析.
  • 2lemetry -物联网平台.
  • Pubnub -数据流网络
  • ThingWorx -快速开发和连接智能系统
  • IFTTT -如果是这样
  • Evrything-使产品智能化
  • NetLytics -用于在Spark上处理网络数据的分析平台.

Interesting Readings

Interesting Papers

2015 - 2016

  • 2015 - Facebook -万亿边缘:Facebook规模的图形处理.

2013 - 2014

  • 2014 -斯坦福-大量数据集的挖掘.
  • 2013 - Microsoft -云中大数据的可扩展渐进分析.
  • 2013 - Metamarkets -德鲁伊:实时分析数据存储.
  • 2013 - Google -F1中的在线,异步架构更改.
  • 2013 - Google -MillWheel:Internet规模的容错流处理.
  • 2013 - Facebook -Scuba:在Facebook潜水.
  • 2013 - Facebook -独角兽:一种搜索社交图谱的系统.
  • 2013 - Facebook -在Facebook上扩展Memcache.

2011 - 2012

  • 2012 - Twitter -统一日志记录基础结构 Twitter上的数据分析.
  • 2012 - AMPLab -使用Spark对Hadoop数据进行快速且交互式的分析.
  • 2012 - Microsoft -Paxos复制状态机作为高性能数据存储的基础.
  • 2012 -微软-Paxos并行.
  • 2012 - AMPLab -BlinkDB:​​对非常大的数据具有有限错误和有限响应时间的查询.
  • 2012 - Google -每次鼠标点击可处理1万亿个单元格.

2001 - 2010

  • 2010 - Facebook -在干草堆中找一根针:Facebook的照片存储.
  • 2010 - Google -Pregel:用于大规模图形处理的系统.
  • 2010 - Yahoo -S4:分布式流计算平台.
  • 2009 -HadoopDB:MapReduce和DBMS技术的架构混合,用于分析工作负载.
  • 2008 - AMPLab -Chukwa:大型监控系统.
  • 2007 - Amazon -Dynamo:Amazon的高可用键值存储.

Videos

Books

Streaming

  • Data Science at Scale with Python and Dask - Data Science at Scale with Python and Dask teaches you how to build distributed data projects that can handle huge amounts of data.
  • Streaming Data -流数据介绍了流和实时数据系统的概念和要求.
  • Storm Applied -Storm Applied是将Apache Storm用于与处理和分析实时数据流相关的实际任务的实用指南.
  • Fundamentals of Stream Processing: Application Design, Systems, and Analytics -该综合的动手指南结合了流处理中的基本构建块和新兴研究,非常适合应用程序设计人员,系统构建人员,分析开发人员以及该领域的学生和研究人员.
  • Stream Data Processing: A Quality of Service Perspective -提出了适用于流和复杂事件处理的新范例.
  • Unified Log Processing -统一日志处理是在企业中实施事件流(Kafka或Kinesis)的统一日志的实用指南
  • Kafka Streams in Action -Kafka Streams in Action教您在流向Kafka平台的数据上实现流处理所需的一切知识,使您可以专注于从数据中获取更多信息而无需花费时间或精力.
  • Big Data -大数据可教您使用一种体系结构来构建大数据系统,该体系结构利用群集硬件以及专门用于捕获和分析Web规模数据的新工具.
  • Spark in Action & Spark in Action 2nd Ed. -Spark in Action教您使用Spark有效处理批处理和流式数据所需的理论和技能. 完全更新为Spark 2.0.
  • Kafka in Action -《行动中的卡夫卡》快速介绍了与卡夫卡合作的各个方面,您确实需要从中受益.
  • Fusion in Action -“行动中的融合”教您建立功能齐全的数据分析管道,包括文档和数据搜索以及分布式数据集群.
  • Reactive Data Handling -Reactive Data Handling是由Manuel Bernhardt选择的五个精选章节的集合,向您介绍构建能够处理大数据负载实时处理的反应式应用程序-免费电子书!

Distributed systems

Graph Based approach

Data Visualization

Other Awesome Lists

-其他很棒的清单 awesome-awesomeness. -更多清单 awesome. -另一个清单? list. -WTF! awesome-awesome-awesome. -分析 awesome-analytics. -公共数据集 awesome-public-datasets. -图分类 awesome-graph-classification. -网络嵌入 awesome-network-embedding. -社区检测 awesome-community-detection. -决策树文件 awesome-decision-tree-papers. -欺诈检测文件 awesome-fraud-detection-papers. -梯度增强论文 awesome-gradient-boosting-papers. -蒙特卡罗树搜索文件 awesome-monte-carlo-tree-search-papers. -卡夫卡 awesome-kafka.