Apache Spark

Awesome Spark Awesome

精选的超赞清单 Apache Spark 包和资源.

Apache Spark是一个开放源代码群集计算框架. 最初开发于 University of California, Berkeley's AMPLab,后来将Spark代码库捐赠给了 Apache Software Foundation ,此后一直保持下去. Spark提供了一个接口,用于使用隐式数据并行性和Fault-toleranceWikipedia 2017).

Apache Spark的用户可以选择不同的Python,R,Scala和Java编程语言来与Apache Spark API进行接口.

Packages

Language Bindings

Notebooks and IDEs

  • almond -用于的scala内核 Jupyter.
  • Apache Zeppelin -基于Web的笔记本电脑,支持即插即用的后端,集成绘图和广泛的Spark支持进行交互式数据分析.
  • Polynote -Polynote:灵感来自IDE的多国语言笔记本. 它支持在一个笔记本中混合多种语言,并在它们之间无缝共享数据. 它通过其不变的数据模型鼓励可复制的笔记本电脑. 始于 Netflix.

General Purpose Libraries

  • Succinct -支持对压缩数据进行有效查询.

SQL Data Sources

SparkSQL有 serveral built-in Data Sources 用于文件. 这些包括csvjsonparquetorcavro. 它还支持JDBC数据库以及Apache Hive. 可以通过包括以下列出的软件包或编写自己的软件包来添加其他数据源.

Bioinformatics

GIS

Time Series Analytics

Graph Processing

  • SparklingGraph -扩展了GraphX功能的库,具有多种功能,可用于图形分析(度量,生成器,链接预测等).

Machine Learning Extension

Middleware

Utilities

Natural Language Processing

Streaming

  • Apache Bahir -从Spark 2.0(Akka,MQTT,Twitter.ZeroMQ)中排除的流连接器的集合.

Interfaces

  • Apache Beam -支持批处理和流应用程序的统一数据处理引擎. Apache Spark是受支持的执行环境之一.

Testing

Web Archives

Workflow Management

Resources

Books

Papers

MOOCS

Workshops

Projects Using Spark

  • Oryx 2 - Lambda architecture 基于Apache Spark和 Apache Kafka 专门用于实时大规模机器学习.
  • Photon ML -支持经典广义混合模型和广义加性混合效应模型的机器学习库.
  • PredictionIO -面向开发人员和数据科学家的机器学习服务器,可在短时间内构建和部署预测性应用程序.
  • Crossdata -具有扩展的DataSource API和多用户环境的数据集成平台.

Blogs

  • Spark Technology Center -与Spark生态系统相关的高度多样化的帖子的大量来源. 从实用建议到Spark提交者个人资料.

Docker Images

Miscellaneous

References

维基百科. 2017年.“ Apache Spark-维基百科,免费百科全书” .https://en.wikipedia.org/w/index.php?title=Apache_Spark&oldid=781182753 .

License

“公共域名标记”
Maciej Szymkiewicz识别的这项工作( Awesome Sparkhttps://github.com/awesome-spark/awesome-spark )不受已知的版权限制.

Apache Spark,Spark,Apache和Spark徽标是的商标 Apache软件基金会 . 该编译未得到Apache软件基金会的认可.

受启发 sindresorhus/awesome.