Apache Spark

Awesome Spark Awesome

精彩的精选列表 Apache Spark 包和资源.

_Apache Spark是一个开源的集群计算框架. 最初开发于 University of California, Berkeley's AMPLab,Spark代码库后来被捐赠给了 Apache Software Foundation 从那以后一直保持着它. Spark提供了一个用于编程整个集群的接口,具有隐式数据并行性和容错性(Wikipedia 2017).

Apache Spark的用户可以选择不同的Python,R,Scala和Java编程语言来与Apache Spark API进行交互.

Packages

Language Bindings

Notebooks and IDEs

  • Apache Zeppelin - 基于Web的笔记本电脑,支持可插拔后端的交互式数据分析,集成绘图以及开箱即用的广泛Spark支持.

General Purpose Libraries

  • Succinct - 支持对压缩数据的有效查询.

SQL Data Sources

SparkSQL有 serveral built-in Data Sources 对于文件. 这些包括csvjsonparquetorcavro. 它还支持JDBC数据库以及Apache Hive. 可以通过包含下面列出的软件包或编写自己的软件包来添加其他数据源.

Bioinformatics

GIS

Time Series Analytics

Graph Processing

  • SparklingGraph - 库扩展GraphX功能,具有在图形分析中有用的多种功能(测量,生成器,链接预测等).

Machine Learning Extension

Middleware

Utilities

Natural Language Processing

Streaming

  • Apache Bahir - 从Spark 2.0(Akka,MQTT,Twitter.ZeroMQ)中排除的流连接器的集合.

Interfaces

  • Apache Beam - 统一数据处理引擎,支持批处理和流应用程序. Apache Spark是受支持的执行环境之一.

Testing

Web Archives

Workflow Management

Resources

Books

Papers

MOOCS

Workshops

Projects Using Spark

  • Oryx 2 - Lambda architecture 基于Apache Spark和 Apache Kafka 专业实时大规模机器学习.
  • Photon ML - 支持经典广义混合模型和广义加性混合效应模型的机器学习库.
  • PredictionIO - 机器学习服务器,供开发人员和数据科学家在很短的时间内构建和部署预测应用程序.
  • Crossdata - 具有扩展DataSource API和多用户环境的数据集成平台.

Blogs

  • Spark Technology Center - 与Spark生态系统相关的高度多样化职位的重要来源. 从实用建议到Spark commiter配置文件.

Docker Images

Miscellaneous

References

维基百科. 2017.“Apache Spark - 维基百科,自由百科全书.” https://en.wikipedia.org/w/index.php?title=Apache_Spark&oldid=781182753 .

License

“公共域标记”/>
Maciej Szymkiewicz识别的这项工作( Awesome Spark ,由https://github.com/awesome-spark/awesome-spark提供 )没有已知的版权限制.

Apache Spark,Spark,Apache和Spark徽标是其商标 Apache软件基金会 . 此编译未得到Apache Software Foundation的认可.

灵感来自 sindresorhus/awesome.