Skip to content

Apache Spark

Awesome Spark Awesome

精选清单 Apache Spark 包和资源.

Apache Spark 是一个开源集群计算框架. 最初开发于 University of California, Berkeley's AMPLab, Spark 代码库后来被捐赠给 Apache Software Foundation , 从那以后一直维护它. Spark 提供了一个接口,用于对具有隐式数据并行性和容错性的整个集群进行编程(Wikipedia 2017).

Apache Spark 的用户可以选择不同的 Python、R、Scala 和 Java 编程语言来与 Apache Spark API 交互.

Packages

Language Bindings

Notebooks and IDEs

  • almond - 一个scala内核 Jupyter.
  • Apache Zeppelin - 基于 Web 的笔记本,可通过可插入后端、集成绘图和开箱即用的广泛 Spark 支持实现交互式数据分析.
  • Polynote - Polynote:受 IDE 启发的多语言笔记本. 它支持在一个笔记本中混合多种语言,并在它们之间无缝共享数据. 它通过不可变的数据模型鼓励可复制的笔记本. 源自 Netflix.

General Purpose Libraries

  • Succinct - 支持对压缩数据的高效查询.

SQL Data Sources

SparkSQL 有 serveral built-in Data Sources 对于文件. 这些包括“csv”、“json”、“parquet”、“orc”和“avro”. 它还支持 JDBC 数据库以及 Apache Hive. 可以通过包含下面列出的包或编写您自己的包来添加其他数据源.

Storage

  • lakeFS - 与 lakeFS 原子版本存储层集成.

Bioinformatics

GIS

Time Series Analytics

Graph Processing

  • SparklingGraph - 扩展 GraphX 功能的库,具有多种在图形分析中有用的功能(测量、生成器、链接预测等).

Machine Learning Extension

Middleware

Monitoring

Utilities

Natural Language Processing

Streaming

  • Apache Bahir - 从 Spark 2.0(Akka、MQTT、Twitter、ZeroMQ)中排除的流式连接器的集合.

Interfaces

  • Apache Beam - 支持批处理和流处理应用程序的统一数据处理引擎. Apache Spark 是受支持的执行环境之一.

Testing

Web Archives

Workflow Management

Resources

Books

Papers

MOOCS

Workshops

Projects Using Spark

  • Oryx 2 - Lambda architecture 平台建立在 Apache Spark 和 Apache Kafka 专门用于实时大规模机器学习.
  • Photon ML - 支持经典广义混合模型和广义加性混合效应模型的机器学习库.
  • PredictionIO - 机器学习服务器,供开发人员和数据科学家在短时间内构建和部署预测应用程序.
  • Crossdata - 具有扩展数据源 API 和多用户环境的数据集成平台.

Docker Images

Miscellaneous

References

维基百科,免费的百科全书. 2017. “Apache Spark — 维基百科,免费的百科全书.” https://en.wikipedia.org/w/index.php?title=Apache_Spark&age=7

License

"公共领域标记"
这项工作( Awesome Spark ,作者
:https://github.com/awesome-spark/awesome-spark )由Maciej Szymkiewicz鉴定,没有已知的版权限制.

Apache Spark、Spark、Apache 和 Spark徽标阿帕奇软件基金会. 此汇编未经 Apache 软件基金会认可.

灵感来自 sindresorhus/awesome.