机器学习

Awesome Machine Learning Awesome

一个很棒的机器学习框架、库和软件的精选列表(按语言). 灵感来自awesome-php.

如果您想为此列表做出贡献(请这样做),请向我发送拉取请求或与我联系 @josephmisiti. 此外,如果出现以下情况,应弃用列出的存储库:

  • Repository 的所有者明确表示“这个库没有得到维护”.
  • 长期(2~3 年)未承诺.

更多资源:

  • 有关可供下载的免费机器学习书籍列表,请访问 here.

  • 如需专业机器学习活动列表,请访问 here.

  • 有关在线提供的(大部分)免费机器学习课程的列表,请访问 here.

  • 有关数据科学和机器学习的博客和时事通讯列表,请访问 here.

  • 如需免费参加的聚会和本地活动的列表,请访问 here.

Frameworks and Libraries

APL

General-Purpose Machine Learning

  • naive-apl - APL 中的朴素贝叶斯分类器实现. [已弃用]

C

General-Purpose Machine Learning

  • Darknet - Darknet 是一个用 C 和 CUDA 编写的开源神经网络框架. 它快速、易于安装,并支持 CPU 和 GPU 计算.
  • Recommender - 使用协同过滤 (CF) 的产品推荐/建议 AC 库.
  • Hybrid Recommender System - 基于 scikit-learn 算法的混合推荐系统. [已弃用]
  • neonrvm - neonrvm 是一个基于 RVM 技术的开源机器学习库. 它是用 C 编程语言编写的,并带有 Python 编程语言绑定.
  • cONNXr - 用纯 C (99) 编写的“ONNX”运行时,零依赖,专注于小型嵌入式设备. 无论您使用哪种框架对其进行训练,都可以对您的机器学习模型运行推理. 易于在任何地方安装和编译,即使在非常旧的设备中也是如此.
  • libonnx - 轻量级、便携的纯 C99 onnx 推理引擎,适用于具有硬件加速支持的嵌入式设备.

Computer Vision

  • CCV - 基于 C/缓存/核心的计算机视觉库,现代计算机视觉库.
  • VLFeat - VLFeat 是一个开放的、可移植的计算机视觉算法库,它有一个 Matlab 工具箱.

C++

Computer Vision

  • DLib - DLib 具有 C++ 和 Python 接口,用于人脸检测和训练通用对象检测器.
  • EBLearn - Eblearn 是一个面向对象的 C++ 库,可实现各种机器学习模型 [已弃用]
  • OpenCV - OpenCV 具有 C++、C、Python、Java 和 MATLAB 接口,并支持 Windows、Linux、Android 和 Mac OS.
  • VIGRA - VIGRA 是一个通用的跨平台 C++ 计算机视觉和机器学习库,用于具有 Python 绑定的任意维度的卷.
  • Openpose - 用于身体、面部、手和脚估计的实时多人关键点检测库

General-Purpose Machine Learning

  • BanditLib - 一个简单的多臂强盗库. [已弃用]
  • Caffe - 一个在开发时考虑到清洁度、可读性和速度的深度学习框架. 【深度学习】
  • CatBoost - 具有开箱即用的分类特征支持的决策树库上的通用梯度提升. 它易于安装,包含快速推理实现并支持 CPU 和 GPU(甚至多 GPU)计算.
  • CNTK - 微软研究院的计算网络工具包 (CNTK) 是一个统一的深度学习工具包,它通过有向图将神经网络描述为一系列计算步骤.
  • CUDA - 这是卷积 [DEEP LEARNING] 的快速 C++/CUDA 实现
  • DeepDetect - 用 C++11 编写的机器学习 API 和服务器. 它使最先进的机器学习易于使用并集成到现有应用程序中.
  • Distributed Machine learning Tool Kit (DMTK) - Microsoft 的分布式机器学习(参数服务器)框架. 在跨多台机器的大型数据集上启用训练模型. 当前与其捆绑的工具包括:LightLDA 和分布式(多义)字嵌入.
  • DLib - 一套易于嵌入其他应用程序的机器学习工具.
  • DSSTNE - 一个由亚马逊创建的软件库,用于使用 GPU 训练和部署深度神经网络,它强调速度和规模而不是实验灵活性.
  • DyNet - 一个动态神经网络库,可以很好地与具有针对每个训练实例而变化的动态结构的网络配合使用. 用 C++ 编写,在 Python 中绑定.
  • Fido - 用于嵌入式电子和机器人技术的高度模块化 C++ 机器学习库.
  • igraph - 通用图形库.
  • Intel(R) DAAL - 由英特尔开发并针对英特尔架构优化的高性能软件库. 库为数据分析的所有阶段提供算法构建块,并允许以批处理、在线和分布式模式处理数据.
  • LightGBM - 微软基于决策树算法的快速、分布式、高性能梯度提升(GBDT、GBRT、GBM 或 MART)框架,用于排序、分类和许多其他机器学习任务.
  • libfm - 允许通过特征工程模拟大多数分解模型的通用方法.
  • MLDB - The Machine Learning Database is a database designed for machine learning. Send it commands over a RESTful API to store data, explore it using SQL, then train machine learning models and expose them as APIs.
  • mlpack - 一个可扩展的 C++ 机器学习库.
  • MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态、突变感知数据流调度器; 适用于 Python、R、Julia、Go、Javascript 等.
  • ParaMonte - 具有 C/C++ 接口的通用库,用于通过串行/并行蒙特卡罗和 MCMC 模拟进行贝叶斯数据分析和可视化. 可以找到文档 here.
  • proNet-core - 通用网络嵌入框架:成对表示优化网络编辑.
  • PyCUDA - CUDA 的 Python 接口
  • ROOT - 模块化科学软件框架. 它提供了处理大数据处理、统计分析、可视化和存储所需的所有功能.
  • shark - 一个快速、模块化、功能丰富的开源 C++ 机器学习库.
  • Shogun - Shogun 机器学习工具箱.
  • sofia-ml - 快速增量算法套件.
  • Stan - 一种概率编程语言,通过哈密顿蒙特卡罗采样实现完整的贝叶斯统计推断.
  • Timbl - 一个软件包/C++ 库,实现了几种基于内存的学习算法,其中 IB1-IG,k-最近邻分类的实现,和 IGTree,IB1-IG 的决策树近似. 常用于 NLP.
  • Vowpal Wabbit (VW) - 一个快速的核外学习系统.
  • Warp-CTC - 在 CPU 和 GPU 上快速并行实现连接时间分类 (CTC).
  • XGBoost - 并行优化的通用梯度提升库.
  • ThunderGBM - 用于 GPU 上的 GBDT 和随机森林的快速库.
  • ThunderSVM - GPU 和 CPU 上的快速 SVM 库.
  • LKYDeepNN - 一个只有头文件的 C++11 神经网络库. 低依赖性,本土繁体中文文档.
  • xLearn - 一个高性能、易于使用、可扩展的机器学习包,可用于解决大规模机器学习问题. xLearn 对于解决大规模稀疏数据的机器学习问题特别有用,这在互联网服务中非常常见,例如在线广告和推荐系统.
  • Featuretools - 用于自动化特征工程的库. 它擅长使用可重用的特征工程“原语”将事务和关系数据集转换为用于机器学习的特征矩阵.
  • skynet - A library for learning neural networks, has C-interface, net set in JSON. Written in C++ with bindings in Python, C++ and C#.
  • Feast - 用于管理、发现和访问机器学习功能的功能存储. Feast 为模型训练和模型服务提供了一致的特征数据视图.
  • Hopsworks - 数据密集型 AI 平台,拥有业界首个开源功能商店. Hopsworks Feature Store 提供了一个基于 Apache Hive 的用于训练和批处理的特征仓库,以及一个基于 MySQL Cluster 的用于在线应用程序的特征服务数据库.
  • Polyaxon - 一个可重复和可扩展的机器学习和深度学习平台.
  • QuestDB 一个面向列的关系型数据库,设计用于对时间序列和事件数据进行实时分析.

Natural Language Processing

  • BLLIP Parser - BLLIP 自然语言解析器(也称为 Charniak-Johnson 解析器).
  • colibri-core - C++ 库、命令行工具和 Python 绑定,用于以快速且节省内存的方式提取和处理基本语言结构,例如 n-gram 和 skipgram.
  • CRF++ - 用于分割/标记顺序数据和其他自然语言处理任务的条件随机场 (CRF) 的开源实现. [已弃用]
  • CRFsuite - CRFsuite 是用于标记顺序数据的条件随机场 (CRF) 的实现. [已弃用]
  • frog - 为荷兰语开发的基于内存的 NLP 套件:PoS 标记器、词形分解器、依赖解析器、NER、浅层解析器、形态分析器.
  • libfolia - C++ 库 FoLiA format
  • MeTA - MeTA : ModErn Text Analysis 是一个 C++ 数据科学工具包,有助于挖掘大文本数据.
  • MIT Information Extraction Toolkit - 用于命名实体识别和关系提取的 C、C++ 和 Python 工具
  • ucto - 用于各种语言的基于 Unicode 的正则表达式标记器. 工具和 C++ 库. 支持 FoLiA 格式.

Speech Recognition

  • Kaldi - Kaldi 是一个用 C++ 编写的语音识别工具包,并在 Apache License v2.0 下获得许可. Kaldi 旨在供语音识别研究人员使用.

Sequence Analysis

  • ToPS - 这是一个面向对象的框架,有助于在用户定义的字母表上集成序列的概率模型. [已弃用]

Gesture Detection

  • grt - 手势识别工具包 (GRT) 是一个跨平台、开源的 C++ 机器学习库,专为实时手势识别而设计.

Common Lisp

General-Purpose Machine Learning

  • mgl - 神经网络(玻尔兹曼机、前馈和循环网络)、高斯过程.
  • mgl-gpr - 进化算法. [已弃用]
  • cl-libsvm - libsvm 支持向量机库的包装器. [已弃用]
  • cl-online-learning - 在线学习算法(感知器、AROW、SCW、逻辑回归).
  • cl-random-forest - 在 Common Lisp 中实现随机森林.

Clojure

Natural Language Processing

General-Purpose Machine Learning

  • tech.ml - 基于tech.ml.dataset的机器学习平台,不仅支持ml算法,还支持相关的ETL处理; 包装多个机器学习库
  • clj-ml - 基于 Weka 和朋友构建的 Clojure 机器学习库.
  • clj-boost - XGBoost 的包装器
  • Touchstone - Clojure A/B 测试库.
  • Clojush - 在 Clojure 中实现的 Push 编程语言和 PushGP 遗传编程系统.
  • lambda-ml - Clojure 中机器学习技术和实用程序的简单、简洁的实现.
  • Infer - Clojure 中的推理和机器学习. [已弃用]
  • Encog - Encog (v3) 的 Clojure 包装器(专门研究神经网络的机器学习框架). [已弃用]
  • Fungp - Clojure 的遗传编程库. [已弃用]
  • Statistiker - Clojure 中的基本机器学习算法. [已弃用]
  • clortex - 使用 Numenta 的皮质学习算法的通用机器学习库. [已弃用]
  • comportex - 使用 Numenta 的皮质学习算法的功能可组合机器学习库. [已弃用]

Deep Learning

  • MXNet - Bindings to Apache MXNet - part of the MXNet project
  • Deep Diamond - 一个快速的 Clojure 张量和深度学习库
  • jutsu.ai - 用于 deeplearning4j 的 Clojure 包装器,其中添加了一些语法糖.
  • cortex - Clojure 中的神经网络、回归和特征学习.
  • Flare - Dynamic Tensor Graph library in Clojure (think PyTorch, DynNet, etc.)
  • dl4clj - Deeplearning4j 的 Clojure 包装器.

Data Analysis

  • tech.ml.dataset - 用于数据处理和机器学习的 Clojure 数据框库和管道
  • Tablecloth - 一个数据帧语法包装 tech.ml.dataset,受几个 R 库的启发
  • Panthera - Clojure API 包装了 Python 的 Pandas 库
  • Incanter - Incanter 是一个基于 Clojure 的、类似 R 的平台,用于统计计算和图形.
  • PigPen - Clojure 的 Map-Reduce.
  • Geni - 在 Apache Spark 上运行的 Clojure 数据帧库

Data Visualization

  • Hanami :Clojure(Script) 库和框架,用于创建基于 Vega-Lite (VGL) 和/或 Vega (VG) 规范的交互式可视化应用程序. 自动框架和布局以及用于抽象可视化规范的强大模板系统
  • Saite - Clojure(脚本)客户端/服务器应用程序,用于动态交互式探索和创建使用 Vega/Vega-Lite、CodeMirror、markdown 和 LaTeX 捕获它们的实时可共享文档
  • Oz - 使用 Vega/Vega-Lite 和 Hiccup 进行数据可视化,以及用于文学编程的实时重新加载平台
  • Envision - Clojure 数据可视化库,基于 Statistiker 和 D3.
  • Pink Gorilla Notebook - 基于 Gorilla-REPL 的 Clojure/Clojurescript 笔记本应用程序/库
  • clojupyter - Clojure 的 Jupyter 内核 - 在 Jupyter 实验室、笔记本和控制台中运行 Clojure 代码.
  • notespace - Clojure 命名空间中的笔记本体验
  • Delight - 一个可以流式传输您的 Spark 事件日志的监听器,一个免费且改进的 Spark UI

Interop

  • Java Interop - Clojure 具有 Native Java Interop,可以从中访问 Java 的 ML 生态系统
  • JavaScript Interop - ClojureScript 具有 Native JavaScript Interop,可以从中访问 JavaScript 的 ML 生态系统
  • Libpython-clj - 与 Python 互操作
  • ClojisR - 与 R 和 Renjin(JVM 上的 R)互操作

Misc

  • Neanderthal - 快速 Clojure 矩阵库(原生 CPU、GPU、OpenCL、CUDA)
  • kixistats - 统计分布采样和转换函数库
  • fastmath - 用于数学和统计计算、机器学习等的函数集合,封装了多个 JVM 库
  • matlib - 基于尼安德特人的优化和控制理论工具和便利函数的 Clojure 库.

Extra

  • Scicloj - Clojure 的 ML 相关资源的精选列表.

Crystal

General-Purpose Machine Learning

  • machine - 简单的机器学习算法.
  • crystal-fann - FANN(快速人工神经网络)绑定.

Elixir

General-Purpose Machine Learning

  • Simple Bayes - Elixir 中的简单贝叶斯/朴素贝叶斯实现.
  • emel - 一个用 Elixir 编写的简单实用的机器学习库.
  • Tensorflex - 针对 Elixir 编程语言的 Tensorflow 绑定.

Natural Language Processing

  • Stemmer - Elixir 中的英语 (Porter2) 词干实现.

Erlang

General-Purpose Machine Learning

  • Disco - Erlang 中的 Map Reduce. [已弃用]

Fortran

General-Purpose Machine Learning

Data Analysis / Data Visualization

  • ParaMonte - 通过串行/并行蒙特卡罗和 MCMC 模拟进行贝叶斯数据分析和可视化的通用 Fortran 库. 可以找到文档 here.

Go

Natural Language Processing

  • snowball - Go 的雪球投票.
  • word-embedding - Word Embeddings:Word2vec、GloVe 在 Go 中的完整实现.
  • sentences - Punkt 句子标记器的 Golang 实现.
  • go-ngram - 带压缩的内存 n-gram 索引. [已弃用]
  • paicehusk - Paice/Husk Stemming 算法的 Golang 实现. [已弃用]
  • go-porterstemmer - Porter Stemming 算法的原生 Go 洁净室实现. [已弃用]

General-Purpose Machine Learning

  • birdland - Go 中的推荐库.
  • eaopt - 一个进化优化库.
  • leaves - GBRT 预测部分的纯 Go 实现,包括 XGBoost 和 LightGBM.
  • gobrain - 用 Go 编写的神经网络.
  • go-featureprocessing - 快速方便的功能处理,用于 Go 中的低延迟机器学习.
  • go-mxnet-predictor - 绑定 MXNet c_predict_api 以使用预训练模型进行推理.
  • go-ml-benchmarks — Go 机器学习推理基准
  • go-ml-transpiler - 用于机器学习模型的开源 Go 转译器.
  • golearn - Go 的机器学习.
  • goml - 用纯 Go 编写的机器学习库.
  • gorgonia - Go 中的深度学习.
  • goro - Keras 脉络中的高级机器学习库.
  • gorse - 基于 Go 编写的基于协同过滤的离线推荐系统后端.
  • therfoo - 用于 Go 的嵌入式深度学习库.
  • neat - 用于增强拓扑神经进化 (NEAT) 的即插即用并行 Go 框架. [已弃用]
  • go-pr - Go 语言中的模式识别包. [已弃用]
  • go-ml - 线性/逻辑回归、神经网络、协同过滤和高斯多元分布. [已弃用]
  • GoNN - GoNN 是 Go 语言中神经网络的实现,包括 BPNN、RBF、PCN. [已弃用]
  • bayesian - Golang 的朴素贝叶斯分类. [已弃用]
  • go-galib - 用 Go / Golang 编写的遗传算法库. [已弃用]
  • Cloudforest - Go/Golang 中的决策树集合. [已弃用]
  • go-dnn - Golang 的深度神经网络(由 MXNet 提供支持)

Spatial analysis and geometry

  • go-geom - 去图书馆处理几何.
  • gogeo - Go 中的球面几何.

Data Analysis / Data Visualization

  • dataframe-go - 用于机器学习和统计的数据框(类似于熊猫).
  • gota - 数据帧.
  • gonum/mat - Go 的线性代数包.
  • gonum/optimize - 优化算法的实现.
  • gonum/plot - 绘图库.
  • gonum/stat - 一个统计库.
  • SVGo - 用于 SVG 生成的 Go 语言库.
  • glot - Glot 是一个建立在 gnuplot 之上的 Golang 绘图库.
  • globe - 全球线框可视化.
  • gonum/graph - 通用图形库.
  • go-graph - Go/Golang 语言的图形库. [已弃用]
  • RF - Go 中的随机森林实现. [已弃用]

Computer vision

  • GoCV - 使用 OpenCV 4 及更高版本的计算机视觉包.

Reinforcement learning

  • gold - 强化学习库.

Haskell

General-Purpose Machine Learning

  • haskell-ml - 各种机器学习算法的 Haskell 实现. [已弃用]
  • HLearn - 一套用于根据代数结构解释机器学习模型的库. [已弃用]
  • hnn - Haskell 神经网络库.
  • hopfield-networks - 用于 Haskell 无监督学习的 Hopfield 网络. [已弃用]
  • DNNGraph - 用于深度神经网络的 DSL. [已弃用]
  • LambdaNet - Haskell 中的可配置神经网络. [已弃用]

Java

Natural Language Processing

  • Cortical.io - Retina:一个像大脑一样快速、直观地执行复杂 NLP 操作(消歧、分类、流文本过滤等)的 API.
  • IRIS - Cortical.io's 免费的 NLP、Retina API 分析工具(用 JavaFX 编写!) - See the Tutorial Video.
  • CoreNLP - 斯坦福 CoreNLP 提供了一套自然语言分析工具,可以获取原始的英语文本输入并给出单词的基本形式.
  • Stanford Parser - 自然语言解析器是一种计算句子语法结构的程序.
  • Stanford POS Tagger - 词性标注器(词性标注器).
  • Stanford Name Entity Recognizer - 斯坦福 NER 是命名实体识别器的 Java 实现.
  • Stanford Word Segmenter - 原始文本的标记化是许多 NLP 任务的标准预处理步骤.
  • Tregex, Tsurgeon and Semgrex - Tregex 是一种用于匹配树中模式的实用程序,基于节点上的树关系和正则表达式匹配(名称是“树正则表达式”的缩写).
  • Stanford Phrasal: A Phrase-Based Translation System
  • Stanford English Tokenizer - 斯坦福短语是最先进的基于统计短语的机器翻译系统,用 Java 编写.
  • Stanford Tokens Regex - 分词器将文本分成一系列标记,大致对应于“单词”.
  • Stanford Temporal Tagger - SUTime 是一个用于识别和规范化时间表达式的库.
  • Stanford SPIED - 从种子集开始,以迭代方式使用模式从未标记的文本中学习实体.
  • Twitter Text Java - Twitter 文本处理库的 Java 实现.
  • MALLET - 基于 Java 的包,用于统计自然语言处理、文档分类、聚类、主题建模、信息提取和其他文本机器学习应用程序.
  • OpenNLP - 用于处理自然语言文本的基于机器学习的工具包.
  • LingPipe - 使用计算语言学处理文本的工具包.
  • ClearTK - ClearTK 提供了一个用 Java 开发统计自然语言处理 (NLP) 组件的框架,它构建在 Apache UIMA 之上. [已弃用]
  • Apache cTAKES - Apache 临床文本分析和知识提取系统 (cTAKES) 是一种开源自然语言处理系统,用于从电子病历临床自由文本中提取信息.
  • NLP4J - NLP4J 项目为自然语言处理提供软件和资源. 该项目始于计算语言和教育研究中心,目前由埃默里大学语言和信息研究中心开发. [已弃用]
  • CogcompNLP - 该项目收集了伊利诺伊大学认知计算小组开发的许多自然语言处理 (NLP) 核心库,例如“illinois-core-utilities”,它提供了一组 NLP 友好的数据结构和许多支持编写 NLP 应用程序、运行实验等的 NLP 相关实用程序,illinois-edison 一个用于从 illinois-core-utilities 数据结构和许多其他包中提取特征的库.

General-Purpose Machine Learning

  • aerosolve - Airbnb 的机器学习库,从头开始设计为对人类友好.
  • AMIDST Toolbox - 用于可扩展概率机器学习的 Java 工具箱.
  • Datumbox - 用于快速开发机器学习和统计应用程序的机器学习框架.
  • ELKI - 用于数据挖掘的 Java 工具包. (无监督:聚类、异常值检测等)
  • Encog - 先进的神经网络和机器学习框架. Encog 包含用于创建各种网络的类,以及用于规范化和处理这些神经网络数据的类. Encog 使用多线程弹性传播进行训练. Encog 还可以利用 GPU 来进一步加快处理时间. 还提供了一个基于 GUI 的工作台来帮助建模和训练神经网络.
  • FlinkML in Apache Flink - Flink 中的分布式机器学习库.
  • H2O - ML 引擎,支持通过 R、Python、Scala、REST/JSON 中的 API 在 Hadoop、Spark 或您的笔记本电脑上进行分布式学习.
  • htm.java - 使用 Numenta 的皮质学习算法的通用机器学习库.
  • liblinear-java - liblinear的Java版本.
  • Mahout - 分布式机器学习.
  • Meka - 多标签分类和评估方法的开源实现(扩展到 Weka).
  • MLlib in Apache Spark - Spark 中的分布式机器学习库
  • Hydrosphere Mist - 用于将 Apache Spark MLLib 机器学习模型部署为实时、批处理或反应式 Web 服务的服务.
  • Neuroph - Neuroph 是轻量级的 Java 神经网络框架
  • ORYX - 使用 Apache Spark 和 Apache Kafka 的 Lambda 架构框架,专门用于实时大规模机器学习.
  • Samoa SAMOA 是一个框架,它包括数据流的分布式机器学习,具有插入不同流处理平台的接口.
  • RankLib - RankLib 是一个学习排序算法的库. [已弃用]
  • rapaio - Java 中的统计、数据挖掘和机器学习工具箱.
  • RapidMiner - RapidMiner 集成到 Java 代码中.
  • Stanford Classifier - 分类器是一种机器学习工具,它将获取数据项并将它们放入 k 个类中的一个.
  • Smile - 统计机器智能和学习引擎.
  • SystemML - 灵活、可扩展的机器学习 (ML) 语言.
  • Weka - Weka 是用于数据挖掘任务的机器学习算法的集合.
  • LBJava - 基于学习的 Java 是一种用于软件系统快速开发的建模语言,为直接根据程序员应用程序中的对象定义分类器和约束条件提供了方便的声明性语法.
  • knn-java-library - 只是使用一堆相似性度量的 K-最近邻算法的简单实现.

Speech Recognition

  • CMU Sphinx - 纯粹基于 Java 语音识别库的语音识别开源工具包.

Data Analysis / Data Visualization

  • Flink - 用于分布式流和批处理数据处理的开源平台.
  • Hadoop - Hadoop/HDFS.
  • Onyx - 分布式、无主、高性能、容错数据处理. 完全用Clojure编写.
  • Spark - Spark 是用于大规模数据处理的快速通用引擎.
  • Storm - Storm 是一个分布式实时计算系统.
  • Impala - Hadoop 的实时查询.
  • DataMelt - 用于数值计算、统计、符号计算、数据分析和数据可视化的数学软件.
  • Dr. Michael Thomas Flanagan's Java Scientific Library [已弃用]

Deep Learning

Javascript

Natural Language Processing

  • Twitter-text - Twitter 文本处理库的 JavaScript 实现.
  • natural - 节点的通用自然语言设施.
  • Knwl.js - JS 中的自然语言处理器.
  • Retext - 用于分析和操作自然语言的可扩展系统.
  • NLP Compromise - 浏览器中的自然语言处理.
  • nlp.js - 在自然节点上内置的 NLP 库,具有实体提取、情感分析、自动语言识别等功能

Data Analysis / Data Visualization

General-Purpose Machine Learning

  • Auto ML - 用于竞赛和探索的自动化机器学习、数据格式化、集成和超参数优化 - 只需给它一个 .csv 文件!
  • Convnet.js - ConvNetJS 是一个用于训练深度学习模型的 Javascript 库[DEEP LEARNING] [Deprecated]
  • Clusterfck - 在 Node.js 和浏览器的 Javascript 中实现的凝聚层次聚类. [已弃用]
  • Clustering.js - 在 Javascript 中为 Node.js 和浏览器实现的聚类算法. [已弃用]
  • Decision Trees - 使用 ID3 算法的决策树的 NodeJS 实现. [已弃用]
  • DN2A - 数字神经网络架构. [已弃用]
  • figue - K 均值、模糊 c 均值和凝聚聚类.
  • Gaussian Mixture Model - 使用多元高斯混合模型的无监督机器学习.
  • Node-fann - Node.js 的 FANN(快速人工神经网络库)绑定 [已弃用]
  • Keras.js - 在浏览器中运行 Keras 模型,WebGL 2 提供 GPU 支持.
  • Kmeans.js - k-means 算法的简单 Javascript 实现,适用于 node.js 和浏览器. [已弃用]
  • LDA.js - Node.js 的 LDA 主题建模
  • Learning.js -逻辑回归/c4.5决策树的Javascript实现[已弃用]
  • machinelearn.js - 用于 Web、Node.js 和开发人员的机器学习库
  • mil-tokyo - 几个机器学习库的列表.
  • Node-SVM - Node.js 的支持向量机
  • Brain - JavaScript 中的神经网络 [已弃用]
  • Brain.js - JavaScript 中的神经网络 - 持续的社区分支 Brain.
  • Bayesian-Bandit - Node 和浏览器的贝叶斯老虎机实现. [已弃用]
  • Synaptic - 适用于 Node.js 和浏览器的无架构神经网络库.
  • kNear - 用于监督学习的 k 最近邻算法的 JavaScript 实现.
  • NeuralN - Node.js 的 C++ 神经网络库. 它在大数据集和多线程训练方面具有优势. [已弃用]
  • kalman - 用于 Javascript 的卡尔曼滤波器. [已弃用]
  • shaman - 支持简单和多元线性回归的 Node.js 库. [已弃用]
  • ml.js - 适用于 Node.js 和浏览器的机器学习和数值分析工具!
  • ml5 - 友好的网络机器学习!
  • Pavlov.js - 使用马尔可夫决策过程的强化学习.
  • MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态、突变感知数据流调度器; 适用于 Python、R、Julia、Go、Javascript 等.
  • TensorFlow.js - WebGL 加速、基于浏览器的 JavaScript 库,用于训练和部署 ML 模型.
  • JSMLT - 用于 Node.js 的具有分类和聚类功能的机器学习工具包; 支持可视化(见 visualml.io).
  • xgboost-node - 运行 XGBoost 模型并在 Node.js 中进行预测.
  • Netron - 机器学习模型的可视化工具.
  • tensor-js - 浏览器的深度学习库,由 WebGL 和 WebAssembly 加速
  • WebDNN - 快速深度神经网络 Javascript 框架. WebDNN 使用下一代 JavaScript API,WebGPU 用于 GPU 执行,WebAssembly 用于 CPU 执行.

Misc

  • stdlib - JavaScript 和 Node.js 的标准库,重点是数值计算. 该库为数学、统计、流、实用程序等提供了一系列强大的高性能库.
  • sylvester - JavaScript 的向量和矩阵数学. [已弃用]
  • simple-statistics - 描述性、回归和推理统计的 JavaScript 实现. 在没有依赖项的文字 JavaScript 中实现,旨在在所有现代浏览器(包括 IE)以及 Node.js 中工作.
  • regression-js - 一个 javascript 库,包含一组用于在一组数据中寻找趋势的最小二乘拟合方法.
  • Lyric - 线性回归库. [已弃用]
  • GreatCircle - 用于计算大圆距离的库.
  • MLPleaseHelp - ML PleaseHelp 是一个简单的 ML 资源搜索引擎. 您现在可以使用这个搜索引擎 https://jgreenemi.github.io/MLPleaseHelp/,通过 Github Pages 提供.
  • Pipcook - 用于机器学习及其工程的 JavaScript 应用程序框架.

Demos and Scripts

Julia

General-Purpose Machine Learning

  • MachineLearning - 朱莉娅机器学习库. [已弃用]
  • MLBase - 一组支持机器学习算法开发的功能.
  • PGM - 用于概率图形模型的 Julia 框架.
  • DA - 用于正则化判别分析的 Julia 包.
  • Regression - 回归分析算法(例如线性回归和逻辑回归). [已弃用]
  • Local Regression - 局部回归,如此流畅!
  • Naive Bayes - Julia 中的简单朴素贝叶斯实现. [已弃用]
  • Mixed Models - 用于拟合(统计)混合效应模型的 Julia 包.
  • Simple MCMC - 在 Julia 中实现的基本 mcmc 采样器. [已弃用]
  • Distances - 用于距离评估的 Julia 模块.
  • Decision Tree - 决策树分类器和回归器.
  • Neural - Julia 中的神经网络.
  • MCMC - 用于 Julia 的 MCMC 工具. [已弃用]
  • Mamba - 用于在 Julia 中进行贝叶斯分析的马尔可夫链蒙特卡罗 (MCMC).
  • GLM - Julia 中的广义线性模型.
  • Gaussian Processes - 用于高斯过程的 Julia 包.
  • Online Learning [已弃用]
  • GLMNet - Julia 包装器,用于使用 glmnet 拟合 Lasso/ElasticNet GLM 模型.
  • Clustering - 聚类数据的基本函数:k-means、dp-means等.
  • SVM - Julia 的 SVM. [已弃用]
  • Kernel Density - Julia 的核密度估计器.
  • MultivariateStats - 降维方法.
  • NMF - 用于非负矩阵分解的 Julia 包.
  • ANN - Julia 人工神经网络. [已弃用]
  • Mocha - 受 Caffe 启发的 Julia 深度学习框架. [已弃用]
  • XGBoost - Julia 中的 eXtreme Gradient Boosting Package.
  • ManifoldLearning - 用于流形学习和非线性降维的 Julia 包.
  • MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态、突变感知数据流调度器; 适用于 Python、R、Julia、Go、Javascript 等.
  • Merlin - Julia 中灵活的深度学习框架.
  • ROCAnalysis - 用于评估概率二元分类器的接收器操作特性和函数.
  • GaussianMixtures - 大规模高斯混合模型.
  • ScikitLearn - scikit-learn API 的 Julia 实现.
  • Knet - Koç 大学深度学习框架.
  • Flux - 放松! Flux 是一个不会让你变得张量的机器学习库
  • MLJ - Julia 机器学习框架

Natural Language Processing

  • Topic Models - 朱莉娅的主题模型. [已弃用]
  • Text Analysis - 用于文本分析的 Julia 包.
  • Word Tokenizers - Julia 中用于自然语言处理的分词器
  • Corpus Loaders - 一个 julia 包,为各种 NLP 语料库提供各种加载器.
  • Embeddings - 用于加载各种词嵌入的函数和数据依赖性
  • Languages - 用于处理各种人类语言的 Julia 包
  • WordNet - 普林斯顿 WordNet 的 Julia 包

Data Analysis / Data Visualization

Misc Stuff / Presentations

Lua

General-Purpose Machine Learning

  • Torch7
  • cephes - Cephes 数学函数库,为 Torch 包装. 提供并封装了由 Stephen L. Moshier 开发的 Cephes 数学库中的 180 多个特殊数学函数. 在许多其他地方,它被用于 SciPy 的核心. [已弃用]
  • autograd - Autograd 自动区分原生 Torch 代码. 受原始 Python 版本的启发.
  • graph - Torch 的图形包. [已弃用]
  • randomkit - Numpy 的 randomkit,为 Torch 包装. [已弃用]
  • signal - Torch-7 的信号处理工具箱. FFT、DCT、希尔伯特、倒谱、stft.
  • nn - Torch 的神经网络包.
  • torchnet - 火炬框架,它提供了一组旨在鼓励代码重用以及鼓励模块化编程的抽象.
  • nngraph - 此包为 Torch7 中的 nn 库提供图形计算.
  • nnx - 一个完全不稳定的实验包,它扩展了 Torch 的内置 nn 库.
  • rnn - 一个循环神经网络库,扩展了 Torch 的神经网络. RNN、LSTM、GRU、BRNN、BLSTM 等.
  • dpnn - 许多有用的功能不属于主要 nn 包的一部分.
  • dp - 一个深度学习库,旨在使用 Torch7 发行版简化研究和开发. 它通过优雅地使用面向对象的设计模式来强调灵活性. [已弃用]
  • optim - Torch 的优化库. SGD、Adagrad、共轭梯度、LBFGS、RProp 等.
  • unsup - Torch 中的无监督学习包. 提供与 nn(LinearPsd、ConvPsd、AutoEncoder 等)和自包含算法(k-means、PCA)兼容的模块. [已弃用]
  • manifold - 用于操作歧管的软件包.
  • svm - Torch-SVM 库. [已弃用]
  • lbfgs - liblbfgs 的 FFI 包装器. [已弃用]
  • vowpalwabbit - 一个旧的vovepalwabbit 接口到火炬. [已弃用]
  • OpenGM - OpenGM 是一个用于图形建模和推理的 C++ 库. Lua 绑定提供了一种从 Lua 描述图形的简单方法,然后使用 OpenGM 对其进行优化. [已弃用]
  • spaghetti - @MichaelMathieu 的用于 torch7 的意大利面条(稀疏线性)模块 [已弃用]
  • LuaSHKit - 一个围绕位置敏感散列库 SHKit 的 lua 包装器 [已弃用]
  • kernel smoothing - KNN,核加权平均,局部线性回归平滑器. [已弃用]
  • cutorch - Torch CUDA 实施.
  • cunn - Torch CUDA 神经网络实现.
  • imgraph - Torch 的图像/图形库. 这个包提供了在图像上构建图形、分割它们、从中构建树并将它们转换回图像的例程. [已弃用]
  • videograph - Torch 的视频/图形库. 这个包提供了在视频上构建图形、分割它们、从中构建树并将它们转换回视频的例程. [已弃用]
  • saliency - 围绕积分图像的代码和工具. 基于快速积分直方图查找兴趣点的库. [已弃用]
  • stitch - 允许我们使用 Hugin 拼接图像并将相同的拼接应用于视频序列. [已弃用]
  • sfm - 来自运动包的束调整/结构. [已弃用]
  • fex - Torch 中的特征提取包. 提供 SIFT 和 dSIFT 模块. [已弃用]
  • OverFeat - 最先进的通用密集特征提取器. [已弃用]
  • wav2letter - 来自 Facebook AI Research 的简单高效的端到端自动语音识别 (ASR) 系统.
  • Numeric Lua
  • Lunatic Python
  • SciLua
  • Lua - Numerical Algorithms [已弃用]
  • Lunum [已弃用]

Demos and Scripts

Matlab

Computer Vision

  • Contourlets - 实现轮廓波变换及其实用函数的 MATLAB 源代码.
  • Shearlets - 用于剪切波变换的 MATLAB 代码.
  • Curvelets - Curvelet 变换是小波变换的高维泛化,旨在表示不同尺度和不同角度的图像.
  • Bandlets - 用于小带变换的 MATLAB 代码.
  • mexopencv - OpenCV 库的 MATLAB mex 函数集合和开发套件.

Natural Language Processing

  • NLP - Matlab 的 NLP 库.

General-Purpose Machine Learning

Data Analysis / Data Visualization

  • ParaMonte - 用于通过串行/并行蒙特卡罗和 MCMC 模拟进行贝叶斯数据分析和可视化的通用 MATLAB 库. 可以找到文档 here.
  • matlab_bgl - MatlabBGL 是用于处理图形的 Matlab 包.
  • gaimc - 图算法的高效纯 Matlab 实现,以补充 MatlabBGL 的 mex 函数.

.NET

Computer Vision

  • OpenCVDotNet - 与 .NET 应用程序一起使用的 OpenCV 项目的包装器.
  • Emgu CV - OpenCV 的跨平台包装器,可以在 Mono 中编译以在 Windows、Linus、Mac OS X、iOS 和 Android 上运行.
  • AForge.NET - Open source C# framework for developers and researchers in the fields of Computer Vision and Artificial Intelligence. Development has now shifted to GitHub.
  • Accord.NET - 与 AForge.NET 一起,该库可以为 Windows、Windows RT 和 Windows Phone 提供图像处理和计算机视觉算法. 一些组件也可用于 Java 和 Android.

Natural Language Processing

  • Stanford.NLP for .NET - 一个完整的斯坦福 NLP 包到 .NET 的端口,也可以作为 NuGet 包进行预编译.

General-Purpose Machine Learning

  • Accord-Framework -Accord.NET Framework 是一个完整的框架,用于构建机器学习、计算机视觉、计算机试听、信号处理和统计应用程序.
  • Accord.MachineLearning - 支持向量机、决策树、朴素贝叶斯模型、K 均值、高斯混合模型和通用算法,例如用于机器学习应用的 Ransac、交叉验证和网格搜索. 这个包是 Accord.NET Framework 的一部分.
  • DiffSharp - 一个自动微分 (AD) 库,为机器学习和优化应用程序提供精确有效的导数(梯度、Hessian、Jacobian、方向导数和无矩阵 Hessian 和 Jacobian 向量积). 操作可以嵌套到任何级别,这意味着您可以计算精确的高阶导数并微分内部利用微分的函数,用于超参数优化等应用程序.
  • Encog - 先进的神经网络和机器学习框架. Encog 包含用于创建各种网络的类,以及用于规范化和处理这些神经网络数据的类. Encog 使用多线程弹性传播进行训练. Encog 还可以利用 GPU 来进一步加快处理时间. 还提供了一个基于 GUI 的工作台来帮助建模和训练神经网络.
  • GeneticSharp - 用于 .NET Core 和 .NET Framework 的多平台遗传算法库. 该库有几种 GA 运算符的实现,例如:选择、交叉、变异、重新插入和终止.
  • Infer.NET - Infer.NET 是一个在图形模型中运行贝叶斯推理的框架. 可以使用 Infer.NET 解决许多不同类型的机器学习问题,从分类、推荐或聚类等标准问题到针对特定领域问题的定制解决方案. Infer.NET 已用于广泛的领域,包括信息检索、生物信息学、流行病学、视觉等.
  • ML.NET - ML.NET 是一个跨平台的开源机器学习框架,它使 .NET 开发人员可以使用机器学习. ML.NET 最初由 Microsoft Research 开发,并在过去十年中演变为一个重要的框架,并在 Microsoft 的许多产品组中使用,如 Windows、Bing、PowerPoint、Excel 等.
  • Neural Network Designer - DBMS 管理系统和神经网络设计器. 设计器应用程序是使用 WPF 开发的,它是一个用户界面,允许您设计神经网络、查询网络、创建和配置能够提出问题并从您的反馈中学习的聊天机器人. 聊天机器人甚至可以从互联网上获取信息以返回到他们的输出以及用于学习.
  • Synapses - Neural network library in F#.
  • Vulpes - Deep belief and deep learning implementation written in F# and leverages CUDA GPU execution with Alea.cuBase.
  • MxNet.Sharp - .NET Standard bindings for Apache MxNet with Imperative, Symbolic and Gluon Interface for developing, training and deploying Machine Learning models in C#. https://mxnet.tech-quantum.com/

Data Analysis / Data Visualization

  • numl - numl 是一个机器学习库,旨在简化使用标准建模技术进行预测和聚类的过程.
  • Math.NET Numerics - Math.NET 项目的数值基础,旨在为科学、工程和日常使用中的数值计算提供方法和算法. 在 Windows、Linux 和 Mac 上支持 .Net 4.0、.Net 3.5 和 Mono; Silverlight 5、WindowsPhone/SL 8、WindowsPhone 8.1 和带有 PCL 便携式配置文件 47 和 344 的 Windows 8; 带有 Xamarin 的 Android/iOS.
  • Sho - Sho 是用于数据分析和科学计算的交互式环境,可让您将脚本(在 IronPython 中)与编译代码(在 .NET 中)无缝连接,以实现快速灵活的原型设计. 该环境包括强大而高效的线性代数库以及可从任何 .NET 语言使用的数据可视化,以及用于快速开发的功能丰富的交互式 shell.

Objective C

General-Purpose Machine Learning

  • YCML - 针对 Objective-C 和 Swift (OS X / iOS) 的机器学习框架.
  • MLPNeuralNet - 适用于 iOS 和 Mac OS X 的快速多层感知器神经网络库. MLPNeuralNet 通过训练有素的神经网络预测新示例. 它建立在 Apple 的 Accelerate Framework 之上,使用矢量化操作和硬件加速(如果可用). [已弃用]
  • MAChineLearning - 一个 Objective-C 多层感知器库,完全支持通过反向传播进行训练. 它使用 vDSP 和 vecLib 实现,比 Java 同类产品快 20 倍. 包括在 Swift 中使用的示例代码.
  • BPN-NeuralNetwork - 它实现了 3 层神经网络(输入层、隐藏层和输出层),并命名为反向传播神经网络(BPN). 该网络可用于产品推荐、用户行为分析、数据挖掘和数据分析. [已弃用]
  • Multi-Perceptron-NeuralNetwork - 它实现了基于反向传播神经网络 (BPN) 的多感知器神经网络 (ニューラルネットワーク),并设计了无限隐藏层.
  • KRHebbian-Algorithm - 它是机器学习神经网络中的一种非监督和自学习算法(调整权重). [已弃用]
  • KRKmeans-Algorithm - 它实现了 K-Means 聚类和分类算法. 它可用于数据挖掘和图像压缩. [已弃用]
  • KRFuzzyCMeans-Algorithm - 它在机器学习上实现了模糊 C 均值 (FCM) 模糊聚类/分类算法. 它可用于数据挖掘和图像压缩. [已弃用]

OCaml

General-Purpose Machine Learning

  • Oml - 通用统计和机器学习库.
  • GPR - OCaml 中的高效高斯过程回归.
  • Libra-Tk - 使用离散概率模型进行学习和推理的算法.
  • TensorFlow - TensorFlow 的 OCaml 绑定.

Perl

Data Analysis / Data Visualization

General-Purpose Machine Learning

Perl 6

Data Analysis / Data Visualization

General-Purpose Machine Learning

PHP

Natural Language Processing

General-Purpose Machine Learning

  • PHP-ML - 用于 PHP 的机器学习库. 算法、交叉验证、神经网络、预处理、特征提取以及更多功能集中在一个库中.
  • PredictionBuilder - 使用线性回归构建预测的机器学习库.
  • Rubix ML - 一个高级机器学习 (ML) 库,可让您构建使用 PHP 语言从数据中学习的程序.
  • 19 Questions - 为对象分配属性的机器学习/贝叶斯推理.

Python

Computer Vision

  • Scikit-Image - 在 Python 中进行图像处理的算法集合.
  • Scikit-Opt - Python 中的群智能(Python 中的遗传算法、粒子群优化、模拟退火、蚁群算法、免疫算法、人工鱼群算法)
  • SimpleCV - 一个开源计算机视觉框架,可以访问多个高性能计算机视觉库,例如 OpenCV. 用 Python 编写,可在 Mac、Windows 和 Ubuntu Linux 上运行.
  • Vigranumpy - VIGRA C++ 计算机视觉库的 Python 绑定.
  • OpenFace - 使用深度神经网络进行免费和开源的人脸识别.
  • PCV - 用于计算机视觉的开源 Python 模块. [已弃用]
  • face_recognition - 人脸识别库,可从 Python 或命令行识别和操作人脸.
  • dockerface - 易于安装和使用深度学习 Faster R-CNN 人脸检测,用于 docker 容器中的图像和视频.
  • Detectron - FAIR 的软件系统,实现了最先进的对象检测算法,包括 Mask R-CNN. 它是用 Python 编写的,由 Caffe2 深度学习框架提供支持. [已弃用]
  • detectron2 - FAIR 用于目标检测和分割的下一代研究平台. 它是对之前版本 Detectron 的彻底重写,由 PyTorch 深度学习框架提供支持.
  • albumentations - 一个快速且框架不可知的图像增强库,它实现了多种增强技术. 支持开箱即用的分类、分割、检测. 曾在 Kaggle、Topcoder 和那些作为 CVPR 研讨会一部分的深度学习竞赛中获胜.
  • pytessarct - Python-tesseract 是 Python 的光学字符识别 (OCR) 工具. 也就是说,它将识别并“读取”嵌入在图像中的文本. Python-tesseract 是一个包装器 Google's Tesseract-OCR Engine.
  • imutils - 一个包含方便函数的库,可以使用 OpenCV 和 Python 更轻松地进行基本的图像处理操作,例如平移、旋转、调整大小、骨架化和显示 Matplotlib 图像.
  • PyTorchCV - 基于 PyTorch 的计算机视觉深度学习框架.
  • Self-supervised learning
  • neural-style-pt - 贾斯汀约翰逊的神经风格(神经风格转移)的 PyTorch 实现.
  • Detecto - 用 5-10 行代码训练和运行计算机视觉模型.
  • neural-dream - DeepDream 的 PyTorch 实现.
  • Openpose - 用于身体、面部、手和脚估计的实时多人关键点检测库
  • Deep High-Resolution-Net - CVPR2019 论文“Deep High-Resolution Representation Learning for Human Pose Estimation”的 PyTorch 实现
  • dream-creator - DeepDream 的 PyTorch 实现. 允许个人使用 DeepDream 的自定义数据集快速轻松地训练他们自己的自定义 GoogleNet 模型.
  • Lucent - Tensorflow 和 OpenAI Clarity 的 Lucid 适用于 PyTorch.
  • lightly - Lightly 是一个用于自监督学习的计算机视觉框架.
  • Learnergy - Energy-based machine learning models built upon PyTorch.
  • OpenVisionAPI - 基于开源模型的开源计算机视觉 API.

Natural Language Processing

  • pkuseg-python - 更好的解霸版本,由北京大学开发.
  • NLTK - 用于构建 Python 程序以处理人类语言数据的领先平台.
  • Pattern - Python 编程语言的网络挖掘模块. 它具有用于自然语言处理、机器学习等的工具.
  • Quepy - 将自然语言问题转换为数据库查询语言查询的 Python 框架.
  • TextBlob - 为深入研究常见的自然语言处理 (NLP) 任务提供一致的 API. 站在 NLTK 和 Pattern 的巨大肩膀上,并与两者配合得很好.
  • YAlign - 一个句子对齐器,一个从可比较的语料库中提取平行句子的友好工具. [已弃用]
  • jieba - 中文分词实用程序.
  • SnowNLP - 处理中文文本的库.
  • spammy - 建立在 nltk 之上的垃圾邮件过滤库
  • loso - 另一个中文分词库. [已弃用]
  • genius - 基于条件随机场的中文片段.
  • KoNLPy - 用于韩语自然语言处理的 Python 包.
  • nut - 自然语言理解工具包. [已弃用]
  • Rosetta - 文本处理工具和包装器(例如 Vowpal Wabbit)
  • BLLIP Parser - BLLIP 自然语言解析器(也称为 Charniak-Johnson 解析器)的 Python 绑定. [已弃用]
  • PyNLPl - Python 自然语言处理库. Python 的通用 NLP 库. 还包含一些用于解析常见 NLP 格式的特定模块,最显着的是 FoLiA,还有 ARPA 语言模型、Moses 短语表、GIZA++ 对齐.
  • PySS3 - Python 包,它实现了一种用于文本分类的新型白盒机器学习模型,称为 SS3. 由于 SS3 能够直观地解释其基本原理,因此该软件包还附带了易于使用的交互式可视化工具(online demos).
  • python-ucto - Python 绑定到 ucto(用于各种语言的基于 unicode 的规则标记器).
  • python-frog - Python 绑定到 Frog,荷兰语的 NLP 套件. (pos 标记、词形还原、依赖解析、NER)
  • python-zpar - Python 绑定 ZPar,用于英语的统计词性标注器、选区解析器和依存解析器.
  • colibri-core - Python 绑定到 C++ 库,用于以快速且节省内存的方式提取和处理基本语言结构,例如 n-gram 和 skipgram.
  • spaCy - 具有 Python 和 Cython 的工业级 NLP.
  • PyStanfordDependencies - 用于将 Penn Treebank 树转换为 Stanford Dependencies 的 Python 接口.
  • Distance - Levenshtein 和汉明距离计算. [已弃用]
  • Fuzzy Wuzzy - Python 中的模糊字符串匹配.
  • jellyfish - 用于对字符串进行近似和语音匹配的 Python 库.
  • editdistance - 快速实现编辑距离.
  • textacy - 基于 Spacy 的更高级别的 NLP.
  • stanford-corenlp-python - Python 包装器 Stanford CoreNLP [已弃用]
  • CLTK - 古典语言工具包.
  • Rasa - 一个“自动化基于文本和语音的对话的机器学习框架”.
  • yase - 将句子(或其他序列)转码为词向量列表.
  • Polyglot - 多语言文本 (NLP) 处理工具包.
  • DrQA - 阅读维基百科来回答开放领域的问题.
  • Dedupe - 用于准确且可扩展的模糊匹配、记录重复数据删除和实体解析的 Python 库.
  • Snips NLU - 用于意图分类和实体提取的自然语言理解库
  • NeuroNER - 使用神经网络进行命名实体识别,提供最先进的结果
  • DeepPavlov - 具有许多预先训练的俄罗斯 NLP 模型的对话式 AI 库.
  • BigARTM - 主题建模平台.
  • NALP - 基于 Tensorflow 构建的自然对抗性语言处理框架.
  • DL Translate - 基于深度学习的 50 种语言之间的翻译库,使用 transformers 构建.

General-Purpose Machine Learning

  • Microsoft ML for Apache Spark -> 分布式机器学习框架 Apache Spark
  • Shapley -> 一个数据驱动的框架,用于量化机器学习集成中分类器的价值.
  • igel -> 令人愉快的机器学习工具,让您无需编写代码即可训练/拟合、测试和使用模型**
  • ML Model building -> 包含分类、聚类、回归、推荐笔记本的存储库,并带有插图来制作它们.
  • ML/DL project template
  • PyTorch Geometric Temporal -> 用于动态图表示学习的 PyTorch Geometric 的时间扩展.
  • Little Ball of Fur -> A graph sampling extension library for NetworkX with a Scikit-Learn like API.
  • Karate Club -> NetworkX 的无监督机器学习扩展库,具有类似 Scikit-Learn 的 API.
  • Auto_ViML -> Automatically Build Variant Interpretable ML models fast! Auto_ViML is pronounced "auto vimal", is a comprehensive and scalable Python AutoML toolkit with imbalanced handling, ensembling, stacking and built-in feature selection. Featured in Medium article.
  • PyOD -> Python 异常值检测,全面且可扩展的 Python 工具包,用于检测多元数据中的异常对象. 精选高级模型,包括神经网络/深度学习和异常值集成.
  • steppy -> 轻量级的 Python 库,用于快速且可重复的机器学习实验. 引入了一个非常简单的界面,可以实现干净的机器学习管道设计.
  • steppy-toolkit -> 精选的神经网络、转换器和模型集合,使您的机器学习工作更快、更有效.
  • CNTK - Microsoft Cognitive Toolkit (CNTK),一个开源深度学习工具包. 可以找到文档 here.
  • Couler - 用于在不同工作流引擎(例如 Argo Workflows、Tekton Pipelines 和 Apache Airflow)上构建和管理机器学习工作流的统一接口.
  • auto_ml - 用于生产和分析的自动化机器学习. 让您专注于 ML 的有趣部分,同时输出可用于生产的代码以及数据集和结果的详细分析. 包括对 NLP、XGBoost、CatBoost、LightGBM 以及即将推出的深度学习的支持.
  • machine learning - 自动构建包括一个 web-interface,以及一组 programmatic-interface API,用于支持向量机. 相应的数据集存储在 SQL 数据库中,然后生成的用于预测的模型存储在 NoSQL 数据存储中.
  • XGBoost - 极限梯度提升(树)库的 Python 绑定.
  • Apache SINGA - 用于开发开源机器学习库的 Apache Incubating 项目.
  • Bayesian Methods for Hackers - 关于 Python 概率编程的书籍/iPython 笔记本.
  • Featureforge 一组用于创建和测试机器学习功能的工具,具有与 scikit-learn 兼容的 API.
  • MLlib in Apache Spark - Spark 中的分布式机器学习库
  • Hydrosphere Mist - 用于将 Apache Spark MLLib 机器学习模型部署为实时、批处理或反应式 Web 服务的服务.
  • scikit-learn - 基于 SciPy 构建的用于机器学习的 Python 模块.
  • metric-learn - 用于度量学习的 Python 模块.
  • SimpleAI “人工智能,一种现代方法”一书中描述的许多人工智能算法的 Python 实现. 它专注于提供一个易于使用、有据可查和经过测试的库.
  • astroML - 用于天文学的机器学习和数据挖掘.
  • graphlab-create - 在磁盘支持的 DataFrame 之上实施的具有各种机器学习模型(回归、聚类、推荐系统、图形分析等)的库.
  • BigML - 与外部服务器联系的库.
  • pattern - 用于 Python 的 Web 挖掘模块.
  • NuPIC - Numenta 智能计算平台.
  • Pylearn2 - 基于的机器学习库 Theano . [已弃用]
  • keras - 高级神经网络前端 TensorFlow, CNTKTheano.
  • Lasagne - 在 Theano 中构建和训练神经网络的轻量级库.
  • hebel - Python 中的 GPU 加速深度学习库. [已弃用]
  • Chainer - 灵活的神经网络框架.
  • prophet - Facebook 提供的快速和自动化的时间序列预测框架.
  • gensim - 人类主题建模.
  • topik - 主题建模工具包. [已弃用]
  • PyBrain - 另一个 Python 机器学习库.
  • Brainstorm - 快速、灵活和有趣的神经网络. 这是 PyBrain 的继承者.
  • Surprise - 用于构建和分析推荐系统的 scikit.
  • implicit - 隐式数据集的快速 Python 协同过滤.
  • LightFM - 用于隐式和显式反馈的许多流行推荐算法的 Python 实现.
  • Crab - 灵活、快速的推荐引擎. [已弃用]
  • python-recsys - 用于实现推荐系统的 Python 库.
  • thinking bayes - 关于贝叶斯分析的书.
  • Image-to-Image Translation with Conditional Adversarial Networks - 从论文中实现图像到图像 (pix2pix) 的翻译 isola et al.[深度学习]
  • Restricted Boltzmann Machines -Python 中的受限玻尔兹曼机. 【深度学习】
  • Bolt - Bolt 在线学习工具箱. [已弃用]
  • CoverTree - 覆盖树的 Python 实现,几乎直接替换 scipy.spatial.kdtree [已弃用]
  • nilearn - Python 中神经成像的机器学习.
  • neuropredict - 针对新手机器学习者和非专家程序员,该软件包在 Python 中为 NeuroImaging 和任何其他类型的功能提供了简单(无需编码)和全面的机器学习(评估和预测性能的完整报告,无需您编码). 这旨在吸收大部分 ML 工作流程,不像 nilearn 和 pymvpa 等其他软件包,它们要求您学习它们的 API 和代码以生成任何有用的东西.
  • imbalanced-learn - 使用各种技术执行欠采样和过采样的 Python 模块.
  • Shogun - Shogun 机器学习工具箱.
  • Pyevolve - 遗传算法框架. [已弃用]
  • Caffe - 一个在开发时考虑到清洁度、可读性和速度的深度学习框架.
  • breze - 用于深度和循环神经网络的基于 Theano 的库.
  • Cortex - 用于在生产中部署机器学习模型的开源平台.
  • pyhsmm - 用于贝叶斯隐马尔可夫模型 (HMM) 和显式持续时间隐半马尔可夫模型 (HSMM) 中的近似无监督推理的库,侧重于贝叶斯非参数扩展、HDP-HMM 和 HDP-HSMM,主要使用弱极限近似.
  • SKLL - 围绕 scikit-learn 的包装器,使进行实验变得更简单.
  • neurolab
  • Spearmint - Spearmint 是根据论文中概述的算法执行贝叶斯优化的包:机器学习算法的实用贝叶斯优化. Jasper Snoek、Hugo Larochelle 和 Ryan P. Adams. 神经信息处理系统的进展,2012 年.[已弃用]
  • Pebl - 贝叶斯学习的 Python 环境. [已弃用]
  • Theano - 在 Python 中优化 GPU 元编程代码生成面向数组的优化数学编译器.
  • TensorFlow - 使用数据流图进行数值计算的开源软件库.
  • pomegranate - Python 的隐马尔可夫模型,在 Cython 中实现以提高速度和效率.
  • python-timbl - 包装完整 TiMBL C++ 编程接口的 Python 扩展模块. Timbl 是一个精心设计的 k-最近邻机器学习工具包.
  • deap - 进化算法框架.
  • pydeep - Python 中的深度学习. [已弃用]
  • mlxtend - 包含用于数据科学和机器学习任务的有用工具的库.
  • neon - 内尔瓦娜 high-performance 基于 Python 的深度学习框架 [DEEP LEARNING]. [已弃用]
  • Optunity - 一个专门用于自动超参数优化的库,带有一个简单、轻量级的 API,以促进网格搜索的插入替换.
  • Neural Networks and Deep Learning - 我的书“神经网络和深度学习”[DEEP LEARNING] 的代码示例.
  • Annoy - 近似最近邻实现.
  • TPOT - 使用遗传编程自动创建和优化机器学习管道的工具. 将其视为您的个人数据科学助手,将机器学习中乏味的部分自动化.
  • pgmpy 用于处理概率图形模型的 Python 库.
  • DIGITS - 深度学习 GPU 训练系统 (DIGITS) 是一个用于训练深度学习模型的 Web 应用程序.
  • Orange - 面向新手和专家的开源数据可视化和数据分析.
  • MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态、突变感知数据流调度器; 适用于 Python、R、Julia、Go、Javascript 等.
  • milk - 专注于监督分类的机器学习工具包. [已弃用]
  • TFLearn - 深度学习库,为 TensorFlow 提供更高级别的 API.
  • REP - 基于 IPython 的环境,用于以一致和可重复的方式进行数据驱动的研究. REP 并不试图替代 scikit-learn,而是对其进行扩展并提供更好的用户体验. [已弃用]
  • rgf_python - 正则化贪婪森林(树)库的 Python 绑定.
  • skbayes - 带有 scikit-learn API 的用于贝叶斯机器学习的 Python 包.
  • fuku-ml - 简单的机器学习库,包括感知器、回归、支持向量机、决策树等,简单易用,适合初学者学习.
  • Xcessiv - 基于 Web 的应用程序,用于快速、可扩展和自动化的超参数调整和堆叠集成.
  • PyTorch - 具有强大 GPU 加速的 Python 中的张量和动态神经网络
  • PyTorch Lightning - The lightweight PyTorch wrapper for high-performance AI research.
  • PyTorch Lightning Bolts - 供 AI/ML 研究人员使用的模型、回调和数据集工具箱.
  • skorch - 包装 PyTorch 的 scikit-learn 兼容神经网络库.
  • ML-From-Scratch - 在 Python 中从头开始实现机器学习模型,重点是透明度. 旨在以一种易于理解的方式展示 ML 的细节.
  • Edward - 用于概率建模、推理和批评的库. 建立在 TensorFlow 之上.
  • xRBM - 受限玻尔兹曼机 (RBM) 及其在 Tensorflow 中的条件变体的库.
  • CatBoost - 具有开箱即用的分类特征支持的决策树库上的通用梯度提升. 它易于安装、文档齐全并支持 CPU 和 GPU(甚至多 GPU)计算.
  • stacked_generalization - 在 Python 中将机器学习堆叠技术实现为一个方便的库.
  • modAL - 基于 scikit-learn 构建的 Python 模块化主动学习框架.
  • Cogitare:适用于 Python 的现代、快速和模块化的深度学习和机器学习框架.
  • Parris - Parris,机器学习算法的自动化基础设施设置工具.
  • neonrvm - neonrvm 是一个基于 RVM 技术的开源机器学习库. 它是用 C 编程语言编写的,并带有 Python 编程语言绑定.
  • Turi Create - 来自 Apple 的机器学习. Turi Create 简化了自定义机器学习模型的开发. 您无需成为机器学习专家即可向您的应用添加推荐、对象检测、图像分类、图像相似性或活动分类.
  • xLearn - 一个高性能、易于使用、可扩展的机器学习包,可用于解决大规模机器学习问题. xLearn 对于解决大规模稀疏数据的机器学习问题特别有用,这在诸如在线广告和推荐系统等互联网服务中非常常见.
  • mlens - 与 scikit-learn 集成的高性能、内存高效、最大并行化的集成学习.
  • Netron - 机器学习模型的可视化工具.
  • Thampi - AWS Lambda 上的机器学习预测系统
  • MindsDB - 简化神经网络使用的开源框架.
  • Microsoft Recommenders :构建推荐系统的示例和最佳实践,以 Jupyter 笔记本的形式提供. 该存储库包含来自 Microsoft Research 以及其他公司和机构的一些最新的最先进算法.
  • StellarGraph: Machine Learning on Graphs,一个用于对图结构(网络结构)数据进行机器学习的 Python 库.
  • BentoML:用于打包和部署机器学习模型以用于生产的工具包
  • MiraiML:用于连续和自主机器学习的异步引擎,专为实时使用而构建.
  • numpy-ML: 用 numpy 编写的 ML 模型的参考实现
  • Neuraxle:一个提供正确抽象的框架,以简化 ML 管道的研究、开发和部署.
  • Cornac - 多模式推荐系统的比较框架,重点是利用辅助数据的模型.
  • JAX - JAX 是 Autograd 和 XLA,结合起来用于高性能机器学习研究.
  • Catalyst - 用于 PyTorch DL 和 RL 研究的高级工具. 它的开发重点是可重复性、快速实验和代码/想法的重用. 能够研究/开发新的东西,而不是编写另一个常规的火车循环.
  • Fastai - 构建在 Pytorch 之上的高级包装器,支持视觉、文本、表格数据和协同过滤.
  • scikit-multiflow - 用于多输出/多标签和流数据的机器学习框架.
  • Lightwood - 基于 Pytorch 的框架,将机器学习问题分解为更小的块,这些块可以无缝地粘合在一起,目标是用一行代码构建预测模型.
  • bayeso - 一个简单但必不可少的贝叶斯优化包,用 Python 编写.
  • mljar-supervised - 用于表格数据的自动机器学习 (AutoML) python 包. 它可以处理:二元分类、多类分类和回归. 它提供了解释和降价报告.
  • evostra - Python 中的快速进化策略实现.
  • Determined - 可扩展的深度学习训练平台,包括对分布式训练、超参数调优、实验跟踪和模型管理的集成支持.
  • PySyft - 基于 PyTorch 和 TensorFlow 构建的用于安全和私有深度学习的 Python 库.
  • PyGrid - 数据所有者和数据科学家的点对点网络,他们可以使用 PySyft 共同训练 AI 模型
  • sktime - 一个统一的时间序列机器学习框架
  • OPFython - 受 Python 启发的 Optimum-Path Forest 分类器实现.
  • Opytimizer - 基于 Python 的元启发式优化技术.
  • Gradio - 用于快速创建和共享模型演示的 Python 库. 在浏览器中以交互方式调试模型,从合作者那里获得反馈,并在不部署任何东西的情况下生成公共链接.
  • Hub - TensorFlow/PyTorch 最快的非结构化数据集管理. 流和版本控制数据. 甚至可以将 PB 级数据存储在云上的一个类似 numpy 的数组中,可以在任何机器上访问. 访问 activeloop.ai 了解更多信息.
  • Synthia - 在 Python 中生成多维合成数据.
  • ByteHub - 易于使用、基于 Python 的功能存储. 针对时间序列数据进行了优化.
  • Backprop - Backprop makes it simple to use, finetune, and deploy state-of-the-art ML models.
  • River:通用在线机器学习框架.
  • FEDOT :用于复合建模管道自动化设计的 AutoML 框架. 它可以处理不同类型数据(包括多模态数据集)的分类、回归和时间序列预测任务.

Data Analysis / Data Visualization

  • DataVisualization - 一个 Github 存储库,您可以在其中学习数据可视化基础知识到中级水平.
  • Cartopy - Cartopy 是一个 Python 包,用于地理空间数据处理,以生成地图和其他地理空间数据分析.
  • SciPy - 基于 Python 的数学、科学和工程开源软件生态系统.
  • NumPy - 使用 Python 进行科学计算的基本包.
  • AutoViz AutoViz 使用一行 Python 代码对任何数据集执行自动可视化. 给它任何大小的任何输入文件(CSV、txt 或 json),AutoViz 将对其进行可视化. 请参阅中等文章.
  • Numba - Python JIT(及时)编译器到 LLVM,由 Cython 和 NumPy 的开发人员针对科学 Python.
  • Mars - 用于大规模数据计算的基于张量的框架,通常被视为 NumPy 的并行和分布式版本.
  • NetworkX - 复杂网络的高生产力软件.
  • igraph - 绑定到 igraph 库 - 通用图形库.
  • Pandas - 一个提供高性能、易于使用的数据结构和数据分析工具的库.
  • ParaMonte - 通过串行/并行蒙特卡罗和 MCMC 模拟进行贝叶斯数据分析和可视化的通用 Python 库. 可以找到文档 here.
  • Open Mining - Python 中的商业智能 (BI)(Pandas Web 界面)[​​已弃用]
  • PyMC - 马尔可夫链蒙特卡罗采样工具包.
  • zipline - 一个 Pythonic 算法交易库.
  • PyDy - Python Dynamics 的缩写,用于在基于 NumPy、SciPy、IPython 和 matplotlib 的动态运动建模中协助工作流.
  • SymPy - 用于符号数学的 Python 库.
  • statsmodels - Python 中的统计建模和计量经济学.
  • astropy - 用于天文学的社区 Python 库.
  • matplotlib - Python 2D 绘图库.
  • bokeh - 用于 Python 的交互式网络绘图.
  • plotly - 用于 Python 和 matplotlib 的协作网络绘图.
  • altair - 一个 Python 到 Vega 的翻译器.
  • d3py - 基于 Python 的绘图库 D3.js.
  • PyDexter - 简单的 Python 绘图. D3xterjs 的包装器; 轻松在浏览器中呈现图表.
  • ggplot - 与 R 的 ggplot2 相同的 API.[已弃用]
  • ggfortify - ggplot2 流行的 R 包的统一接口.
  • Kartograph.py - 在 Python 中渲染漂亮的 SVG 地图.
  • pygal - Python SVG 图表创建器.
  • PyQtGraph - 基于 PyQt4 / PySide 和 NumPy 构建的纯 Python 图形和 GUI 库.
  • pycascading [已弃用]
  • Petrel - 用纯 Python 编写、提交、调试和监控 Storm 拓扑的工具.
  • Blaze - NumPy 和 Pandas 与大数据的接口.
  • emcee - 用于仿射不变 MCMC 的 Python 集成采样工具包.
  • windML - 风能分析和预测的 Python 框架.
  • vispy - 基于 GPU 的高性能交互式 OpenGL 2D/3D 数据可视化库.
  • cerebro2 NuPIC 的基于 Web 的可视化和调试平台. [已弃用]
  • NuPIC Studio 一个多合一的 NuPIC Hierarchical Temporal Memory 可视化和调试超级工具! [已弃用]
  • SparklingPandas PySpark (POPS) 上的 Pandas.
  • Seaborn - 基于 matplotlib 的 Python 可视化库.
  • bqplot - 用于在 Jupyter (IPython) 中绘图的 API.
  • pastalog - 神经网络训练性能的简单、实时可视化.
  • Superset - 设计为可视化、直观和交互的数据探索平台.
  • Dora - 在 Python 中进行探索性数据分析的工具.
  • Ruffus - python的计算管道库.
  • SOMPY - 用 Python 编写的自组织地图(使用神经网络进行数据分析).
  • somoclu 大规模并行自组织映射:在多核 CPU、GPU 和集群上加速训练,具有 Python API.
  • HDBScan - 在 Python 中实现 hdbscan 算法 - 用于聚类
  • visualize_ML - 用于数据探索和数据分析的 Python 包. [已弃用]
  • scikit-plot - 一个可视化库,用于快速轻松地生成数据分析和机器学习中的常见绘图.
  • Bowtie - 使用flask socketio和react进行交互式可视化的仪表板库.
  • lime - Lime 是关于解释机器学习分类器(或模型)正在做什么. 它能够解释任何具有两个或更多类的黑盒分类器.
  • PyCM - PyCM 是一个用 Python 编写的多类混淆矩阵库,它支持输入数据向量和直接矩阵,是一个合适的分类后模型评估工具,支持大多数类和整体统计参数
  • Dash - A framework for creating analytical web applications built on top of Plotly.js, React, and Flask
  • Lambdo - 通过结合在一个分析管道中来解决机器学习问题的工作流引擎 (i) 特征工程和机器学习 (ii) 模型训练和预测 (iii) 通过用户定义的 (Python) 函数进行表填充和列评估.
  • TensorWatch - 用于机器学习和数据科学的调试和可视化工具. 它广泛利用 Jupyter Notebook 来显示运行过程中数据的实时可视化,例如机器学习训练.
  • dowel - 用于机器学习研究的小记录器. 只需调用一次“logger.log()”,即可将任何对象输出到终端、CSV、TensorBoard、磁盘上的文本日志等.

Misc Scripts / iPython Notebooks / Codebases

Neural Networks

  • nn_builder - nn_builder 是一个 Python 包,可让您在 1 行中构建神经网络
  • NeuralTalk - NeuralTalk 是一个 Python+numpy 项目,用于学习用句子描述图像的多模态循环神经网络.
  • Neuron - 神经元是用于时间序列预测的简单类. 它利用 LNU(线性神经单元)、QNU(二次神经单元)、RBF(径向基函数)、MLP(多层感知器)、MLP-ELM(多层感知器 - 极限学习机)神经网络通过梯度下降或 LeLevenberg 学习– 马夸特算法.

  • NeuralTalk - NeuralTalk 是一个 Python+numpy 项目,用于学习用句子描述图像的多模态循环神经网络. [已弃用]

  • Neuron - 神经元是用于时间序列预测的简单类. 它利用 LNU(线性神经单元)、QNU(二次神经单元)、RBF(径向基函数)、MLP(多层感知器)、MLP-ELM(多层感知器 - 极限学习机)神经网络通过梯度下降或 LeLevenberg 学习– 马夸特算法. [已弃用]
  • Data Driven Code - 非常简单的 Python 虚拟人神经网络实现,无需使用任何库,并附有详细注释.
  • Machine Learning, Data Science and Deep Learning with Python - LiveVideo 课程,涵盖机器学习、Tensorflow、人工智能和神经网络.
  • TResNet: High Performance GPU-Dedicated Architecture - TResNet 模型经过设计和优化,以在 GPU 上提供最佳的速度-精度权衡.
  • TResNet: Simple and powerful neural network library for python - 各种支持类型的人工神经网络和学习算法.
  • Jina AI 在云中构建神经搜索的更简单方法. 与 Jupyter 笔记本兼容.
  • sequitur PyTorch 库,只需两行代码即可创建和训练序列自动编码器

Kaggle Competition Source Code

Reinforcement Learning

  • DeepMind Lab - DeepMind Lab 是基于 id Software 的 Quake III Arena 通过 ioquake3 等开源软件构建的 3D 学习环境. 它的主要目的是作为人工智能研究的试验台,尤其是深度强化学习.
  • Gym - OpenAI Gym 是一个用于开发和比较强化学习算法的工具包.
  • Serpent.AI - Serpent.AI 是一个游戏代理框架,可让您将拥有的任何视频游戏变成沙箱,以开发 AI 和机器学习实验. 对于研究人员和业余爱好者.
  • ViZDoom - ViZDoom 允许开发仅使用视觉信息(屏幕缓冲区)玩 Doom 的 AI 机器人. 它主要用于机器视觉学习,特别是深度强化学习的研究.
  • Roboschool - 用于机器人模拟的开源软件,与 OpenAI Gym 集成.
  • Retro - 健身房的复古游戏
  • SLM Lab - PyTorch 中的模块化深度强化学习框架.
  • Coach - 英特尔® 人工智能实验室的强化学习教练可以使用最先进的强化学习算法轻松进行实验
  • garage - 可重复强化学习研究的工具包
  • metaworld - 用于元和多任务强化学习的开源机器人基准
  • acme - 用于强化学习的开源分布式框架,可以轻松构建和训练您的代理.
  • Spinning Up - 旨在让任何人学习成为深度强化学习熟练从业者的教育资源
  • Maze - 面向应用的深度强化学习框架,解决现实世界的决策问题.

Ruby

Natural Language Processing

  • Awesome NLP with Ruby - 用于在 Ruby 中进行实用自然语言处理的精选链接列表.
  • Treat - 文本检索和注释工具包,绝对是迄今为止我遇到的最全面的 Ruby 工具包.
  • Stemmer - 将 libstemmer_c 暴露给 Ruby. [已弃用]
  • Raspell - raspell 是 ruby​​ 的接口绑定. [已弃用]
  • UEA Stemmer - UEALite Stemmer 的 Ruby 端口 - 用于搜索和索引的保守词干分析器.
  • Twitter-text-rb - 自动链接和提取推文中的用户名、列表和主题标签的库.

General-Purpose Machine Learning

Data Analysis / Data Visualization

  • rsruby - 红宝石 - R 桥.
  • ruby-plot - Ruby 的 gnuplot 包装器,特别是用于将 ROC 曲线绘制成 SVG 文件. [已弃用]
  • plot-rb - 建立在 Vega 和 D3 之上的 Ruby 绘图库. [已弃用]
  • scruffy - 一个漂亮的 Ruby 图形工具包.
  • SciRuby
  • Glean - 人类的数据管理工具. [已弃用]
  • Bioruby
  • Arel [已弃用]

Misc

Rust

General-Purpose Machine Learning

  • deeplearn-rs - deeplearn-rs 在 MIT 许可下提供使用矩阵乘法、加法和 ReLU 的简单网络.
  • rustlearn - 以逻辑回归、支持向量机、决策树和随机森林为特色的机器学习框架.
  • rusty-machine - 一个纯 Rust 机器学习库.
  • leaf - open source framework for machine intelligence, sharing concepts from TensorFlow and Caffe. Available under the MIT license. [Deprecated]
  • RustNN - RustNN 是一个前馈神经网络库. [已弃用]
  • RusticSOM - 自组织地图 (SOM) 的 Rust 库.

R

General-Purpose Machine Learning

  • ahaz - ahaz:半参数加性风险回归的正则化. [已弃用]
  • arules - 规则:挖掘关联规则和频繁项集
  • biglasso - biglasso:将套索模型拟合扩展到 R 中的大数据.
  • bmrm - bmrm:正规化风险最小化包的捆绑方法.
  • Boruta - Boruta:用于所有相关特征选择的包装算法.
  • bst - bst:梯度提升.
  • C50 - C50: C5.0 Decision Trees and Rule-Based Models.
  • caret - 分类和回归训练:R 中 ~150 ML 算法的统一接口.
  • caretEnsemble - caretEnsemble:用于拟合多个插入符号模型以及创建此类模型的集合的框架. [已弃用]
  • CatBoost - 决策树库上的通用梯度提升,支持 R 开箱即用的分类特征.
  • Clever Algorithms For Machine Learning
  • CORElearn - CORElearn:分类、回归、特征评估和序数评估.
  • CoxBoost - CoxBoost:Cox 模型通过基于可能性的单个生存终点或竞争风险的提升 [已弃用]
  • Cubist - Cubist:基于规则和实例的回归建模.
  • e1071 - e1071:统计部的其他职能 (e1071),TU Wien
  • earth - 地球:多元自适应回归样条模型
  • elasticnet - elasticnet:用于稀疏估计和稀疏 PCA 的 Elastic-Net.
  • ElemStatLearn - ElemStatLearn:书中的数据集、函数和示例:Trevor Hastie、Robert Tibshirani 和 Jerome Friedman 的“统计学习、数据挖掘、推理和预测的要素”,Trevor Hastie、Robert Tibshirani 和 Jerome Friedman 的“预测”.
  • evtree - evtree:全局最优树的进化学习.
  • forecast - 预测:使用 ARIMA、ETS、STLM、TBTS 和神经网络模型进行时间序列预测.
  • forecastHybrid -forecastHybrid:自动集成和交叉验证 ARIMA、ETS、STLM、TBTS 和“预测”包中的神经网络模型.
  • fpc - fpc:灵活的聚类程序.
  • frbs - frbs:用于分类和回归任务的基于模糊规则的系统. [已弃用]
  • GAMBoost - GAMBoost:通过基于似然提升的广义线性和加法模型. [已弃用]
  • gamboostLSS - gamboostLSS:GAMLSS 的提升方法.
  • gbm - gbm:广义提升回归模型.
  • glmnet - glmnet:套索和弹性网正则化广义线性模型.
  • glmpath - glmpath:广义线性模型和 Cox 比例风险模型的 L1 正则化路径.
  • GMMBoost - GMMBoost:广义混合模型的基于似然的提升. [已弃用]
  • grplasso - grplasso:使用组套索惩罚拟合用户指定的模型.
  • grpreg - grpreg:具有分组协变量的回归模型的正则化路径.
  • h2o - 大规模快速、并行和分布式机器学习算法的框架——深度学习、随机森林、GBM、KMeans、PCA、GLM.
  • hda - hda:异方差判别分析. [已弃用]
  • Introduction to Statistical Learning
  • ipred - ipred:改进的预测器.
  • kernlab - kernlab:基于内核的机器学习实验室.
  • klaR - klaR:分类和可视化.
  • L0Learn - L0Learn:用于最佳子集选择的快速算法.
  • lars - lars:最小角度回归,Lasso 和 Forward Stagewise. [已弃用]
  • lasso2 - lasso2:L1 约束估计又名“套索”.
  • LiblineaR - LiblineaR:基于 Liblinear C/C++ 库的线性预测模型.
  • LogicReg - LogicReg:逻辑回归.
  • Machine Learning For Hackers
  • maptree - maptree:映射、修剪和绘制树模型. [已弃用]
  • mboost - mboost:基于模型的提升.
  • medley - medley:混合回归模型,使用贪婪的逐步方法.
  • mlr - mlr:R 中的机器学习.
  • ncvreg - ncvreg:SCAD 和 MCP 惩罚回归模型的正则化路径.
  • nnet - nnet:前馈神经网络和多项对数线性模型. [已弃用]
  • pamr - pamr:Pam:微阵列预测分析. [已弃用]
  • party - 派对:递归分区实验室
  • partykit - partykit:递归分区工具包.
  • penalized - 惩罚:L1(套索和融合套索)和 L2(岭)惩罚估计在 GLM 和 Cox 模型中.
  • penalizedLDA - penalizedLDA:使用 Fisher 线性判别式的惩罚分类. [已弃用]
  • penalizedSVM - penalizedSVM:使用惩罚函数的特征选择 SVM.
  • quantregForest - quantregForest:分位数回归森林.
  • randomForest - randomForest:用于分类和回归的 Breiman 和 Cutler 随机森林.
  • randomForestSRC - randomForestSRC:用于生存、回归和分类的随机森林 (RF-SRC).
  • rattle - 拨浪鼓:R 中用于数据挖掘的图形用户界面.
  • rda - rda:收缩质心正则化判别分析.
  • rdetools - rdetools:特征空间中的相关维度估计 (RDE). [已弃用]
  • REEMtree - REEMtree:对纵向(面板)数据具有随机效应的回归树. [已弃用]
  • relaxo -relaxo:放松套索. [已弃用]
  • rgenoud - rgenoud:使用导数进行遗传优化的 R 版本
  • Rmalschains - Rmalschains:在 R 中使用带有局部搜索链(MA-LS-Chains)的模因算法进行连续优化.
  • rminer - rminer:在分类和回归中更简单地使用数据挖掘方法(例如 NN 和 SVM). [已弃用]
  • ROCR - ROCR:可视化评分分类器的性能. [已弃用]
  • RoughSets - 粗糙集:使用粗糙集和模糊粗糙集理论进行数据分析. [已弃用]
  • rpart - rpart:递归分区和回归树.
  • RPMM - RPMM:递归分区混合模型.
  • RSNNS - RSNNS:使用斯图加特神经网络模拟器 (SNNS) 的 R 神经网络.
  • RWeka - 设置:R/Apply 接口.
  • RXshrink - RXshrink:通过广义脊或最小角度回归的最大似然收缩.
  • sda - sda:收缩判别分析和 CAT 分数变量选择. [已弃用]
  • spectralGraphTopology - 谱图拓扑:通过谱约束从数据中学习图.
  • SuperLearner - 多算法集成学习包.
  • svmpath - svmpath:svmpath:SVM 路径算法. [已弃用]
  • tgp - tgp:贝叶斯树状高斯过程模型. [已弃用]
  • tree - 树:分类和回归树.
  • varSelRF - varSelRF:使用随机森林的变量选择.
  • XGBoost.R - 极限梯度提升(树)库的 R 绑定.
  • Optunity - 一个专门用于自动超参数优化的库,带有一个简单、轻量级的 API,以促进网格搜索的插入替换. Optunity 是用 Python 编写的,但可以无缝连接到 R.
  • igraph - 绑定到 igraph 库 - 通用图形库.
  • MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态、突变感知数据流调度器; 适用于 Python、R、Julia、Go、Javascript 等.
  • TDSP-Utilities - Microsoft 的两个 R 数据科学实用程序:1) 交互式数据探索、分析和报告 (IDEAR); 2) 自动建模和报告 (AMR).

Data Manipulation | Data Analysis | Data Visualization

  • dplyr - 一个数据操作包,有助于解决最常见的数据操作问题.
  • ggplot2 - 基于图形语法的数据可视化包.
  • tmap 用于使用静态地图可视化地理空间数据和 leaflet 用于交互式地图
  • tmquanteda are the main packages for managing, analyzing, 和 visualizing textual data.
  • shiny 是 R 中真正交互式显示和仪表板的基础.但是,可以通过 htmlwidgets 将 javascript 库引入 R.这些包括, plotly, dygraphs, highcharter,和其他几个.

SAS

General-Purpose Machine Learning

  • Visual Data Mining and Machine Learning - 在端到端分析环境中使用最新机器学习算法进行交互式、自动化和编程建模,从数据准备到部署. 提供免费试用.
  • Enterprise Miner - 使用 GUI 或代码创建可部署模型的数据挖掘和机器学习.
  • Factory Miner - 使用 GUI 自动创建跨众多市场或客户细分市场的可部署机器学习模型.

Data Analysis / Data Visualization

  • SAS/STAT - 用于进行高级统计分析.
  • University Edition - 自由! 包括数据分析和可视化所需的所有 SAS 包,并包括在线 SAS 课程.

Natural Language Processing

Demos and Scripts

  • ML_Tables - 包含机器学习最佳实践的简明备忘单.
  • enlighten-apply - 说明 SAS 机器学习技术应用的示例代码和材料.
  • enlighten-integration - 示例代码和材料说明了将 SAS 与 Java、PMML、Python 和 R 中的其他分析技术集成的技术.
  • enlighten-deep - 示例代码和材料说明在 SAS 中使用具有多个隐藏层的神经网络.
  • dm-flow - SAS Enterprise Miner 过程流程图库,可帮助您通过示例了解特定数据挖掘主题.

Scala

Natural Language Processing

  • ScalaNLP - ScalaNLP 是一套机器学习和数值计算库.
  • Breeze - Breeze 是 Scala 的数值处理库.
  • Chalk - Chalk 是一个自然语言处理库. [已弃用]
  • FACTORIE - FACTORIE 是一个用于可部署概率建模的工具包,在 Scala 中作为软件库实现. 它为用户提供了一种简洁的语言,用于创建关系因子图、估计参数和执行推理.
  • Montague - Montague 是 Scala 的语义解析库,具有易于使用的 DSL.
  • Spark NLP - 构建在 Apache Spark ML 之上的自然语言处理库,为机器学习管道提供简单、高性能和准确的 NLP 注释,可在分布式环境中轻松扩展.

Data Analysis / Data Visualization

  • NDScala - Scala 3 中的 N 维数组.考虑 NumPy ndarray,但对形状、张量/轴标签和数字数据类型进行编译时类型检查/推断
  • MLlib in Apache Spark - Spark 中的分布式机器学习库
  • Hydrosphere Mist - 用于将 Apache Spark MLLib 机器学习模型部署为实时、批处理或反应式 Web 服务的服务.
  • Scalding - 用于级联的 Scala API.
  • Summing Bird - 使用 Scalding 和 Storm 流式传输 MapReduce.
  • Algebird - Scala 的抽象代数.
  • xerial - Scala 的数据管理实用程序. [已弃用]
  • PredictionIO - PredictionIO,一个面向软件开发人员和数据工程师的机器学习服务器.
  • BIDMat - 旨在支持大规模探索性数据分析的 CPU 和 GPU 加速矩阵库.
  • Flink - 用于分布式流和批处理数据处理的开源平台.
  • Spark Notebook - 使用 Scala 和 Spark 的交互式和反应性数据科学.

General-Purpose Machine Learning

  • Microsoft ML for Apache Spark -> 分布式机器学习框架 Apache Spark
  • ONNX-Scala - 用于 Scala 中类型化、功能性深度学习的 ONNX(开放神经网络交换)API 和后端 (3).
  • DeepLearning.scala - 从面向对象和函数式编程构造创建静态类型的动态神经网络.
  • Conjecture - 烫伤中的可扩展机器学习.
  • brushfire - Scala 中的分布式决策树集成学习.
  • ganitha - 烫伤驱动的机器学习. [已弃用]
  • adam - 使用 Apache Avro、Apache Spark 和 Parquet 构建的基因组处理引擎和专用文件格式. Apache 2 许可.
  • bioscala - Scala 编程语言的生物信息学
  • BIDMach - CPU 和 GPU 加速的机器学习库.
  • Figaro - 用于构建概率模型的 Scala 库.
  • H2O Sparkling Water - H2O 和 Spark 互操作性.
  • FlinkML in Apache Flink - Flink 中的分布式机器学习库.
  • DynaML - 用于机器学习研究的 Scala 库/REPL.
  • Saul - 灵活的基于声明式学习的编程.
  • SwiftLearner - 简单编写的算法来帮助学习 ML 或编写您自己的实现.
  • Smile - 统计机器智能和学习引擎.
  • doddle-model - 建立在 Breeze 之上的内存机器学习库. 它提供不可变对象并通过类似 scikit-learn 的 API 公开其功能.
  • TensorFlow Scala - 用于 TensorFlow 的强类型 Scala API.

Scheme

Neural Networks

Swift

General-Purpose Machine Learning

  • Bender - 建立在 Metal 之上的快速神经网络框架. 支持 TensorFlow 模型.
  • Swift AI - 用 Swift 编写的高度优化的人工智能和机器学习库.
  • Swift for Tensorflow - 下一代机器学习平台,融合了机器学习、编译器、可微分编程、系统设计等方面的最新研究.
  • BrainCore - iOS 和 OS X 神经网络框架.
  • swix - 一个包含通用矩阵语言并包装一些用于 iOS 开发的 OpenCV 的基本库. [已弃用]
  • AIToolbox - 用 Swift 编写的 AI 模块工具箱框架:图/树、线性回归、支持向量机、神经网络、PCA、KMeans、遗传算法、MDP、高斯混合.
  • MLKit - 一个用 Swift 编写的简单机器学习框架. 目前具有简单线性回归、多项式回归和岭回归.
  • Swift Brain - 第一个用 Swift 编写的神经网络/机器学习库. 这是一个在 Swift 中用于 iOS 和 OS X 开发的 AI 算法项目. 该项目包括专注于贝叶斯定理、神经网络、SVM、矩阵等的算法......
  • Perfect TensorFlow - TensorFlow 的 Swift 语言绑定. 在 macOS / Linux 上使用原生 TensorFlow 模型.
  • PredictionBuilder - 使用线性回归构建预测的机器学习库.
  • Awesome CoreML - 预训练 CoreML 模型的精选列表.
  • Awesome Core ML Models - CoreML 格式的机器学习模型精选列表.

TensorFlow

General-Purpose Machine Learning

Tools

Neural Networks

  • layer - 从命令行进行神经网络推理

Misc

  • MLReef - MLReef 是一个端到端的开发平台,利用 git 的力量为 ML 开发过程提供结构和深度协作的可能性.
  • Pinecone - 用于需要实时、可扩展矢量嵌入和相似性搜索的应用程序的矢量数据库.
  • CatalyzeX - 浏览器扩展(ChromeFirefox) that automatically finds 和 shows code implementations for machine learning papers anywhere: Google, Twitter, Arxiv, Scholar, etc.
  • ML Workspace - 用于机器学习和数据科学的多合一基于 Web 的 IDE. 工作区部署为 docker 容器,并预加载了各种流行的数据科学库(例如 Tensorflow、PyTorch)和开发工具(例如 Jupyter、VS Code).
  • Notebooks - Jupyter 笔记本和机器学习的入门套件. 配套 docker 镜像包含 Python 版本、机器学习框架(Keras、PyTorch 和 Tensorflow)和 CPU/CUDA 版本的所有组合.
  • DVC - 数据科学版本控制是一个开源版本控制系统,用于支持管道的机器学习项目. 它使 ML 项目具有可复制性和可共享性.
  • Kedro - Kedro 是一个数据和开发工作流框架,它实现了数据管道的最佳实践,着眼于生产化机器学习模型.
  • guild.ai - 记录、分析、比较和“优化”实验的工具. 它是跨平台和独立于框架的,并提供了集成的可视化工具,例如 tensorboard.
  • Sacred - 可帮助您配置、组织、记录和重现实验的 Python 工具. 就像化学/生物学背景下的笔记本实验室. 社区已经利用提议的标准构建了多个附加组件.
  • MLFlow - 管理机器学习生命周期的平台,包括实验、再现性和部署. 与框架和语言无关,查看所有内置集成.
  • Weights & Biases - 机器学习实验跟踪、数据集版本控制、超参数搜索、可视化和协作
  • 更多改进机器学习生命周期的工具: Catalyst, PachydermIO . 以下是类似 Github 的目标团队 Weights & Biases, Neptune.Ml, Comet.ml, Valohai.ai, DAGsHub.
  • MachineLearningWithTensorFlow2ed - 一本关于通用机器学习技术回归、分类、无监督聚类、强化学习、自动编码器、卷积神经网络、RNN、LSTM 的书,使用 TensorFlow 1.14.1.
  • m2cgen - A tool that allows the conversion of ML models into native code (Java, C, Python, Go, JavaScript, Visual Basic, C#, R, PowerShell, PHP, Dart) with zero dependencies.
  • CML - 用于与 ML 项目进行持续集成的库. 使用 GitHub Actions 和 GitLab CI 在类似生产环境中训练和评估模型,并在拉取/合并请求中自动生成带有指标和图表的可视化报告. 框架和语言不可知论.
  • Pythonizr - 使用 scikit-learn 生成样板机器学习代码的在线工具.
  • Flyte - Flyte 可以轻松为机器学习和数据处理创建并发、可扩展和可维护的工作流.

Credits