机器学习

Awesome Machine Learning Awesome

精选的很棒的机器学习框架,库和软件的列表(按语言). 受到awesome-php的启发.

如果您想对此列表做出贡献(请这样做),请向我发送请求请求或与我联系 @josephmisiti. 另外,在以下情况下,不建议使用列出的存储库:

  • Repository's owner explicitly say that "this library is not maintained". *长时间(2〜3年)没提交.

更多资源:

*有关可下载的免费机器学习书籍列表,请访问 here.

*有关专业机器学习事件的列表,请转到 here.

*有关在线提供的(主要是)免费的机器学习课程的列表,请访问 here.

*有关数据科学和机器学习的博客和新闻通讯的列表,请访问 here.

*有关免费参加的聚会和本地活动的列表,请访问 here.

Frameworks and Libraries

APL

General-Purpose Machine Learning

  • naive-apl -APL中的朴素贝叶斯分类器实现. [不推荐使用]

C

General-Purpose Machine Learning

  • Darknet -Darknet是一个用C和CUDA编写的开源神经网络框架. 它快速,易于安装,并支持CPU和GPU计算.
  • Recommender -使用协作过滤(CF)的产品推荐/建议的AC库.
  • Hybrid Recommender System -基于scikit-learn算法的混合推荐系统. [不推荐使用]
  • neonrvm -neonrvm是基于RVM技术的开源机器学习库. 它是用C编程语言编写的,并带有Python编程语言绑定.
  • cONNXr -用纯C(99)编写的“ ONNX”运行时,零依赖关系集中在小型嵌入式设备上. 无论您使用哪种框架训练推理,都可以在您的机器学习模型上进行推理. 易于安装并在任何地方编译,即使是在非常旧的设备中也是如此.
  • libonnx - A lightweight, portable pure C99 onnx inference engine for embedded devices with hardware acceleration support.

Computer Vision

  • CCV -基于C /缓存/核心的计算机视觉库,现代计算机视觉库.
  • VLFeat -VLFeat是一个开放和可移植的计算机视觉算法库,具有Matlab工具箱.

C++

Computer Vision

  • DLib -DLib具有用于人脸检测和训练通用对象检测器的C ++和Python接口.
  • EBLearn -Eblearn是一个面向对象的C ++库,实现了各种机器学习模型 [不推荐使用]
  • OpenCV -OpenCV具有C ++,C,Python,Java和MATLAB接口,并支持Windows,Linux,Android和Mac OS.
  • VIGRA -VIGRA是一个通用的跨平台C ++计算机视觉和机器学习库,用于使用Python绑定的任意维度的体积.
  • Openpose -实时的多人关键点检测库,用于身体,面部,手和脚的估计

General-Purpose Machine Learning

  • BanditLib -一个简单的多武装Bandit库. [不推荐使用]
  • Caffe -开发深度学习框架时要考虑到清洁度,可读性和速度. [深度学习]
  • CatBoost -带有分类功能的决策树库具有通用梯度增强功能,开箱即用. 它易于安装,包含快速推理实现,并支持CPU和GPU(甚至是多GPU)计算.
  • CNTK -Microsoft Research提供的计算网络工具包(CNTK)是一个统一的深度学习工具包,该工具包通过有向图将神经网络描述为一系列计算步骤.
  • CUDA -这是卷积的快速C ++ / CUDA实现[DEEP LEARNING]
  • DeepDetect -用C ++ 11编写的机器学习API和服务器. 它使最先进的机器学习易于使用并集成到现有应用程序中.
  • Distributed Machine learning Tool Kit (DMTK) -Microsoft提供的分布式机器学习(参数服务器)框架. 在多台机器上的大型数据集上启用训练模型. 与它捆绑在一起的当前工具包括:LightLDA和分布式(多义)词嵌入.
  • DLib -一套易于嵌入其他应用程序的ML工具.
  • DSSTNE -亚马逊创建的一个软件库,用于使用GPU训练和部署深度神经网络,该软件库着重于速度和规模上的实验灵活性.
  • DyNet -动态神经网络库可与具有随每个训练实例而变化的动态结构的网络很好地配合使用. 用C ++编写,并带有Python绑定.
  • Fido -用于嵌入式电子和机器人技术的高度模块化的C ++机器学习库.
  • igraph -通用图形库.
  • Intel(R) DAAL -由英特尔开发并针对英特尔架构进行了优化的高性能软件库. 库为数据分析的所有阶段提供了算法构建块,并允许以批处理,联机和分布式模式处理数据.
  • LightGBM -微软基于决策树算法的快速,分布式,高性能梯度提升(GBDT,GBRT,GBM或MART)框架,用于排名,分类和许多其他机器学习任务.
  • libfm -一种通用方法,可以通过特征工程模拟大多数分解模型.
  • MLDB - The Machine Learning Database is a database designed for machine learning. Send it commands over a RESTful API to store data, explore it using SQL, then train machine learning models and expose them as APIs.
  • mlpack -可扩展的C ++机器学习库.
  • MXNet -具有动态,可感知突变的Dataflow Dep Scheduler的轻型,便携式,灵活的分布式/移动深度学习; 适用于Python,R,Julia,Go,Javascript等.
  • ParaMonte -具有C / C ++接口的通用库,用于通过串行/并行Monte Carlo和MCMC模拟进行贝叶斯数据分析和可视化. 可以找到文件 here.
  • proNet-core -通用的网络嵌入框架:成对表示优化Network Edit.
  • PyCUDA -CUDA的Python界面
  • ROOT -模块化的科学软件框架. 它提供了处理大数据处理,统计分析,可视化和存储所需的所有功能.
  • shark -快速,模块化,功能丰富的开源C ++机器学习库.
  • Shogun -Shogun机器学习工具箱.
  • sofia-ml -快速增量算法套件.
  • Stan -用汉密尔顿蒙特卡洛采样实现完整贝叶斯统计推断的概率编程语言.
  • Timbl -软件包/ C ++库,实现了几种基于内存的学习算法,其中IB1-IG是k最近邻分类的实现,而IGTree是IB1-IG的决策树近似. 常用于NLP.
  • Vowpal Wabbit (VW) -快速的核心外学习系统.
  • Warp-CTC -在CPU和GPU上快速并行实现Connectionist时间分类(CTC).
  • XGBoost -并行优化的通用梯度提升库.
  • ThunderGBM -用于GPU上的GBDT和随机森林的快速库.
  • ThunderSVM -GPU和CPU上的快速SVM库.
  • LKYDeepNN -仅标头的C ++ 11神经网络库. 低依赖性,本地繁体中文文档.
  • xLearn -高性能,易于使用且可扩展的机器学习套件,可用于解决大规模的机器学习问题. xLearn对于解决大规模稀疏数据上的机器学习问题特别有用,这在Internet服务(例如在线广告和推荐系统)中非常常见.
  • Featuretools -用于自动特征工程的库. 它擅长使用可重复使用的特征工程“基元”将事务和关系数据集转换为用于机器学习的特征矩阵.
  • skynet - A library for learning neural networks, has C-interface, net set in JSON. Written in C++ with bindings in Python, C++ and C#.
  • Feast -用于管理,发现和访问机器学习功能的功能存储. Feast可为模型训练和模型服务提供一致的特征数据视图.
  • Hopsworks -带有行业首个开源功能存储的AI数据密集型平台. Hopsworks Feature Store为基于Apache Hive的培训和批处理提供了一个功能库,并为在线应用程序提供了基于MySQL Cluster的功能服务数据库.
  • Polyaxon -用于可重现和可扩展的机器学习和深度学习的平台.

Natural Language Processing

  • BLLIP Parser -BLLIP自然语言解析器(也称为Charniak-Johnson解析器).
  • colibri-core -C ++库,命令行工具和Python绑定,用于以快速且节省内存的方式提取和使用基本语言结构(例如n-gram和skipgram).
  • CRF++ -条件随机字段(CRF)的开源实现,用于分段/标记顺序数据和其他自然语言处理任务. [不推荐使用]
  • CRFsuite -CRFsuite是用于标记顺序数据的条件随机字段(CRF)的实现. [不推荐使用]
  • frog -为荷兰人开发的基于内存的NLP套件:PoS标记器,lemmatiser,依赖项解析器,NER,浅层解析器,形态分析器.
  • libfolia -的C ++库 FoLiA format
  • MeTA - MeTA : ModErn Text Analysis 是一个C ++ Data Sciences Toolkit,可帮助挖掘大文本数据.
  • MIT Information Extraction Toolkit -用于命名实体识别和关系提取的C,C ++和Python工具
  • ucto -适用于各种语言的基于Unicode的正则表达式标记器. 工具和C ++库. 支持FoLiA格式.

Speech Recognition

  • Kaldi -Kaldi是使用C ++编写的语音识别工具包,并根据Apache License v2.0获得许可. Kaldi供语音识别研究人员使用.

Sequence Analysis

  • ToPS -这是一个面向对象的框架,有助于集成用户定义字母序列上的概率模型. [不推荐使用]

Gesture Detection

  • grt -手势识别工具包(GRT)是跨平台的,开放源代码的C ++机器学习库,旨在用于实时手势识别.

Common Lisp

General-Purpose Machine Learning

  • mgl -神经网络(玻尔兹曼机,前馈和递归网络),高斯过程.
  • mgl-gpr -进化算法. [不推荐使用]
  • cl-libsvm -libsvm支持向量机库的包装. [不推荐使用]
  • cl-online-learning -在线学习算法(Perceptron,AROW,SCW,Logistic回归).
  • cl-random-forest -在Common Lisp中实施随机森林.

Clojure

Natural Language Processing

General-Purpose Machine Learning

  • tech.ml -基于tech.ml.dataset的机器学习平台,不仅支持ml算法,还支持相关的ETL处理; 包装多个机器学习库
  • clj-ml -在Weka和朋友的基础上建立的Clojure机器学习库.
  • clj-boost -XGBoost包装器
  • Touchstone -Clojure A / B测试库.
  • Clojush -在Clojure中实现的Push编程语言和PushGP基因编程系统.
  • lambda-ml -Clojure中机器学习技术和实用程序的简单,简洁的实现.
  • Infer -Clojure中的推理和机器学习. [不推荐使用]
  • Encog -Encog(v3)的Clojure包装器(专门研究神经网络的机器学习框架). [不推荐使用]
  • Fungp -Clojure的基因编程库. [不推荐使用]
  • Statistiker -Clojure中的基本机器学习算法. [不推荐使用]
  • clortex -使用Numenta皮质学习算法的通用机器学习库. [不推荐使用]
  • comportex -使用Numenta的皮质学习算法的功能可组合的机器学习库. [不推荐使用]

Deep Learning

  • MXNet - Bindings to Apache MXNet - part of the MXNet project
  • Deep Diamond -快速的Clojure张量和深度学习库
  • jutsu.ai -Clojure包装器,用于Deeplearning4j,并添加了一些语法糖.
  • cortex -Clojure中的神经网络,回归和特征学习.
  • Flare -Clojure中的动态Tensor图库(请考虑PyTorch,DynNet等)
  • dl4clj -Deeplearning4j的Clojure包装器.

Data Analysis

  • tech.ml.dataset -Clojure数据框库和管道,用于数据处理和机器学习
  • Tablecloth -封装了tech.ml.dataset的数据框语法,灵感来自多个R库
  • Panthera -Clojure API包装了Python的Pandas库
  • Incanter -Incanter是基于Clojure的R类平台,用于统计计算和图形.
  • PigPen -Clojure的Map-Reduce.
  • Geni -在Apache Spark上运行的Clojure数据框库

Data Visualization

  • Hanami :Clojure(Script)库和框架,用于创建基于Vega-Lite(VGL)和/或Vega(VG)规范的交互式可视化应用程序. 自动取景和布局以及功能强大的模板系统,用于抽象化可视化规范
  • Saite -Clojure(Script)客户端/服务器应用程序,用于动态交互探索,并创建实时共享文档,使用Vega / Vega-Lite,CodeMirror,markdown和LaTeX捕获它们
  • Oz -使用Vega / Vega-Lite和Hiccup进行数据可视化,以及用于识字编程的实时重载平台
  • Envision -基于Statistiker和D3的Clojure数据可视化库.
  • Pink Gorilla Notebook -基于Gorilla-REPL的Clojure / Clojurescript笔记本应用程序/库
  • clojupyter -用于Clojure的Jupyter内核-在Jupyter Lab,Notebook和Console中运行Clojure代码.
  • notespace -Clojure名称空间中的笔记本体验
  • Delight -可以将您的Spark事件日志流式传输的听众

Interop

  • Java Interop -Clojure具有Native Java Interop,可以从中访问Java的ML生态系统
  • JavaScript Interop -ClojureScript具有Native JavaScript Interop,可从中访问JavaScript的ML生态系统
  • Libpython-clj -与Python互操作
  • ClojisR -与R和Renjin互操作(JVM上的R)

Misc

  • Neanderthal -快速Clojure矩阵库(本地CPU,GPU,OpenCL,CUDA)
  • kixistats -统计分布采样和转换功能库
  • fastmath -数学和统计计算,机器学习等功能的集合,其中包装了几个JVM库
  • matlib -基于尼安德特人的优化和控制理论工具和便利功能的Clojure库.

Extra

  • Scicloj -针对Clojure的ML相关资源的精选列表.

Crystal

General-Purpose Machine Learning

  • machine -简单的机器学习算法.
  • crystal-fann -FANN(快速人工神经网络)绑定.

Elixir

General-Purpose Machine Learning

  • Simple Bayes -Elixir中的简单贝叶斯/朴素贝叶斯实现.
  • emel -用Elixir编写的简单实用的机器学习库.
  • Tensorflex -Elixir编程语言的Tensorflow绑定.

Natural Language Processing

  • Stemmer -Elixir中的英语(Porter2)词干实现.

Erlang

General-Purpose Machine Learning

  • Disco -地图减少在Erlang. [不推荐使用]

Fortran

General-Purpose Machine Learning

Data Analysis / Data Visualization

  • ParaMonte -通用的Fortran库,用于通过串行/并行Monte Carlo和MCMC模拟进行贝叶斯数据分析和可视化. 可以找到文件 here.

Go

Natural Language Processing

  • snowball -参加雪球投票.
  • word-embedding -词嵌入:在Go中完全实现word2vec和GloVe.
  • sentences -Punkt句子标记器的Golang实现.
  • go-ngram -带压缩功能的内存中n-gram索引. * [不推荐使用] *
  • paicehusk -Paice / Husk阻止算法的Golang实现. * [不推荐使用] *
  • go-porterstemmer -Porter Stemming算法的本地Go净室实现. [不推荐使用]

General-Purpose Machine Learning

  • birdland -Go中的推荐库.
  • eaopt -进化优化库.
  • leaves -GBRT的预测部分的纯Go实现,包括XGBoost和LightGBM.
  • gobrain -用Go语言编写的神经网络.
  • go-featureprocessing -快速便捷的功能处理,可在Go中实现低延迟的机器学习.
  • go-mxnet-predictor -为MXNet c_predict_api进行绑定,以使用预训练的模型进行推断.
  • go-ml-benchmarks — Go的机器学习推理基准
  • go-ml-transpiler -用于机器学习模型的开源Go编译器.
  • golearn -Go的机器学习.
  • goml -用纯Go语言编写的机器学习库.
  • gorgonia -Go中的深度学习.
  • goro -位于Keras脉络的高级机器学习库.
  • gorse -基于Go编写的协作过滤的离线推荐系统后端.
  • therfoo -用于Go的嵌入式深度学习库.
  • neat -用于增强拓扑神经进化(NEAT)的即插即用,并行Go框架. [不推荐使用]
  • go-pr -Go lang中的模式识别包. [不推荐使用]
  • go-ml -线性/逻辑回归,神经网络,协同过滤和高斯多元分布. [不推荐使用]
  • GoNN -GoNN是使用Go语言的神经网络的实现,其中包括BPNN,RBF,PCN. [不推荐使用]
  • bayesian -Golang的朴素贝叶斯分类. [不推荐使用]
  • go-galib -用Go / Golang编写的遗传算法库. [不推荐使用]
  • Cloudforest -Go / Golang中决策树的集合. [不推荐使用]
  • go-dnn -用于Golang的深度神经网络(由MXNet支持)

Spatial analysis and geometry

  • go-geom -转到库以处理几何.
  • gogeo -Go中的球面几何.

Data Analysis / Data Visualization

  • dataframe-go -用于机器学习和统计的数据框(类似于熊猫).
  • gota -数据框.
  • gonum/mat -Go的线性代数包.
  • gonum/optimize -优化算法的实现.
  • gonum/plot -绘图库.
  • gonum/stat -统计资料库.
  • SVGo -用于SVG生成的Go语言库.
  • glot -Glot是在gnuplot之上构建的Golang绘图库.
  • globe -全球线框可视化.
  • gonum/graph - General-purpose graph library.
  • go-graph -用于Go / Golang语言的图形库. [不推荐使用]
  • RF -Go中的随机森林实施. [不推荐使用]

Computer vision

  • GoCV -使用OpenCV 4及更高版本的计算机视觉软件包.

Reinforcement learning

  • gold -强化学习图书馆.

Haskell

General-Purpose Machine Learning

  • haskell-ml -各种ML算法的Haskell实现. [不推荐使用]
  • HLearn -一套用于根据代数结构解释机器学习模型的库. [不推荐使用]
  • hnn -Haskell神经网络库.
  • hopfield-networks -Hopfield Networks,用于Haskell中的无监督学习. [不推荐使用]
  • DNNGraph -用于深度神经网络的DSL. [不推荐使用]
  • LambdaNet -Haskell中的可配置神经网络. [不推荐使用]

Java

Natural Language Processing

  • Cortical.io -视网膜:API可以像大脑一样快速,直观地执行复杂的NLP操作(消歧,分类,流文本过滤等).
  • IRIS - Cortical.io's 免费的NLP,Retina API分析工具(用JavaFX编写!)- See the Tutorial Video.
  • CoreNLP -Stanford CoreNLP提供了一组自然语言分析工具,这些工具可以接受原始的英语文本输入并给出单词的基本形式.
  • Stanford Parser -自然语言解析器是确定句子语法结构的程序.
  • Stanford POS Tagger -词性标注器(POS Tagger).
  • Stanford Name Entity Recognizer -Stanford NER是命名实体识别器的Java实现.
  • Stanford Word Segmenter -原始文本的标记化是许多NLP任务的标准预处理步骤.
  • Tregex, Tsurgeon and Semgrex -Tregex是一个实用程序,用于根据树的关系和节点上的正则表达式匹配来匹配树中的模式(名称是“树正则表达式”的缩写).
  • Stanford Phrasal: A Phrase-Based Translation System
  • Stanford English Tokenizer -Stanford Phrasal是使用Java编写的基于统计短语的最新机器翻译系统.
  • Stanford Tokens Regex -分词器将文本分为一系列的标志,这些标志大致对应于“单词”.
  • Stanford Temporal Tagger -SUTime是用于识别和规范化时间表达式的库.
  • Stanford SPIED -以迭代方式使用模式从种子集开始的未标记文本中学习实体.
  • Twitter Text Java -Twitter文本处理库的Java实现.
  • MALLET -基于Java的软件包,用于统计自然语言处理,文档分类,聚类,主题建模,信息提取以及其他文本的机器学习应用程序.
  • OpenNLP -基于机器学习的工具包,用于处理自然语言文本.
  • LingPipe -使用计算语言学处理文本的工具套件.
  • ClearTK -ClearTK提供了一个框架,用于在Java中开发统计自然语言处理(NLP)组件,并建立在Apache UIMA的基础上. [不推荐使用]
  • Apache cTAKES -Apache临床文本分析和知识提取系统(cTAKES)是一个开放源代码的自然语言处理系统,用于从电子病历临床自由文本中提取信息.
  • NLP4J - The NLP4J project provides software and resources for natural language processing. The project started at the Center for Computational Language and EducAtion Research, and is currently developed by the Center for Language and Information Research at Emory University. [Deprecated]
  • CogcompNLP -该项目收集了伊利诺伊大学认知计算小组开发的许多自然语言处理(NLP)核心库,例如“ illinois-core-utilities”,该库提供了一组对NLP友好的数据结构以及许多与NLP相关的实用程序,支持编写NLP应用程序,运行实验等,“ illinois-edison”是一个库,用于从illinois-core-utilities数据结构和许多其他程序包中提取特征.

General-Purpose Machine Learning

  • aerosolve -Airbnb的机器学习库从头开始设计为人性化.
  • AMIDST Toolbox -用于可扩展概率机器学习的Java工具箱.
  • Datumbox -用于快速发展机器学习和统计应用程序的机器学习框架.
  • ELKI -用于数据挖掘的Java工具包. (无监督:聚类,离群值检测等)
  • Encog -先进的神经网络和机器学习框架. Encog包含用于创建各种网络的类,以及用于对这些神经网络的数据进行规范化和处理的支持类. Encog使用多线程弹性传播进行训练. Encog还可以利用GPU进一步缩短处理时间. 还提供了基于GUI的工作台,以帮助建模和训练神经网络.
  • FlinkML in Apache Flink -Flink中的分布式机器学习库.
  • H2O -ML引擎支持通过R,Python,Scala,REST / JSON中的API在Hadoop,Spark或您的笔记本电脑上进行分布式学习.
  • htm.java -使用Numenta皮质学习算法的通用机器学习库.
  • liblinear-java -Java版本的liblinear.
  • Mahout -分布式机器学习.
  • Meka -用于多标签分类和评估(扩展到Weka)的方法的开源实现.
  • MLlib in Apache Spark -Spark中的分布式机器学习库
  • Hydrosphere Mist -用于将Apache Spark MLLib机器学习模型部署为实时,批处理或反应式Web服务的服务.
  • Neuroph -Neuroph是轻量级的Java神经网络框架
  • ORYX -使用Apache Spark和Apache Kafka的Lambda体系结构框架,专门用于实时大规模机器学习.
  • Samoa SAMOA是一个框架,其中包括针对数据流的分布式机器学习,并带有一个接口以插入不同的流处理平台.
  • RankLib -RankLib是一个学习算法排名的库. [不推荐使用]
  • rapaio -Java中的统计,数据挖掘和机器学习工具箱.
  • RapidMiner -RapidMiner集成到Java代码中.
  • Stanford Classifier -分类器是一种机器学习工具,它将获取数据项并将其放入k个类之一.
  • Smile -统计机器智能和学习引擎.
  • SystemML -灵活,可扩展的机器学习(ML)语言.
  • Weka -Weka是用于数据挖掘任务的机器学习算法的集合.
  • LBJava -基于学习的Java是一种用于快速开发软件系统的建模语言,它直接根据程序员应用程序中的对象,为分类器和约束定义提供了一种方便的声明式语法.

Speech Recognition

  • CMU Sphinx -纯粹基于Java语音识别库的开源语音识别工具包.

Data Analysis / Data Visualization

  • Flink -用于分布式流和批处理数据处理的开源平台.
  • Hadoop -Hadoop / HDFS.
  • Onyx -分布式,无主控,高性能,容错数据处理. 完全用Clojure写.
  • Spark -Spark是用于大规模数据处理的快速通用引擎.
  • Storm -Storm是一个分布式实时计算系统.
  • Impala -Hadoop的实时查询.
  • DataMelt -用于数值计算,统计,符号计算,数据分析和数据可视化的数学软件.
  • Dr. Michael Thomas Flanagan's Java Scientific Library [不推荐使用]

Deep Learning

Javascript

Natural Language Processing

  • Twitter-text -Twitter文本处理库的JavaScript实现.
  • natural -节点的通用自然语言设施.
  • Knwl.js -JS中的自然语言处理器.
  • Retext -用于分析和处理自然语言的可扩展系统.
  • NLP Compromise -浏览器中的自然语言处理.
  • nlp.js -在Natural上的节点中内置的NLP库,具有实体提取,情感分析,自动语言识别等功能

Data Analysis / Data Visualization

General-Purpose Machine Learning

  • Auto ML -自动化的机器学习,数据格式化,组合和用于竞赛和探索的超参数优化-只需为其提供一个.csv文件!
  • Convnet.js -ConvNetJS是用于训练深度学习模型的Javascript库[DEEP LEARNING] [不推荐使用]
  • Clusterfck -在Node.js和浏览器的Javascript中实现的聚集层次聚类. [不推荐使用]
  • Clustering.js -在Java中为Node.js和浏览器实现的聚类算法. [不推荐使用]
  • Decision Trees -使用ID3算法的NodeJS决策树实现. [不推荐使用]
  • DN2A -数字神经网络架构. [不推荐使用]
  • figue -K均值,模糊c均值和聚集聚类.
  • Gaussian Mixture Model -多元高斯混合模型的无监督机器学习.
  • Node-fann -Node.js的FANN(快速人工神经网络库)绑定 [不建议使用]
  • Keras.js -在浏览器中运行Keras模型,并具有WebGL 2提供的GPU支持.
  • Kmeans.js -适用于node.js和浏览器的k-means算法的简单Javascript实现. [不推荐使用]
  • LDA.js -Node.js的LDA主题建模
  • Learning.js -Logistic回归/c4.5决策树的JavaScript实现 [不推荐使用]
  • machinelearn.js -适用于Web,Node.js和开发人员的机器学习库
  • mil-tokyo -几个机器学习库的列表.
  • Node-SVM -Node.js的支持向量机
  • Brain -JavaScript中的神经网络 [不推荐使用]
  • Brain.js -JavaScript中的神经网络-的持续社区分支 Brain.
  • Bayesian-Bandit -适用于Node和浏览器的贝叶斯匪盗实现. [不推荐使用]
  • Synaptic -适用于Node.js和浏览器的无体系结构神经网络库.
  • kNear -用于监督学习的k最近邻算法的JavaScript实现.
  • NeuralN -适用于Node.js的C ++神经网络库. 它在大型数据集和多线程训练方面具有优势. [不推荐使用]
  • kalman -用于Javascript的Kalman过滤器. [不推荐使用]
  • shaman -支持简单线性回归和多元线性回归的Node.js库. [不推荐使用]
  • ml.js -适用于Node.js和浏览器的机器学习和数值分析工具!
  • ml5 -网络友好的机器学习!
  • Pavlov.js -使用马尔可夫决策过程进行强化学习.
  • MXNet -具有动态,可感知突变的Dataflow Dep Scheduler的轻型,便携式,灵活的分布式/移动深度学习; 适用于Python,R,Julia,Go,Javascript等.
  • TensorFlow.js -一个WebGL加速的,基于浏览器的JavaScript库,用于训练和部署ML模型.
  • JSMLT -带有Node.js分类和聚类功能的机器学习工具包; 支持可视化(请参阅 visualml.io).
  • xgboost-node -运行XGBoost模型并在Node.js中进行预测.
  • Netron -机器学习模型的可视化工具.
  • WebDNN -快速的深度神经网络Javascript框架. WebDNN使用下一代JavaScript API,用于GPU执行的WebGPU和用于CPU执行的WebAssembly.

Misc

  • stdlib -JavaScript和Node.js的标准库,重点是数值计算. 该库为数学,统计,流,实用程序等提供了一组健壮的高性能库.
  • sylvester -JavaScript的向量和矩阵数学. [不推荐使用]
  • simple-statistics -描述性,回归性和推理统计的JavaScript实现. 在不依赖任何语言的JavaScript中实现,旨在与所有现代浏览器(包括IE)以及Node.js兼容.
  • regression-js -包含最小二乘拟合方法集合的javascript库,用于在一组数据中查找趋势.
  • Lyric -线性回归库. [不推荐使用]
  • GreatCircle -用于计算大圆距离的库.
  • MLPleaseHelp -MLPleaseHelp是一个简单的ML资源搜索引擎. 您现在可以在以下位置使用此搜索引擎 https://jgreenemi.github.io/MLPleaseHelp/,通过Github Pages提供.
  • Pipcook -用于机器学习及其工程的JavaScript应用程序框架.

Demos and Scripts

Julia

General-Purpose Machine Learning

  • MachineLearning -朱莉娅机器学习库. [不推荐使用]
  • MLBase -一组支持机器学习算法开发的功能.
  • PGM -用于概率图形模型的Julia框架.
  • DA -用于正则判别分析的Julia软件包.
  • Regression -回归分析的算法(例如线性回归和逻辑回归). [不推荐使用]
  • Local Regression -本地回归,非常顺畅!
  • Naive Bayes -朱莉娅(Julia)中简单的朴素贝叶斯实现. [不推荐使用]
  • Mixed Models -用于拟合(统计)混合效果模型的Julia软件包.
  • Simple MCMC -在Julia中实现的基本mcmc采样器. [不推荐使用]
  • Distances -用于距离评估的Julia模块.
  • Decision Tree -决策树分类器和回归器.
  • Neural -朱莉娅的神经网络.
  • MCMC -朱莉娅的MCMC工具. [不推荐使用]
  • Mamba -马尔可夫链蒙特卡洛(MCMC),用于Julia中的贝叶斯分析.
  • GLM -Julia中的广义线性模型.
  • Gaussian Processes -用于高斯过程的Julia软件包.
  • Online Learning [不推荐使用]
  • GLMNet -朱莉娅包装器,用于使用glmnet拟合套索/ ElasticNet GLM模型.
  • Clustering -数据聚类的基本功能:k-均值,dp-均值等
  • SVM -朱莉娅的SVM. [不推荐使用]
  • Kernel Density -朱莉娅的内核密度估算器.
  • MultivariateStats -降维方法.
  • NMF -用于非负矩阵分解的Julia软件包.
  • ANN -朱莉娅人工神经网络. [不推荐使用]
  • Mocha -受Caffe启发的Julia的深度学习框架. [不推荐使用]
  • XGBoost -Julia中的eXtreme梯度增强软件包.
  • ManifoldLearning -用于流形学习和非线性降维的Julia软件包.
  • MXNet -具有动态,可感知突变的Dataflow Dep Scheduler的轻型,便携式,灵活的分布式/移动深度学习; 适用于Python,R,Julia,Go,Javascript等.
  • Merlin -Julia中灵活的深度学习框架.
  • ROCAnalysis -用于评估概率二进制分类器的接收器操作特性和功能.
  • GaussianMixtures -大型高斯混合模型.
  • ScikitLearn -scikit-learn API的Julia实现.
  • Knet -Koç大学深度学习框架.
  • Flux - 放松! Flux是不会使您张量的ML库
  • MLJ -朱莉娅机器学习框架

Natural Language Processing

  • Topic Models -朱莉娅的TopicModels. [不推荐使用]
  • Text Analysis -用于文本分析的Julia软件包.
  • Word Tokenizers -Julia中自然语言处理的分词器
  • Corpus Loaders -julia软件包,可为各种NLP语料库提供各种装载程序.
  • Embeddings -用于加载各种单词嵌入的功能和数据依赖性
  • Languages -朱莉娅软件包,用于处理各种人类语言
  • WordNet -普林斯顿大学WordNet的Julia软件包

Data Analysis / Data Visualization

Misc Stuff / Presentations

Lua

General-Purpose Machine Learning

  • Torch7
  • cephes -Cephes数学函数库,用于Torch. 提供并包装由Stephen L. Moshier开发的Cephes数学库中的180多种特殊数学函数. 它在SciPy的心脏中被广泛使用. [不推荐使用]
  • autograd - Autograd automatically differentiates native Torch code. Inspired by the original Python version.
  • graph -火炬的图形包. [不推荐使用]
  • randomkit -Numpy的randomkit,为Torch包装. [不推荐使用]
  • signal -Torch-7的信号处理工具箱. FFT,DCT,希尔伯特,倒谱,stft
  • nn -火炬神经网络软件包.
  • torchnet -火炬框架,提供了一组抽象,旨在鼓励代码重用以及鼓励模块化编程.
  • nngraph -该软件包为Torch7中的nn库提供图形计算.
  • nnx -一个完全不稳定和实验性的程序包,扩展了Torch的内置nn库.
  • rnn -递归神经网络库,扩展了Torch的nn. RNN,LSTM,GRU,BRNN,BLSTM等
  • dpnn -许多有用的功能不属于主要nn软件包.
  • dp -深度学习库,旨在使用Torch7发行版简化研究和开发. 它通过优雅地使用面向对象的设计模式来强调灵活性. [不推荐使用]
  • optim -火炬优化库. SGD,Adagrad,共轭梯度,LBFGS,RProp等.
  • unsup -Torch中无监督学习的软件包. 提供与nn(LinearPsd,ConvPsd,AutoEncoder等)和自包含算法(k-means,PCA)兼容的模块. [不推荐使用]
  • manifold -操纵歧管的包装.
  • svm -Torch-SVM库. [不推荐使用]
  • lbfgs -用于liblbfgs的FFI包装器. [不推荐使用]
  • vowpalwabbit -旧的vowpalwabbit火炬接口. [不推荐使用]
  • OpenGM -OpenGM是用于图形建模和推理的C ++库. Lua绑定提供了一种简单的方式来描述来自Lua的图形,然后使用OpenGM对其进行优化. [不推荐使用]
  • spaghetti -@MichaelMathieu的Torch7的义大利面(稀疏线性)模块 [已弃用]
  • LuaSHKit -围绕位置敏感的哈希库SHKit的lua包装器 [已弃用]
  • kernel smoothing -KNN,核加权平均,局部线性回归平滑器. [不推荐使用]
  • cutorch -火炬CUDA实施.
  • cunn -火炬CUDA神经网络实施.
  • imgraph -火炬的图像/图形库. 该软件包提供了在图像上构造图,对其进行分段,从中构建树并将其转换回图像的例程. [不推荐使用]
  • videograph -火炬的视频/图形库. 该软件包提供了在视频上构建图形,对其进行分段,从中构建树并将其转换回视频的例程. [不推荐使用]
  • saliency -围绕完整图像的代码和工具. 一个基于快速积分直方图查找兴趣点的库. [不推荐使用]
  • stitch -允许我们使用hugin来缝合图像并将相同的缝合应用于视频序列. [不推荐使用]
  • sfm -运动包装中的捆扎调整/结构. [不推荐使用]
  • fex -Torch中用于特征提取的软件包. 提供SIFT和dSIFT模块. [不推荐使用]
  • OverFeat -最先进的通用密集特征提取器. [不推荐使用]
  • wav2letter -来自Facebook AI Research的简单高效的端到端自动语音识别(ASR)系统.
  • Numeric Lua
  • Lunatic Python
  • SciLua
  • Lua - Numerical Algorithms [不推荐使用]
  • Lunum [不推荐使用]

Demos and Scripts

Matlab

Computer Vision

  • Contourlets -实现轮廓波变换及其实用功能的MATLAB源代码.
  • Shearlets -用于Slicelet变换的MATLAB代码.
  • Curvelets -Curvelet变换是Wavelet变换的高维概括,旨在表示不同比例和不同角度的图像.
  • Bandlets -用于Bandlet变换的MATLAB代码.
  • mexopencv -用于OpenCV库的MATLAB mex函数的集合和开发套件.

Natural Language Processing

  • NLP -用于Matlab的NLP库.

General-Purpose Machine Learning

Data Analysis / Data Visualization

  • ParaMonte -通用的MATLAB库,用于通过串行/并行Monte Carlo和MCMC仿真进行贝叶斯数据分析和可视化. 可以找到文件 here.
  • matlab_bgl -MatlabBGL是用于处理图形的Matlab软件包.
  • gaimc -图形算法的高效纯Matlab实现,以补充MatlabBGL的mex函数.

.NET

Computer Vision

  • OpenCVDotNet -与.NET应用程序一起使用的OpenCV项目的包装.
  • Emgu CV -OpenCV的跨平台包装,可以在Mono中进行编译,以在Windows,Linus,Mac OS X,iOS和Android上运行.
  • AForge.NET - Open source C# framework for developers and researchers in the fields of Computer Vision and Artificial Intelligence. Development has now shifted to GitHub.
  • Accord.NET -与AForge.NET一起,该库可以为Windows,Windows RT和Windows Phone提供图像处理和计算机视觉算法. 一些组件也可用于Java和Android.

Natural Language Processing

  • Stanford.NLP for .NET -将Stanford NLP软件包的完整端口移植到.NET,也可以作为NuGet软件包进行预编译.

General-Purpose Machine Learning

  • Accord-Framework -Accord.NET框架是用于构建机器学习,计算机视觉,计算机试听,信号处理和统计应用程序的完整框架.
  • Accord.MachineLearning -支持向量机,决策树,朴素贝叶斯模型,K均值,高斯混合模型以及用于机器学习应用程序的通用算法,例如Ransac,交叉验证和网格搜索. 该程序包是Accord.NET Framework的一部分.
  • DiffSharp -一个自动微分(AD)库,为机器学习和优化应用程序提供了精确而有效的导数(梯度,Hessian,Jacobian,方向导数以及无矩阵的Hessian和Jacobian向量产品). 可以将操作嵌套到任何级别,这意味着您可以为超参数优化之类的应用程序计算精确的高阶导数,并在内部利用微分来微分函数.
  • Encog -先进的神经网络和机器学习框架. Encog包含用于创建各种网络的类,以及用于对这些神经网络的数据进行规范化和处理的支持类. Encog使用多线程弹性传播进行训练. Encog还可以利用GPU进一步缩短处理时间. 还提供了基于GUI的工作台,以帮助建模和训练神经网络.
  • GeneticSharp -用于.NET Core和.NET Framework的多平台遗传算法库. 该库具有GA运算符的几种实现,例如:选择,交叉,突变,重新插入和终止.
  • Infer.NET -Infer.NET是用于在图形模型中运行贝叶斯推理的框架. 可以使用Infer.NET解决许多不同类型的机器学习问题,从分类,推荐或聚类等标准问题到针对特定领域的问题的定制解决方案. Infer.NET已在许多领域中使用,包括信息检索,生物信息学,流行病学,视觉以及许多其他领域.
  • ML.NET -ML.NET是跨平台的开源机器学习框架,它使.NET开发人员可以访问机器学习. ML.NET最初是由Microsoft Research开发的,在过去的十年中发展成为一个重要的框架,并在Microsoft的许多产品组中使用,例如Windows,Bing,PowerPoint,Excel等.
  • Neural Network Designer -DBMS管理系统和神经网络设计器. 该设计器应用程序是使用WPF开发的,并且是一个用户界面,使您可以设计神经网络,查询网络,创建和配置能够提出问题并从反馈中学习的聊天机器人. 聊天机器人甚至可以抓取互联网以获取信息,以返回其输出以及用于学习.
  • Synapses - Neural network library in F#.
  • Vulpes - Deep belief and deep learning implementation written in F# and leverages CUDA GPU execution with Alea.cuBase.
  • MxNet.Sharp - .NET Standard bindings for Apache MxNet with Imperative, Symbolic and Gluon Interface for developing, training and deploying Machine Learning models in C#. https://mxnet.tech-quantum.com/

Data Analysis / Data Visualization

  • numl -numl是一个机器学习库,旨在简化将标准建模技术用于预测和聚类的使用.
  • Math.NET Numerics -Math.NET项目的数值基础,旨在为科学,工程和日常使用中的数值计算提供方法和算法. 在Windows,Linux和Mac上支持.Net 4.0,.Net 3.5和Mono; 具有PCL便携式配置文件47和344的Silverlight 5,WindowsPhone / SL 8,WindowsPhone 8.1和Windows 8; 带有Xamarin的Android / iOS.
  • Sho -Sho是用于数据分析和科学计算的交互式环境,可让您无缝连接脚本(在IronPython中)和编译后的代码(在.NET中),以实现快速灵活的原型制作. 该环境包括用于线性代数的功能强大且高效的库,以及可从任何.NET语言使用的数据可视化,以及功能丰富的交互式外壳,可用于快速开发.

Objective C

General-Purpose Machine Learning

  • YCML -用于Objective-C和Swift(OS X / iOS)的机器学习框架.
  • MLPNeuralNet -适用于iOS和Mac OS X的快速多层感知器神经网络库.MLPNeuralNet通过训练有素的神经网络预测新的示例. 它基于Apple的Accelerate框架构建,使用矢量化操作和硬件加速(如果可用). [不推荐使用]
  • MAChineLearning -一个Objective-C多层感知器库,全面支持通过反向传播进行训练. 使用vDSP和vecLib实施,它比Java同类产品快20倍. 包括供Swift使用的示例代码.
  • BPN-NeuralNetwork -它实现了3层神经网络(输入层,隐藏层和输出层),并被命名为反向传播神经网络(BPN). 该网络可用于产品推荐,用户行为分析,数据挖掘和数据分析. [不推荐使用]
  • Multi-Perceptron-NeuralNetwork -它基于反向传播神经网络(BPN)实施了多感知器神经网络(Niューラルネットワーク),并设计了无限隐藏层.
  • KRHebbian-Algorithm -它是机器学习神经网络中的非监督和自学习算法(调整权重). [不推荐使用]
  • KRKmeans-Algorithm -实现了K-Means聚类和分类算法. 它可以用于数据挖掘和图像压缩. [不推荐使用]
  • KRFuzzyCMeans-Algorithm -在机器学习中实现了模糊C均值(FCM)模糊聚类/分类算法. 它可以用于数据挖掘和图像压缩. [不推荐使用]

OCaml

General-Purpose Machine Learning

  • Oml -通用统计和机器学习库.
  • GPR -OCaml中的高效高斯过程回归.
  • Libra-Tk - Algorithms for learning and inference with discrete probabilistic models.
  • TensorFlow -TensorFlow的OCaml绑定.

Perl

Data Analysis / Data Visualization

General-Purpose Machine Learning

Perl 6

Data Analysis / Data Visualization

General-Purpose Machine Learning

PHP

Natural Language Processing

General-Purpose Machine Learning

  • PHP-ML -适用于PHP的机器学习库. 一个库中包含算法,交叉验证,神经网络,预处理,特征提取等功能.
  • PredictionBuilder -机器学习库,可使用线性回归建立预测.
  • Rubix ML -高级机器学习(ML)库,可让您构建使用PHP语言从数据中学习的程序.
  • 19 Questions -机器学习/贝叶斯推理,将属性分配给对象.

Python

Computer Vision

  • Scikit-Image -Python中图像处理算法的集合.
  • Scikit-Opt -Python中的群智能(遗传算法,粒子群优化,模拟退火,蚁群算法,免疫算法,人工鱼群算法)
  • SimpleCV -一个开放源代码的计算机视觉框架,可以访问几个高性能的计算机视觉库,例如OpenCV. 用Python编写,可在Mac,Windows和Ubuntu Linux上运行.
  • Vigranumpy -VIGRA C ++计算机视觉库的Python绑定.
  • OpenFace -使用深度神经网络的免费和开源人脸识别.
  • PCV -用于计算机视觉的开源Python模块. [不推荐使用]
  • face_recognition -人脸识别库,可从Python或命令行中识别和处理人脸.
  • dockerface -易于安装和使用深度学习更快地在Docker容器中对图像和视频进行R-CNN人脸检测.
  • Detectron -FAIR的软件系统,它实现了最新的对象检测算法,包括Mask R-CNN. 它是用Python编写的,并由Caffe2深度学习框架提供支持. [不推荐使用]
  • detectron2 -FAIR的下一代对象检测和分割研究平台. 它是对先前版本Detectron的完全重写,并由PyTorch深度学习框架提供支持.
  • albumentations -快速和框架不可知图像增强库,可实现多种增强技术. 支持分类,分割,开箱即用的检测. 曾经在Kaggle,Topcoder和CVPR研讨会的一部分中赢得过许多深度学习竞赛.
  • pytessarct -Python-tesseract是用于python的光学字符识别(OCR)工具. 也就是说,它将识别并“读取”图像中嵌入的文本. Python-tesseract是一个包装 Google's Tesseract-OCR Engine.
  • imutils -包含便利功能的库,可使用OpenCV和Python简化基本的图像处理操作,例如平移,旋转,调整大小,框架化和显示Matplotlib图像.
  • PyTorchCV -基于PyTorch的计算机视觉深度学习框架.
  • Self-supervised learning
  • neural-style-pt -贾斯汀·约翰逊(Justin Johnson)的神经风格(神经风格转换)的PyTorch实现.
  • Detecto -用5至10行代码训练并运行计算机视觉模型.
  • neural-dream -DeepDream的PyTorch实现.
  • Openpose -实时的多人关键点检测库,用于身体,面部,手和脚的估计
  • Deep High-Resolution-Net -CVPR2019论文“用于人体姿势估计的深度高分辨率表示学习”的PyTorch实施
  • dream-creator -DeepDream的PyTorch实现. 允许个人使用DeepDream的自定义数据集快速轻松地训练自己的自定义GoogleNet模型.
  • Lucent -Tensorflow和OpenAI Clarity的Lucid适用于PyTorch.
  • lightly -轻轻地是一个用于自我监督学习的计算机视觉框架.
  • Learnergy -基于PyTorch的基于能量的机器学习模型.

Natural Language Processing

  • pkuseg-python -北京大学开发的更好的解霸版本.
  • NLTK -用于构建Python程序以使用人类语言数据的领先平台.
  • Pattern -用于Python编程语言的Web挖掘模块. 它具有用于自然语言处理,机器学习等的工具.
  • Quepy -将自然语言问题转换为数据库查询语言查询的python框架.
  • TextBlob -提供一致的API,以深入研究普通自然语言处理(NLP)任务. 站在NLTK和Pattern的大肩膀上,并且两者都很好地配合使用.
  • YAlign -句子对齐器,一种用于从可比语料库中提取平行句子的友好工具. [不推荐使用]
  • jieba -中文分词工具.
  • SnowNLP -一个用于处理中文文本的库.
  • spammy -建立在nltk之上的用于电子邮件垃圾邮件过滤的库
  • loso -另一个中文细分库. [不推荐使用]
  • genius -基于条件随机场的中文句段.
  • KoNLPy -用于韩语自然语言处理的Python软件包.
  • nut -自然语言理解工具包. [不推荐使用]
  • Rosetta -文本处理工具和包装器(例如Vowpal Wabbit)
  • BLLIP Parser -BLLIP自然语言解析器(也称为Charniak-Johnson解析器)的Python绑定. [不推荐使用]
  • PyNLPl -Python自然语言处理库. 适用于Python的通用NLP库. 还包含一些用于解析常见NLP格式的特定模块,尤其是针对 FoLiA,还包括ARPA语言模型,Moses短语表,GIZA ++对齐方式.
  • PySS3 -Python套件,可实现用于文本分类的新型白盒机器学习模型,称为SS3. 由于SS3可以直观地说明其原理,因此该软件包还附带了易于使用的交互式可视化工具(online demos).
  • python-ucto -与ucto(适用于多种语言的基于unicode的基于规则的令牌生成器)的Python绑定.
  • python-frog -将Python绑定到Frog(荷兰语的NLP套件). (pos标记,去词法化,依赖项分析,NER)
  • python-zpar -的Python绑定 ZPar,这是英语的统计语音标语部分,选区解析器和依存解析器.
  • colibri-core -与C ++库的Python绑定,以一种快速且节省内存的方式提取和使用基本语言结构(例如n-gram和skipgram).
  • spaCy -具有Python和Cython的工业实力NLP.
  • PyStanfordDependencies -用于将Penn Treebank树转换为斯坦福依赖关系的Python接口.
  • Distance -Levenshtein和汉明距离计算. [不推荐使用]
  • Fuzzy Wuzzy -Python中的模糊字符串匹配.
  • jellyfish -用于对字符串进行近似和语音匹配的python库.
  • editdistance -快速实现编辑距离.
  • textacy -建立在Spacy之上的更高级别的NLP.
  • stanford-corenlp-python -的Python包装器 Stanford CoreNLP [不推荐使用]
  • CLTK -古典语言工具包.
  • Rasa -“用于自动进行基于文本和语音的对话的机器学习框架”.
  • yase -将句子(或其他序列)转码为单词向量列表.
  • Polyglot -多语言文本(NLP)处理工具包.
  • DrQA -阅读Wikipedia以回答开放域问题.
  • Dedupe -用于精确和可扩展的模糊匹配,记录重复数据删除和实体解析的python库.
  • Snips NLU -用于意图分类和实体提取的自然语言理解库
  • NeuroNER -使用神经网络提供最新结果的命名实体识别
  • DeepPavlov -具有许多经过预训练的俄罗斯NLP模型的会话式AI库.
  • BigARTM -主题建模平台.
  • NALP -建立在Tensorflow之上的自然对抗语言处理框架.

General-Purpose Machine Learning

  • Shapley ->一种数据驱动的框架,用于量化机器学习集合中分类器的价值.
  • igel ->令人愉悦的机器学习工具,可让您无需编写代码即可训练/拟合,测试和使用模型**
  • ML Model building ->一个包含分类,聚类,回归,推荐笔记本和说明的笔记本的存储库.
  • ML/DL project template
  • PyTorch Geometric Temporal -> PyTorch Geometric的时间扩展,用于动态图表示学习.
  • Little Ball of Fur ->具有类似于Scikit-Learn的API的NetworkX的图形采样扩展库.
  • Karate Club ->具有Scikit-Learn之类API的NetworkX的无监督机器学习扩展库.
  • Auto_ViML ->快速自动构建变体可解释的ML模型! Auto_ViML的发音是“ auto vimal”,是一种全面且可扩展的Python AutoML工具包,具有不平衡的处理,集合,堆栈和内置功能选择. 在中型文章中精选.
  • PyOD -> Python离群值检测,全面且可扩展的Python工具包,用于检测多元数据中的离群对象. 适用于高级模型,包括神经网络/深度学习和离群值.
  • steppy ->轻量级的Python库,用于快速且可重复的机器学习实验. 引入了一个非常简单的界面,可以进行干净的机器学习管道设计.
  • steppy-toolkit ->精心挑选的神经网络,变换器和模型集合,可让您的机器学习更快,更有效地工作.
  • CNTK -Microsoft认知工具包(CNTK),一种开源的深度学习工具包. 可以找到文件 here.
  • Couler -用于在不同的工作流引擎(例如Argo工作流,Tekton Pipelines和Apache Airflow)上构建和管理机器学习工作流的统一界面.
  • auto_ml -用于生产和分析的自动化机器学习. 让您专注于ML的有趣部分,同时输出可用于生产环境的代码以及对数据集和结果的详细分析. 包括对NLP,XGBoost,CatBoost,LightGBM和即将进行的深度学习的支持.
  • machine learning -由以下内容组成的自动构建 web-interfaceprogrammatic-interface API,用于支持向量机. 相应的数据集存储到SQL数据库中,然后将生成的用于预测的模型存储到NoSQL数据存储中.
  • XGBoost -eXtreme渐变增强(树)库的Python绑定.
  • Apache SINGA -一个Apache孵化项目,用于开发开源机器学习库.
  • Bayesian Methods for Hackers -关于Python概率编程的Book / iPython笔记本.
  • Featureforge 一组工具,用于通过scikit-learn兼容的API创建和测试机器学习功能.
  • MLlib in Apache Spark -Spark中的分布式机器学习库
  • Hydrosphere Mist -用于将Apache Spark MLLib机器学习模型部署为实时,批处理或反应式Web服务的服务.
  • scikit-learn -在SciPy之上构建的Python机器学习模块.
  • metric-learn -用于度量学习的Python模块.
  • SimpleAI 《人工智能,一种现代方法》一书中介绍了许多人工智能算法的Python实现. 它着重于提供一个易于使用,文档完善和经过测试的库.
  • astroML -天文学的机器学习和数据挖掘.
  • graphlab-create -在磁盘支持的DataFrame之上实现的具有各种机器学习模型(回归,集群,推荐系统,图形分析等)的库.
  • BigML -与外部服务器联系的库.
  • pattern -适用于Python的Web挖掘模块.
  • NuPIC -Numenta智能计算平台.
  • Pylearn2 -基于的机器学习库 Theano . [不推荐使用]
  • keras -的高级神经网络前端 TensorFlow, CNTKTheano.
  • Lasagne -轻量级的库,用于在Theano中构建和训练神经网络.
  • hebel -Python中的GPU加速的深度学习库. [不推荐使用]
  • Chainer -灵活的神经网络框架.
  • prophet -Facebook提供的快速,自动的时间序列预测框架.
  • gensim -人类主题建模.
  • topik -主题建模工具包. [不推荐使用]
  • PyBrain -另一个Python机器学习库.
  • Brainstorm -快速,灵活和有趣的神经网络. 这是PyBrain的继承者.
  • Surprise -用于构建和分析推荐系统的scikit.
  • implicit -针对隐式数据集的快速Python协作过滤.
  • LightFM -针对隐式和显式反馈的许多流行推荐算法的Python实现.
  • Crab -灵活,快速的推荐引擎. [不推荐使用]
  • python-recsys -用于实施推荐系统的Python库.
  • thinking bayes -关于贝叶斯分析的书.
  • Image-to-Image Translation with Conditional Adversarial Networks -实现论文从图像到图像(pix2pix)的翻译 isola et al.[深度学习]
  • Restricted Boltzmann Machines -Python中受限制的Boltzmann机器. [深度学习]
  • Bolt -螺栓在线学习工具箱. [不推荐使用]
  • CoverTree -覆盖树的Python实现,将scipy.spatial.kdtree替换为 [不推荐使用]
  • nilearn -Python中NeuroImaging的机器学习.
  • neuropredict -针对初学者的机器学习者和非专家程序员,此软件包提供了用于NeuroImaging和其他任何类型功能的Python简易(无需编码)和全面的机器学习(无需编写代码即可对预测性能进行评估和完整报告). 旨在吸收大部分ML工作流,这与nilearn和pymvpa等其他程序包不同,后者需要您学习它们的API和代码以产生有用的东西.
  • imbalanced-learn -使用各种技术在欠采样和过采样下执行的Python模块.
  • Shogun -Shogun机器学习工具箱.
  • Pyevolve -遗传算法框架. [不推荐使用]
  • Caffe -开发深度学习框架时要考虑到清洁度,可读性和速度.
  • breze -基于Theano的深度和递归神经网络库.
  • Cortex -用于在生产中部署机器学习模型的开源平台.
  • pyhsmm -贝叶斯隐马尔可夫模型(HMM)和显性持续时间隐半马尔可夫模型(HSMM)中的近似无监督推理的库,重点关注贝叶斯非参数扩展,HDP-HMM和HDP-HSMM,主要是弱极限近似.
  • SKLL -围绕scikit-learn的包装器,使进行实验变得更加简单.
  • neurolab
  • Spearmint -Spearmint是根据白皮书中概述的算法执行贝叶斯优化的软件包:机器学习算法的实用贝叶斯优化. Jasper Snoek,Hugo Larochelle和Ryan P.Adams. 神经信息处理系统的进展,2012年. [已弃用]
  • Pebl -用于贝叶斯学习的Python环境. [不推荐使用]
  • Theano -优化GPU元编程代码,在Python中生成面向数组的优化数学编译器.
  • TensorFlow -开源软件库,可使用数据流图进行数值计算.
  • pomegranate -Python的隐马尔可夫模型,在Cython中实现,以提高速度和效率.
  • python-timbl -包含完整TiMBL C ++编程接口的Python扩展模块. Timbl是精心设计的k最近邻居机器学习工具包.
  • deap -进化算法框架.
  • pydeep -Python深度学习. [不推荐使用]
  • mlxtend -由有用的工具组成的库,用于数据科学和机器学习任务.
  • neon -涅rv high-performance Python-based Deep Learning framework [DEEP LEARNING]. [Deprecated]
  • Optunity -专门用于自动超参数优化的库,具有一个简单,轻量级的API,可以方便地替换网格搜索.
  • Neural Networks and Deep Learning -我的书《神经网络与深度学习》 [DEEP LEARNING]的代码示例.
  • Annoy -近似最近的邻居实现.
  • TPOT -使用基因编程自动创建和优化机器学习管道的工具. 将其视为您的个人数据科学助手,可以使机器学习的繁琐部分自动化.
  • pgmpy 一个用于处理概率图形模型的python库.
  • DIGITS -深度学习GPU训练系统(DIGITS)是用于训练深度学习模型的Web应用程序.
  • Orange -面向新手和专家的开源数据可视化和数据分析.
  • MXNet -具有动态,可感知突变的Dataflow Dep Scheduler的轻型,便携式,灵活的分布式/移动深度学习; 适用于Python,R,Julia,Go,Javascript等.
  • milk -专注于监督分类的机器学习工具包. [不推荐使用]
  • TFLearn -深度学习库,具有用于TensorFlow的更高级别的API.
  • REP -基于IPython的环境,用于以一致且可重复的方式进行数据驱动的研究. REP并没有尝试替代scikit-learn,而是对其进行了扩展并提供了更好的用户体验. [不推荐使用]
  • rgf_python -正则化贪婪森林(树)库的Python绑定.
  • skbayes -使用scikit-learn API的贝叶斯机器学习的Python包.
  • fuku-ml -简单的机器学习库,包括Perceptron,回归,支持向量机,决策树等,对于初学者而言,它易于使用且易于学习.
  • Xcessiv -基于Web的应用程序,可进行快速,可扩展和自动化的超参数调整和堆叠集成.
  • PyTorch -具有强大GPU加速功能的Python中的张量和动态神经网络
  • PyTorch Lightning -轻巧的PyTorch包装器,用于高性能AI研究.
  • PyTorch Lightning Bolts -适用于AI / ML研究人员的模型,回调和数据集的工具箱.
  • skorch -兼容scikit-learn的神经网络库,其中包装了PyTorch.
  • ML-From-Scratch -在Python中从头开始实现机器学习模型,重点是透明性. 旨在以易于访问的方式展示ML的基本要素.
  • Edward -一个用于概率建模,推理和批评的库. 建立在TensorFlow之上.
  • xRBM -Tensorflow中的受限玻尔兹曼机(RBM)及其条件变量的库.
  • CatBoost -带有分类功能的决策树库具有通用梯度增强功能,开箱即用. 它易于安装,文档完善,并支持CPU和GPU(甚至是多GPU)计算.
  • stacked_generalization -在Python中将机器学习堆栈技术实现为方便的库.
  • modAL -基于scikit-learn的Python模块化主动学习框架.
  • Cogitare:适用于Python的现代,快速和模块化的深度学习和机器学习框架.
  • Parris -Parris,用于机器学习算法的自动化基础结构设置工具.
  • neonrvm -neonrvm是基于RVM技术的开源机器学习库. 它是用C编程语言编写的,并带有Python编程语言绑定.
  • Turi Create -从Apple进行机器学习. Turi Create简化了自定义机器学习模型的开发. 您无需成为机器学习专家即可向您的应用添加建议,对象检测,图像分类,图像相似度或活动分类.
  • xLearn -高性能,易于使用且可扩展的机器学习套件,可用于解决大规模的机器学习问题. xLearn对于解决大规模稀疏数据上的机器学习问题特别有用,这在Internet服务(例如在线广告和推荐系统)中非常常见.
  • mlens -与scikit-learn集成的高性能,内存高效,最大程度的并行集成学习.
  • Netron -机器学习模型的可视化工具.
  • Thampi -AWS Lambda上的机器学习预测系统
  • MindsDB -开源框架可简化神经网络的使用.
  • Microsoft Recommenders :构建推荐系统的示例和最佳做法,以Jupyter笔记本的形式提供. 该回购包含Microsoft Research以及其他公司和机构的一些最新技术.
  • StellarGraph:图上的机器学习,这是一个用于对图结构(网络结构)数据进行机器学习的Python库.
  • BentoML:用于打包和部署机器学习模型以在生产中使用的工具包
  • MiraiML:为实时使用而构建的,用于连续和自主机器学习的异步引擎.
  • numpy-ML:用numpy编写的ML模型的参考实现
  • creme:在线机器学习的框架.
  • Neuraxle:提供正确抽象以简化ML管道的研究,开发和部署的框架.
  • Cornac -多模式推荐系统的比较框架,重点放在利用辅助数据的模型上.
  • JAX -JAX是Autograd和XLA的结合,用于高性能机器学习研究.
  • Catalyst -用于PyTorch DL和RL研究的高级工具. 它的开发侧重于可重复性,快速实验和代码/想法重用. 能够研究/开发新事物,而不是编写另一个常规火车循环.
  • Fastai -建立在Pytorch顶部的高级包装程序,支持视觉,文本,表格数据和协作过滤.
  • scikit-multiflow -用于多输出/多标签和流数据的机器学习框架.
  • Lightwood -基于Pytorch的框架,将机器学习问题分解为较小的块,可以与目标无缝地粘合在一起,从而用一行代码构建预测模型.
  • bayeso -用Python编写的简单但必不可少的贝叶斯优化程序包.
  • mljar-supervised -用于表格数据的自动机器学习(AutoML)python软件包. 它可以处理:二进制分类,多类分类和回归. 它提供了解释和降价报告.
  • evostra -在Python中快速实施Evolution Strategy.
  • Determined -可扩展的深度学习培训平台,包括对分布式培训,超参数调整,实验跟踪和模型管理的集成支持.
  • PySyft -基于PyTorch和TensorFlow构建的用于安全和私有深度学习的Python库.
  • PyGrid -数据所有者和数据科学家的对等网络,他们可以使用PySyft共同训练AI模型
  • sktime -具有时间序列的机器学习的统一框架
  • OPFython -最佳路径森林分类器的Python启发式实现.
  • Opytimizer -基于Python的元启发式优化技术.
  • Gradio -一个Python库,用于快速创建和共享模型演示. 在浏览器中交互式调试模型,从协作者那里获得反馈,并生成公共链接而无需部署任何东西.
  • Hub -TensorFlow / PyTorch最快的非结构化数据集管理. 流和版本控制数据. 甚至将PB级数据存储在可在任何计算机上访问的云中的单个numpy状数组中. 访问 activeloop.ai 有关更多信息.
  • Synthia -Python中的多维合成数据生成.
  • ByteHub -易于使用的基于Python的功能存储. 针对时间序列数据进行了优化.

Data Analysis / Data Visualization

  • DataVisualization -Github存储库,您可以在此学习中级的Datavisualizatoin基础知识.
  • Cartopy -Cartopy是一个Python软件包,设计用于地理空间数据处理,以便生成地图和其他地理空间数据分析.
  • SciPy -用于数学,科学和工程的基于Python的开源软件生态系统.
  • NumPy -使用Python进行科学计算的基本软件包.
  • AutoViz AutoViz使用一行Python代码即可自动可视化任何数据集. 给它任何大小的任何输入文件(CSV,txt或json),AutoViz都会将其可视化. 请参阅中篇文章.
  • Numba -Cython和NumPy的开发人员针对python的LLVM的Python JIT(及时)编译器.
  • Mars -用于大型数据计算的基于张量的框架,通常被视为NumPy的并行和分布式版本.
  • NetworkX -用于复杂网络的高生产率软件.
  • igraph -绑定到igraph库-通用图库.
  • Pandas -提供高性能,易于使用的数据结构和数据分析工具的库.
  • ParaMonte -通用Python库,用于通过串行/并行Monte Carlo和MCMC仿真进行贝叶斯数据分析和可视化. 可以找到文件 here.
  • Open Mining -Python(Pandas Web界面)中的商业智能(BI) [已弃用]
  • PyMC -马尔可夫链蒙特卡洛采样工具包.
  • zipline -Pythonic算法交易库.
  • PyDy -Python Dynamics的缩写,用于在基于NumPy,SciPy,IPython和matplotlib的动态运动建模中协助工作流程.
  • SymPy -用于符号数学的Python库.
  • statsmodels -Python中的统计建模和计量经济学.
  • astropy -天文学的社区Python库.
  • matplotlib -Python 2D绘图库.
  • bokeh -用于Python的交互式Web绘图.
  • plotly -用于Python和matplotlib的协作Web绘图.
  • altair -从Python到Vega的翻译器.
  • d3py -基于Python的绘图库 D3.js.
  • PyDexter -适用于Python的简单绘图. D3xterjs的包装; 轻松在浏览器中呈现图表.
  • ggplot -与R的ggplot2相同的API.
  • ggfortify -ggplot2流行的R包的统一接口.
  • Kartograph.py - Rendering beautiful SVG maps in Python.
  • pygal -Python SVG Charts Creator.
  • PyQtGraph -建立在PyQt4 / PySide和NumPy上的纯Python图形和GUI库.
  • pycascading [不推荐使用]
  • Petrel -用于在纯Python中编写,提交,调试和监视Storm拓扑的工具.
  • Blaze -NumPy和Pandas与大数据的接口.
  • emcee -仿射不变MCMC的Python集成采样工具包.
  • windML -用于风能分析和预测的Python框架.
  • vispy -基于GPU的高性能交互式OpenGL 2D / 3D数据可视化库.
  • cerebro2 基于Web的NuPIC可视化和调试平台. [不推荐使用]
  • NuPIC Studio 多功能的NuPIC分层时间记忆可视化和调试超级工具! [不推荐使用]
  • SparklingPandas PySpark(POPS)上的熊猫.
  • Seaborn -基于matplotlib的python可视化库.
  • bqplot -在Jupyter(IPython)中进行绘图的API.
  • pastalog -神经网络训练性能的简单,实时可视化.
  • Superset -旨在可视,直观和交互式的数据探索平台.
  • Dora -Python中探索性数据分析的工具.
  • Ruffus -python的计算管道库.
  • SOMPY -用Python编写的自组织地图(使用神经网络进行数据分析).
  • somoclu 大规模并行的自组织映射:具有python API,可加快对多核CPU,GPU和群集的培训.
  • HDBScan -在Python中实现hdbscan算法-用于聚类
  • visualize_ML -用于数据探索和数据分析的python软件包. [不推荐使用]
  • scikit-plot -可视化库,可快速轻松地生成数据分析和机器学习中的常见图.
  • Bowtie -仪表板库,用于使用flask socketio和react进行交互式可视化.
  • lime -Lime即将解释机器学习分类器(或模型)的功能. 它能够用两个或多个类来解释任何黑匣子分类器.
  • PyCM -PyCM是用Python编写的多类混淆矩阵库,它支持输入数据向量和直接矩阵,并且是用于分类后模型评估的适当工具,其支持大多数类和总体统计参数
  • Dash -一个用于创建基于Plotly.js,React和Flask的分析Web应用程序的框架
  • Lambdo -一种工作流引擎,通过在一个分析管道中组合(i)特征工程和机器学习(ii)模型训练和预测(iii)通过用户定义的(Python)函数进行表填充和列评估来解决机器学习问题.
  • TensorWatch -用于机器学习和数据科学的调试和可视化工具. 它广泛地利用Jupyter Notebook在运行过程中(例如机器学习培训)显示数据的实时可视化.
  • dowel -用于机器学习研究的小记录器. 只需调用logger.log(),即可将任何对象输出到终端,CSV,TensorBoard,磁盘上的文本日志等.

Misc Scripts / iPython Notebooks / Codebases

Neural Networks

  • nn_builder -nn_builder是一个python软件包,可让您在1行中构建神经网络
  • NeuralTalk -NeuralTalk是一个Python + numpy项目,用于学习使用语句描述图像的多模式递归神经网络.
  • Neuron -Neuron是用于时间序列预测的简单类. 它利用通过梯度下降或LeLevenberg学习的LNU(线性神经单元),QNU(二次神经单元),RBF(径向基函数),MLP(多层感知器),MLP-ELM(多层感知器-极限学习机)神经网络来学习. – Marquardt算法.

  • NeuralTalk -NeuralTalk是一个Python + numpy项目,用于学习使用语句描述图像的多模式递归神经网络. [不推荐使用]

  • Neuron -Neuron是用于时间序列预测的简单类. 它利用通过梯度下降或LeLevenberg学习的LNU(线性神经单元),QNU(二次神经单元),RBF(径向基函数),MLP(多层感知器),MLP-ELM(多层感知器-极限学习机)神经网络来学习. – Marquardt算法. [不推荐使用]
  • Data Driven Code -非常简单地在不使用任何库的情况下在python中实现虚拟网络的虚拟人,并带有详细的注释.
  • Machine Learning, Data Science and Deep Learning with Python -包含机器学习,Tensorflow,人工智能和神经网络的LiveVideo课程.
  • TResNet: High Performance GPU-Dedicated Architecture -TResNet模型经过设计和优化,可以在GPU上实现最佳的速度精度折衷.
  • TResNet: Simple and powerful neural network library for python -各种支持类型的人工神经网络和学习算法.
  • Jina AI 一种在云中构建神经搜索的简便方法. 与Jupyter笔记本电脑兼容.
  • sequitur PyTorch库仅需两行代码即可创建和训练序列自动编码器

Kaggle Competition Source Code

Reinforcement Learning

  • DeepMind Lab -DeepMind Lab是一个基于id软件的Quake III Arena的3D学习环境,可通过ioquake3和其他开源软件进行开发. 它的主要目的是充当人工智能(尤其是深度强化学习)研究的测试平台.
  • Gym -OpenAI Gym是用于开发和比较强化学习算法的工具包.
  • Serpent.AI -Serpent.AI是一个游戏代理框架,可让您将自己拥有的任何视频游戏变成沙盒以开发AI和机器学习实验. 对于研究人员和业余爱好者.
  • ViZDoom -ViZDoom允许开发仅使用视觉信息(屏幕缓冲区)播放Doom的AI机器人. 它主要用于机器视觉学习,尤其是深度强化学习的研究.
  • Roboschool -与OpenAI Gym集成的用于机器人仿真的开源软件.
  • Retro -健身房复古游戏
  • SLM Lab -PyTorch中的模块化深度强化学习框架.
  • Coach -英特尔®AI Lab的强化学习教练可轻松进行最新的强化学习算法实验
  • garage -用于可重复的强化学习研究的工具包
  • metaworld -用于元任务和多任务强化学习的开源机器人技术基准
  • acme -增强学习的开源分布式框架,可轻松构建和培训代理.
  • Spinning Up -旨在让任何人学会成为深度强化学习的熟练从业者的教育资源

Ruby

Natural Language Processing

  • Awesome NLP with Ruby -精选的链接列表,用于在Ruby中进行实际的自然语言处理.
  • Treat -Text Retrieval and Annotation Toolkit,这绝对是我到目前为止为Ruby所遇到的最全面的工具包.
  • Stemmer -将libstemmer_c暴露给Ruby. [不推荐使用]
  • Raspell -raspell是红宝石的接口绑定. [不推荐使用]
  • UEA Stemmer -UEALite Stemmer的Ruby端口-用于搜索和索引的保守词干.
  • Twitter-text-rb -一个库,可自动链接和提取推文中的用户名,列表和主题标签.

General-Purpose Machine Learning

Data Analysis / Data Visualization

  • rsruby -红宝石-R桥.
  • ruby-plot -Ruby的gnuplot包装器,特别是用于将ROC曲线绘制到SVG文件中. [不推荐使用]
  • plot-rb -在Vega和D3之上构建的Ruby中的绘图库. [不推荐使用]
  • scruffy -Ruby的精美绘图工具包.
  • SciRuby
  • Glean -用于人类的数据管理工具. [不推荐使用]
  • Bioruby
  • Arel [不推荐使用]

Misc

Rust

General-Purpose Machine Learning

  • deeplearn-rs -deeplearn-rs提供了根据MIT许可使用矩阵乘法,加法和ReLU的简单网络.
  • rustlearn -机器学习框架,具有逻辑回归,支持向量机,决策树和随机森林.
  • rusty-machine -一个纯生锈的机器学习库.
  • leaf - open source framework for machine intelligence, sharing concepts from TensorFlow and Caffe. Available under the MIT license. [Deprecated]
  • RustNN -RustNN是前馈神经网络库. [不推荐使用]
  • RusticSOM -用于自组织地图(SOM)的Rust库.

R

General-Purpose Machine Learning

  • ahaz -ahaz:半参数加法危险回归的正则化. [不推荐使用]
  • arules -规则:采矿协会规则和频繁项集
  • biglasso -biglasso:将套索模型拟合扩展到R中的大数据.
  • bmrm -bmrm:正规化风险最小化软件包的捆绑方法.
  • Boruta -Boruta:一种用于所有相关特征选择的包装器算法.
  • bst -bst:梯度增强.
  • C50 -C50:C5.0决策树和基于规则的模型.
  • caret -分类和回归训练:R中约150 ML算法的统一接口.
  • caretEnsemble -caretEnsemble:用于拟合多个插入符号模型以及创建此类模型的集合的框架. [不推荐使用]
  • CatBoost -带有决策功能的决策树库上的通用梯度提升为R提供了开箱即用的功能.
  • Clever Algorithms For Machine Learning
  • CORElearn -CORElearn:分类,回归,特征评估和顺序评估.
  • CoxBoost -CoxBoost:通过基于可能性的Cox模型提高单个生存终点或竞争风险 [已弃用]
  • Cubist -立体主义者:基于规则和实例的回归建模.
  • e1071 -e1071:维也纳工业大学统计部的其他职能(e1071)
  • earth -Earth:多元自适应回归样条模型
  • elasticnet -elasticnet:用于稀疏估计和稀疏PCA的Elastic-Net.
  • ElemStatLearn -ElemStatLearn:Trevor Hastie,Robert Tibshirani和Jerome Friedman的书中的数据集,功能和示例:Trevor Hastie,Robert Tibshirani和Jerome Friedman Prediction的“统计学习,数据挖掘,推理和预测的要素”.
  • evtree -evtree:全球最佳树木的进化学习.
  • forecast -预测:使用ARIMA,ETS,STLM,TBATS和神经网络模型进行时间序列预测.
  • forecastHybrid -ForecastHybrid:“预报”包中的ARIMA,ETS,STLM,TBATS和神经网络模型的自动集成和交叉验证.
  • fpc -fpc:灵活的群集过程.
  • frbs -frbs:用于分类和回归任务的基于模糊规则的系统. [不推荐使用]
  • GAMBoost -GAMBoost:通过基于似然的增强的广义线性和加性模型. [不推荐使用]
  • gamboostLSS -gamboostLSS:用于GAMLSS的增强方法.
  • gbm -gbm:广义增强回归模型.
  • glmnet -glmnet:套索和弹性网正则化广义线性模型.
  • glmpath -glmpath:广义线性模型和Cox比例危害模型的L1正则化路径.
  • GMMBoost -GMMBoost:针对通用混合模型的基于似然性的Boosting. [不推荐使用]
  • grplasso -grplasso:使用户指定的模型具有组套索罚分.
  • grpreg -grpreg:具有分组协变量的回归模型的正则化路径.
  • h2o -大规模,快速,并行和分布式机器学习算法的框架-深度学习,随机森林,GBM,KMeans,PCA,GLM.
  • hda - hda: Heteroscedastic Discriminant Analysis. [Deprecated]
  • Introduction to Statistical Learning
  • ipred -ipred:改进的预测变量.
  • kernlab -kernlab:基于内核的机器学习实验室.
  • klaR -klaR:分类和可视化.
  • L0Learn -L0Learn:最佳子集选择的快速算法.
  • lars -Lars:最小角度回归,套索和前向舞台. [不推荐使用]
  • lasso2 -lasso2:L1约束估计又称为“套索”.
  • LiblineaR -LiblineaR:基于Liblinear C / C ++库的线性预测模型.
  • LogicReg -LogicReg:逻辑回归.
  • Machine Learning For Hackers
  • maptree -maptree:映射,修剪和绘制树模型. [不推荐使用]
  • mboost -mboost:基于模型的增强.
  • medley -混合泳:使用贪婪的逐步方法混合回归模型.
  • mlr -mlr:R中的机器学习.
  • ncvreg -ncvreg:用于SCAD和MCP惩罚的回归模型的正则化路径.
  • nnet -nnet:前馈神经网络和多项式对数线性模型. [不推荐使用]
  • pamr -pamr:Pam:微阵列的预测分析. [不推荐使用]
  • party -缔约方:递归分区实验室
  • partykit -partykit:用于递归分区的工具包.
  • penalized -惩罚式的:在GLM和Cox模型中,L1(套索和融合套索)和L2(脊式)的惩罚估计.
  • penalizedLDA -刑罚的LDA:使用费舍尔线性判别器的刑罚分类. [不推荐使用]
  • penalizedSVM -penalizedSVM:使用惩罚功能的特征选择SVM.
  • quantregForest -quantregForest:分位数回归森林.
  • randomForest -randomForest:Breiman和Cutler的随机森林,用于分类和回归.
  • randomForestSRC -randomForestSRC:生存,回归和分类的随机森林(RF-SRC).
  • rattle -嘎嘎声:用于R中数据挖掘的图形用户界面.
  • rda -rda:收缩质心正则化判别分析.
  • rdetools -rdetools:特征空间中的相关维估计(RDE). [不推荐使用]
  • REEMtree -REEMtree:具有纵向(面板)数据随机效应的回归树. [不推荐使用]
  • relaxo -Relaxo:轻松的套索. [不推荐使用]
  • rgenoud -rgenoud:使用衍生工具进行遗传优化的R版本
  • Rmalschains -Rmalschains:在R中使用具有局部搜索链的Memetic算法(MA-LS链)进行连续优化.
  • rminer -rminer:在分类和回归中更简单地使用数据挖掘方法(例如NN和SVM). [不推荐使用]
  • ROCR -ROCR:可视化评分器的性能. [不推荐使用]
  • RoughSets -粗糙集:使用粗糙集和模糊粗糙集理论进行数据分析. [不推荐使用]
  • rpart -rpart:递归分区和回归树.
  • RPMM -RPMM:递归分区混合物模型.
  • RSNNS -RSNNS:使用斯图加特神经网络模拟器(SNNS)的R中的神经网络.
  • RWeka -设置:R /应用界面.
  • RXshrink -RXshrink:通过广义岭或最小角度回归得到的最大似然收缩.
  • sda -sda:收缩判别分析和CAT分数变量选择. [不推荐使用]
  • spectralGraphTopology -SpectrumGraphTopology:通过光谱约束从数据中学习图.
  • SuperLearner -多算法合奏学习包.
  • svmpath -svmpath:svmpath:SVM路径算法. [不推荐使用]
  • tgp -tgp:贝叶斯树状高斯过程模型. [不推荐使用]
  • tree - tree: Classification and regression trees.
  • varSelRF -varSelRF:使用随机森林进行变量选择.
  • XGBoost.R -用于eXtreme渐变增强(树)库的R绑定.
  • Optunity -专门用于自动超参数优化的库,具有一个简单,轻量级的API,可以方便地替换网格搜索. 机会是用Python编写的,但与R无缝连接.
  • igraph -绑定到igraph库-通用图库.
  • MXNet -具有动态,可感知突变的Dataflow Dep Scheduler的轻型,便携式,灵活的分布式/移动深度学习; 适用于Python,R,Julia,Go,Javascript等.
  • TDSP-Utilities -来自Microsoft的R中的两个数据科学实用程序:1)交互式数据探索,分析和报告(IDEAR); 2)自动建模和报告(AMR).

Data Manipulation | Data Analysis | Data Visualization

  • dplyr -数据处理包,可帮助解决最常见的数据处理问题.
  • ggplot2 -基于图形语法的数据可视化程序包.
  • tmap 用于通过静态地图可视化地理空间数据,以及 leaflet 用于交互式地图
  • tmquanteda are the main packages for managing, analyzing, 和 visualizing textual data.
  • shiny 是R中真正的交互式显示和仪表板的基础.但是,可以通过以下方式实现某种程度的交互性 htmlwidgets 将JavaScript库带到R.其中包括, plotly, dygraphs, highcharter,以及其他几个.

SAS

General-Purpose Machine Learning

  • Visual Data Mining and Machine Learning -从数据准备到部署,在端到端分析环境中使用最新的机器学习算法进行交互式,自动化和程序化建模. 提供免费试用.
  • Enterprise Miner -数据挖掘和机器学习,可使用GUI或代码创建可部署模型.
  • Factory Miner -使用GUI在众多市场或客户群中自动创建可部署的机器学习模型.

Data Analysis / Data Visualization

  • SAS/STAT -用于进行高级统计分析.
  • University Edition - 自由! 包括数据分析和可视化所需的所有SAS软件包,以及在线SAS课程.

Natural Language Processing

Demos and Scripts

  • ML_Tables -简明的备忘单,其中包含机器学习的最佳实践.
  • enlighten-apply -说明SAS机器学习技术应用的示例代码和材料.
  • enlighten-integration -示例代码和材料,说明了将SAS与Java,PMML,Python和R中的其他分析技术集成的技术.
  • enlighten-deep -示例代码和材料,说明了如何在SAS中使用具有多个隐藏层的神经网络.
  • dm-flow -SAS Enterprise Miner过程流程图库,可通过示例帮助您学习有关特定数据挖掘主题的信息.

Scala

Natural Language Processing

  • ScalaNLP -ScalaNLP是一套机器学习和数值计算库.
  • Breeze -Breeze是Scala的数值处理库.
  • Chalk -Chalk是自然语言处理库. [不推荐使用]
  • FACTORIE -FACTORIE是用于可部署概率建模的工具包,在Scala中作为软件库实现. 它为用户提供了简洁的语言,用于创建关系因子图,估计参数和进行推理.
  • Montague -Montague是具有易于使用的DSL的Scala语义解析库.
  • Spark NLP -建立在Apache Spark ML之上的自然语言处理库,可为机器学习管道提供简单,高效且准确的NLP注释,该注释可在分布式环境中轻松扩展.

Data Analysis / Data Visualization

  • MLlib in Apache Spark -Spark中的分布式机器学习库
  • Hydrosphere Mist -用于将Apache Spark MLLib机器学习模型部署为实时,批处理或反应式Web服务的服务.
  • Scalding -用于级联的Scala API.
  • Summing Bird -通过缩放和风暴流式传输MapReduce.
  • Algebird -Scala的抽象代数.
  • xerial -用于Scala的数据管理实用程序. [不推荐使用]
  • PredictionIO -PredictionIO,面向软件开发人员和数据工程师的机器学习服务器.
  • BIDMat -CPU和GPU加速矩阵库,旨在支持大规模探索性数据分析.
  • Flink -用于分布式流和批处理数据处理的开源平台.
  • Spark Notebook -使用Scala和Spark进行交互式和反应性数据科学.

General-Purpose Machine Learning

  • DeepLearning.scala -从面向对象和函数式编程构造中创建静态类型的动态神经网络.
  • Conjecture -可扩展的可扩展机器学习.
  • brushfire -在Scala中进行分布式决策树集成学习.
  • ganitha -扩展动力机器学习. [不推荐使用]
  • adam -使用Apache Avro,Apache Spark和Parquet构建的基因组处理引擎和专用文件格式. Apache 2许可.
  • bioscala -Scala编程语言的生物信息学
  • BIDMach -CPU和GPU加速的机器学习库.
  • Figaro -用于构建概率模型的Scala库.
  • H2O Sparkling Water -H2O和Spark的互操作性.
  • FlinkML in Apache Flink -Flink中的分布式机器学习库.
  • DynaML -用于机器学习研究的Scala库/ REPL.
  • Saul -灵活的基于声明式学习的编程.
  • SwiftLearner -简单编写的算法可帮助学习ML或编写自己的实现.
  • Smile -统计机器智能和学习引擎.
  • doddle-model -建立在Breeze之上的内存中机器学习库. 它提供了不可变的对象,并通过类似于scikit-learn的API公开了其功能.
  • TensorFlow Scala -用于TensorFlow的强类型Scala API.

Scheme

Neural Networks

Swift

General-Purpose Machine Learning

  • Bender -建立在Metal之上的快速神经网络框架. 支持TensorFlow模型
  • Swift AI -用Swift编写的高度优化的人工智能和机器学习库.
  • Swift for Tensorflow -下一代机器学习平台,结合了机器学习,编译器,可微分编程,系统设计等方面的最新研究成果.
  • BrainCore -iOS和OS X神经网络框架.
  • swix -裸露的骨骼库,其中包含通用的矩阵语言,并包装了一些用于iOS开发的OpenCV. [不推荐使用]
  • AIToolbox -用Swift编写的AI模块的工具箱框架:图形/树,线性回归,支持向量机,神经网络,PCA,KMeans,遗传算法,MDP,高斯混合.
  • MLKit -用Swift编写的简单机器学习框架. 当前具有简单线性回归,多项式回归和岭回归.
  • Swift Brain -第一个用Swift编写的神经网络/机器学习库. 这是一个用于iOS和OS X开发的Swift中AI算法的项目. 该项目包括针对贝叶斯定理,神经网络,支持向量机,矩阵等的算法...
  • Perfect TensorFlow -TensorFlow的Swift语言绑定在macOS / Linux上都使用本机TensorFlow模型.
  • PredictionBuilder -机器学习库,可使用线性回归建立预测.
  • Awesome CoreML -预训练的CoreML模型的精选列表.
  • Awesome Core ML Models -精选的CoreML格式的机器学习模型列表.

TensorFlow

General-Purpose Machine Learning

Tools

Neural Networks

  • layer -从命令行推断神经网络

Misc

  • Pinecone -矢量数据库,用于需要实时,可扩展的矢量嵌入和相似性搜索的应用程序.
  • CatalyzeX -浏览器扩展(ChromeFirefox) that automatically finds 和 shows code implementations for machine learning papers anywhere: Google, Twitter, Arxiv, Scholar, etc.
  • ML Workspace -用于机器学习和数据科学的基于Web的多合一IDE. 工作区被部署为docker容器,并预加载了各种流行的数据科学库(例如Tensorflow,PyTorch)和开发工具(例如Jupyter,VS Code).
  • Notebooks -适用于Jupyter笔记本和机器学习的入门套件. 随附的docker映像由python版本,机器学习框架(Keras,PyTorch和Tensorflow)和CPU / CUDA版本的所有组合组成.
  • DVC -Data Science Version Control是一个开放源代码版本控制系统,用于带有管道支持的机器学习项目. 它使ML项目具有可复制性和可共享性.
  • Kedro -Kedro是一个数据和开发工作流框架,它实现了数据管道的最佳实践,并着眼于生产机器学习模型.
  • guild.ai -记录,分析,比较和“优化”实验的工具. 它是跨平台和独立于框架的,并提供了集成的可视化工具,例如张量板.
  • Sacred -Python工具,可帮助您配置,组织,记录和复制实验. 就像化学/生物学背景下的笔记本实验室一样. 社区利用提议的标准构建了多个附加组件.
  • MLFlow -管理机器学习生命周期的平台,包括实验,可重复性和部署. 框架和语言无关,请看一下所有内置集成.
  • Weights & Biases -机器学习实验跟踪,数据集版本控制,超参数搜索,可视化和协作 *更多改善ML生命周期的工具: Catalyst, PachydermIO . 以下是类似Github的目标团队 Weights & Biases, Neptune.Ml, Comet.ml, Valohai.ai, DAGsHub.
  • MachineLearningWithTensorFlow2ed -使用TensorFlow 1.14.1编写的有关通用机器学习技术回归,分类,无监督聚类,强化学习,自动编码器,卷积神经网络,RNN,LSTM的书.
  • m2cgen - A tool that allows the conversion of ML models into native code (Java, C, Python, Go, JavaScript, Visual Basic, C#, R, PowerShell, PHP, Dart) with zero dependencies.
  • CML -用于与ML项目进行持续集成的库. 使用GitHub Actions&GitLab CI在类似生产的环境中训练和评估模型,并在拉/合并请求中自动生成带有指标和图形的可视报告. 框架和语言不可知.
  • Pythonizr -生成使用scikit-learn的样板机器学习代码的在线工具.

Credits

*一些python库是从以下库中剪切并粘贴 vinta * Go的参考资料大多来自 gopherdata