数据科学

AWESOME DATA SCIENCE

一个开放源码的数据科学存储库,用于学习和应用于解决现实世界中的问题.

这是开始研究“数据科学”的捷径. 只需按照以下步骤回答以下问题:“什么是数据科学?我应该学习什么才能学习数据科学?”


What is Data Science?

数据科学是当今计算机和Internet农田上最热门的主题之一. 人们从应用程序和系统中收集数据直到今天,现在是分析它们的时候了. 下一步是从数据中提出建议并创建有关未来的预测. Here 您可以找到 Data Science 的最大问题以及专家提供的数百个答案.

| 友情链接预览| | --- | --- | | What is Data Science @ O'reilly | _数据科学家将企业家精神与耐心,逐步建立数据产品的意愿,探索能力以及迭代解决方案的能力结合在一起. 他们天生就是跨学科的. 他们可以解决问题的所有方面,从初始数据收集和数据条件处理到得出结论. 他们可以跳出思路,提出解决问题的新方法,或者解决非常广泛定义的问题:“这里有很多数据,您可以从中得到什么?” | What is Data Science @ Quora | 数据科学结合了数据的许多方面,例如技术,算法开发和数据干扰,以研究数据,分析数据并找到解决难题的创新方法. 基本上,数据科学就是关于分析数据并通过寻找创新方式来推动业务增长的. | | The sexiest job of 21st century | _当今的数据科学家类似于1980年代和1990年代的华尔街“数量”. 在那些日子里,具有物理学和数学背景的人涌向投资银行和对冲基金,在那里他们可以设计出全新的算法和数据策略. 然后,各式各样的大学开发了金融工程硕士学位课程,从而培养出了第二代的人才,而主流企业更容易获得这些人才. 在1990年代后期,搜索工程师重复了这种模式,搜索工程师的稀有技能很快就被计算机科学程序所教授. | Wikipedia | _数据科学是一个跨学科领域,它使用科学方法,过程,算法和系统从许多结构化和非结构化数据中提取知识和见解. 数据科学与数据挖掘,机器学习和大数据有关. | How to Become a Data Scientist | _数据科学家是大数据争吵者,负责收集和分析大量结构化和非结构化数据. 数据科学家的角色结合了计算机科学,统计学和数学. 他们分析,处理和建模数据,然后解释结果以为公司和其他组织创建可行的计划. | a very short history of #datascience | _有关数据科学家如何变得性感的故事主要是关于将成熟的统计学学科与非常年轻的计算机科学相结合的故事. 直到最近才出现“数据科学”一词,专门指代一种新的专业,有望理解大量的大数据存储. 但是,了解数据的历史由来已久,并且已经由科学家,统计学家,图书馆员,计算机科学家及其他人讨论了多年. 以下时间线追溯了“数据科学”一词的演变及其用途,对其进行定义的尝试以及相关术语.

Learn Data Science

Our favorite programming language is Python nowadays for #DataScience. Python's - Pandas 该库具有收集和分析数据的全部功能. 我们用 Anaconda 玩数据并创建应用程序.

Algorithms

这些是一些机器学习和数据挖掘算法和模型,可帮助您理解数据并从中获得含义.

Supervised Learning

-回归 -线性回归 - 普通最小二乘 -Logistic回归 -逐步回归 -多元自适应回归样条 -局部估计的散点图平滑 - 分类 -k最近邻居 -支持向量机 -决策树 -ID3算法 -C4.5算法 -合奏学习 -提升 -套袋 -随机森林 -AdaBoost

Unsupervised Learning

-聚类 -层次聚类 -k均值 -模糊聚类 -混合模型 - 神经网络 -自组织图 -自适应共振理论

Semi-Supervised Learning

Reinforcement Learning

-Q学习 -SARSA(状态-行动-奖励-状态-行动)算法 -时间差异学习

Data Mining Algorithms

-C4.5 -k-均值 -支持向量机 -Apriori - 在 - 网页排名 -AdaBoost -kNN -朴素贝叶斯 -购物车

COLLEGES

Intensive Programs

MOOC's

Tutorials

Free Courses

Toolboxes - Environment

| 友情链接描述 | --- | --- | | The Data Science Lifecycle Process | 数据科学生命周期过程是一个过程,该过程使数据科学团队从观念到价值反复不断地获得可持续发展. 此仓库中记录了该过程. | Data Science Lifecycle Template Repo | 数据科学生命周期项目的模板存储库| | PyTorch Geometric Temporal | 动态图上的表示学习. | | Little Ball of Fur | 具有Scikit-Learn like API的NetworkX的图形采样库. | | Karate Club | 带有Scikit-Learn like API的NetworkX的无监督机器学习扩展库. | | ML Workspace | 基于Web的多合一IDE,用于机器学习和数据科学. 工作区被部署为Docker容器,并预加载了各种流行的数据科学库(例如Tensorflow,PyTorch)和开发工具(例如Jupyter,VS Code). | neptune.ml | 社区友好型平台,支持数据科学家创建和共享机器学习模型. Neptune促进了团队合作,基础架构管理,模型比较和可重复性. | | steppy | 轻量级的Python库,用于快速且可重复的机器学习实验. 引入了非常简单的界面,可实现干净的机器学习管道设计. | | steppy-toolkit | 精选的神经网络,变压器和模型集合,可让您的机器学习更快,更有效地工作. | | Datalab from Google | 使用Python和SQL等熟悉的语言轻松交互地浏览,可视化,分析和转换数据. | | Hortonworks Sandbox | 是一个个人的,可移植的Hadoop环境,其中包含许多交互式Hadoop教程. | | R | 是用于统计计算和图形的免费软件环境. | | RStudio | IDE – R的强大用户界面.它是免费的开放源代码,可在Windows,Mac和Linux上运行. | | Python - Pandas - Anaconda | 完全免费的企业就绪Python发行版,用于大规模数据处理,预测分析和科学计算| | Pandas GU | Pandas GUI | | Scikit-Learn | Python中的机器学习 | NumPy | NumPy是使用Python进行科学计算的基础. 它支持大型的多维数组和矩阵,并包括用于在这些数组上进行操作的各种高级数学函数. | | SciPy | SciPy与NumPy数组一起使用,并提供了用于数值积分和优化的有效例程. | Data Science Toolbox | Coursera课程| | Data Science Toolbox | 博客| | Wolfram Data Science Platform | 采集数值,文本,图像,GIS或其他数据,并给予Wolfram处理,进行全方位的数据科学分析和可视化,并自动生成丰富的交互式报告,所有这些均基于革命性的基于知识的Wolfram语言提供支持. | | Datadog | 大规模数据科学的解决方案,代码和开发人员. | | Variance | 无需编写JavaScript即可构建强大的Web数据可视化| | Kite Development Kit | Kite软件开发工具包(Apache许可证,版本2.0)或Kite是一组库,工具,示例和文档,旨在简化在Hadoop生态系统之上构建系统的工作. | | Domino Data Labs | 运行,扩展,共享和部署模型-无需任何基础架构或设置. | | Apache Flink | 一个高效,分布式,通用数据处理的平台. | | Apache Hama | Apache Hama是一个Apache顶级开源项目,可让您进行MapReduce之外的高级分析. | | Weka | Weka是用于数据挖掘任务的机器学习算法的集合. | | Octave | GNU Octave是一种高级解释语言,主要用于数值计算. | Apache Spark | 迅捷的集群计算| | Hydrosphere Mist | 一种将Apache Spark分析作业和机器学习模型公开为实时,批处理或反应式Web服务的服务. | | Data Mechanics | 数据科学和工程平台使Apache Spark对开发人员更友好且更具成本效益. | | Caffe | 深度学习框架| | Torch | LuaJit的科学计算框架| | Nervana's python based Deep Learning Framework | . | | Skale | NodeJS中的高性能分布式数据处理 | Aerosolve | 专为人类打造的机器学习包. | | Intel framework | 英特尔®深度学习框架| | Datawrapper | 一个开源的数据可视化平台,可帮助每个人创建简单,正确和可嵌入的图表. 同样在 github.com | | Tensor Flow | TensorFlow是一个用于机器智能的开源软件库. | Natural Language Toolkit | . | | nlp-toolkit for node.js | . | | Julia | 用于技术计算的高级,高性能动态编程语言| | IJulia | 朱莉娅语言后端结合Jupyter交互式环境| | Apache Zeppelin | 基于Web的笔记本,可通过SQL,Scala等实现数据驱动的交互式数据分析和协作文档| | Featuretools | 用python编写的用于自动功能工程的开源框架| | Optimus | 带有PySpark后端的清理,预处理,功能工程,探索性数据分析和简易ML. | | Albumentations | 快速且与框架无关的图像增强库,可实现多种增强技术. 支持分类,分割,开箱即用的检测. 曾经在Kaggle,Topcoder和CVPR研讨会的一部分中赢得过许多深度学习竞赛. | | DVC | 开源数据科学版本控制系统. 它有助于跟踪,组织数据科学项目并使之可重现. 在最基本的情况下,它有助于版本控制以及共享大数据和模型文件. | | Lambdo | 是一种工作流引擎,通过将一个分析管道(i)特征工程和机器学习(ii)模型训练和预测(iii)表填充和列评估结合在一起,大大简化了数据分析. | | Feast | 用于管理,发现和访问机器学习功能的功能存储. Feast可为模型训练和模型服务提供一致的特征数据视图. | | Polyaxon | 可重现和可扩展的机器学习和深度学习的平台. | | LightTag | 团队文字注释工具| | Trains | 自动魔术实验管理器,用于AI的版本控制和DevOps | | Hopsworks | 具有功能存储的开源数据密集型机器学习平台. 摄取和管理用于在线(MySQL群集)和离线(Apache Hive)访问的功能,大规模培训和提供模型. | | MindsDB | MindsDB是面向开发人员的可解释AutoML框架. 借助MindsDB,您可以仅用一行代码即可构建,训练和使用最新的ML模型. | | Lightwood | 一个基于Pytorch的框架,它将机器学习问题分解为较小的块,可以将这些块无缝地粘在一起,目的是用一行代码构建预测模型. | | AWS Data Wrangler | 一个开源Python软件包,将Pandas库的功能扩展到连接DataFrame和AWS数据相关服务(Amazon Redshift,AWS Glue,Amazon Athena,Amazon EMR等)的AWS. | | CML | 一个开放源代码工具包,用于在数据科学项目中使用持续集成. 使用GitHub Actions&GitLab CI在类似于生产的环境中自动训练和测试模型,并自动生成关于拉/合并请求的可视报告. | | Dask | 一个开源Python库,可以轻松地将您的分析代码过渡到分布式计算系统(大数据)|英特尔®开发人员专区 | Statsmodels | 基于Python的推论统计,假设检验和回归框架| | Gensim | 一个用于自然语言文本主题建模的开源库| | spaCy | 高效的自然语言处理工具包| | Grid Studio | Grid studio是基于Web的电子表格应用程序,与Python编程语言完全集成. | |Python Data Science Handbook| Python数据科学手册:Jupyter Notebooks中的全文| | Shapley | 一个数据驱动的框架,用于量化机器学习集合中分类器的价值. | | DAGsHub | 一个基于开源工具构建的平台,用于数据,模型和管道管理. | | Deepnote | 一种新型的数据科学笔记本. 与Jupyter兼容,具有实时协作并在云中运行. |

Machine Learning in General Purpose

Deep Learning

pytorch

tensorflow

keras

Visualization Tools - Environments

Journals, Publications and Magazines

Presentations

Podcasts

Books

Socialize

Bloggers

Facebook Accounts

Twitter Accounts

推特 描述
Big Data Combine 寻求数据科学家通过交易模型进行货币化的快速试验,实时试用
Big Data Mania Data Viz Wiz,数据新闻记者,成长型黑客,《傻瓜数据科学》一书的作者(2015)
Big Data Science 大数据,数据科学,预测建模,业务分析,Hadoop,决策和运营研究.
Charlie Greenbacker @ExploreAltamira的数据科学总监
Chris Said Twitter的数据科学家
Clare Corthell Dev, Design, Data Science @mattermark #hackerei
DADI Charles-Abner #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
Data Science Central 数据科学中心是大数据从业者的行业单一资源.
Data Science London 数据科学. 大数据. 数据黑客. 数据迷. 数据启动. 打开数据
Data Science Renee 记录我从寻求工程硕士学位的SQL数据分析师到数据科学家的道路
Data Science Report 使命是帮助指导和促进数据科学与分析事业的发展
Data Science Tips Tips and Tricks for Data Scientists around the world! #datascience #bigdata
Data Vizzard DataViz,安全性,军事
DataScienceX
deeplearning4j
DJ Patil 白宫数据主管,RelateIQ副总裁.
Domino Data Lab
Drew Conway Data nerd, hacker, student of conflict.
Emilio Ferrara #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv
Erin Bartolo Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr.
Greg Reda @ _GrubHub_关于数据和熊猫的工作
Gregory Piatetsky KDnuggets总裁,分析/大数据/数据挖掘/数据科学专家,KDD和SIGKDD共同创始人,曾是两家初创公司的首席科学家,兼职哲学家.
Hadley Wickham RStudio的首席科学家,奥克兰大学,斯坦福大学和莱斯大学的统计学兼职教授.
Hakan Kardas 数据科学家
Hilary Mason @accel的居住数据科学家.
Jeff Hammerbacher 转推有关数据科学
John Myles White Facebook科学家和Julia开发人员. 黑客机器学习和用于网站优化的强盗算法的作者. 推文仅反映我的观点.
Juan Miguel Lavista 首席数据科学家@微软数据科学团队
Julia Evans 黑客-熊猫-数据分析
Kenneth Cukier 《经济学人》的数据编辑兼大数据(http://big-data-book.com)的合著者.
Kevin Davenport https://meetup.com/San-Diego-R-Users-Group/的组织者
Kevin Markham 数据科学讲师,创始人 Data School
Kim Rees 交互式数据可视化和工具. 数据专家.
Kirk Borne DataScientist, PhD Astrophysicist, Top #BigData Influencer.
Linda Regber 数据故事出纳员,可视化.
Luis Rei 博士生. 编程,移动,Web. 人工智能,智能机器人机器学习,数据挖掘,自然语言处理,数据科学.
Mark Stevenson Salt(@SaltJobs)Analytics(分析)的Data Analytics招聘专家-洞察力-大数据-Datascience
Matt Harrison 目前正在玩数据科学家的全栈Python专家,作家,讲师的观点. 偶尔育儿,养育,有机园艺.
Matthew Russell 挖掘社交网络.
Mert Nuhoğlu BizQualify的数据科学家,开发人员
Monica Rogati 数据@ Jawbone. 在LinkedIn上将数据转换为故事和产品. 文本挖掘,应用机器学习,推荐系统. 前游戏者,前机器编码器; 命名者.
Noah Iliinsky 可视化和交互设计师. 实用的自行车手. 视觉书籍的作者:http://www.oreilly.com/pub/au/4419
Paul Miller 云计算/大数据/开放数据分析师和顾问. 作家,演讲者和主持人. Gigaom研究分析师.
Peter Skomoroch 创建智能系统以自动化任务并改善决策. 企业家,前首席数据科学家@LinkedIn. 机器学习,ProductRei,网络
Prash Chan @ IBM解决方案架构师,主数据管理,数据质量和数据治理Blogger. 数据科学,Hadoop,大数据和云.
Quora Data Science Quora的数据科学主题
R-Bloggers 来自R博客圈,数据科学会议和(!)的面向Twitter的Tweet博客文章,供数据科学家使用.
Rand Hindi
Randy Olson Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate.
Recep Erol 数据科学专家@ UALR
Ryan Orban 数据科学家,遗传学家,硬件爱好者
Sean J. Taylor 社会科学家. 黑客. Facebook数据科学团队. 关键字:实验,因果推理,统计,机器学习,经济学.
Silvia K. Spiva #DataScience at Cisco
Harsh B. Gupta BBVA Compass的数据科学家
Spencer Nelson Data nerd
Talha Oz 享受ABM,SNA,DM,ML,NLP,HI,Python,Java. 顶级百分位数kaggler /数据科学家
Tasos Skarlatidis 复杂事件处理,大数据,人工智能和机器学习. 对编程和开源充满热情.
Terry Timko InfoGov; 大数据; 数据即服务; 数据科学; 开放,社交和业务数据融合
Tony Baer Ovum的IT分析师介绍了一些系统工程,涵盖了大数据和数据管理.
Tony Ojeda Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC
Vamshi Ambati Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com )
Wes McKinney Pandas(Python数据分析库).
WileyEd Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast
WNYC Data News Team @WNYC的数据新闻工作人员. 练习数据驱动的新闻业,使其形象化并展示我们的工作.
Alexey Grigorev 数据科学作者

Newsletters

Youtube Videos & Channels

Telegram Channels

  • Open Data Science –第一个电报数据科学频道. 涵盖所有与数据科学相关的技术和热门人员:人工智能,大数据,机器学习,统计,通用数学以及前者的应用.
  • Loss function porn —关于DS / ML主题的漂亮帖子,带有视频或图形可视化.
  • Machinelearning –每日ML新闻.

Slack Communities

Github Groups

Competitions

一些数据挖掘竞赛平台

Fun

Infographic

预览 描述
Key differences of a data scientist vs. data engineer
通过8个步骤成为一名数据科学家的直观指南 DataCamp (img)
所需技能的思维导图(img)
斯瓦米·钱德拉塞卡兰(Swami Chandrasekaran) Curriculum via Metro map.
经过 @kzawadz 通过 twitter
经过 Data Science Central
this article 由伯克利科学评论.
数据科学大战:R与Python
如何选择统计或机器学习技术
选择合适的估算器
数据科学行业:谁在做什么?
数据科学~朋友~欧拉图
Different Data Science Skills and Roles from this article 由Springboard
Data Fallacies To Avoid 一种简单友好的方式来教您的非数据科学家/非统计学家同事 how to avoid mistakes with data . 从壁虎板 Data Literacy Lessons.

Data Sets

Awesome Data Science

Awesome Subscribe to new links

Hobby

Other Lists

-其他惊人的清单也可以在 awesome-awesomeness - Awesome Machine Learning - lists - awesome-dataviz - awesome-python - Data Science IPython Notebooks. - awesome-r - awesome-datasets - awesome-Machine Learning & Deep Learning Tutorials - Awesome Data Science Ideas - Machine Learning for Software Engineers - Community Curated Data Science Resources - Awesome Machine Learning On Source Code - Awesome Community Detection - Awesome Graph Classification - Awesome Decision Tree Papers - Awesome Fraud Detection Papers - Awesome Gradient Boosting Papers - Awesome Computer Vision Models - Awesome Monte Carlo Tree Search - Glossary of common statistics and ML terms - 100 NLP Papers - Awesome Game Datasets - Data Science Interviews Questions