数据科学

AWESOME DATA SCIENCE¶
一个开放源码的数据科学存储库,用于学习和应用于解决现实世界中的问题.
这是开始研究“数据科学”的捷径. 只需按照以下步骤回答以下问题:“什么是数据科学?我应该学习什么才能学习数据科学?”
What is Data Science?¶
数据科学是当今计算机和Internet农田上最热门的主题之一. 人们从应用程序和系统中收集数据直到今天,现在是分析它们的时候了. 下一步是从数据中提出建议并创建有关未来的预测. Here 您可以找到 Data Science 的最大问题以及专家提供的数百个答案.
| 友情链接预览| | --- | --- | | What is Data Science @ O'reilly | _数据科学家将企业家精神与耐心,逐步建立数据产品的意愿,探索能力以及迭代解决方案的能力结合在一起. 他们天生就是跨学科的. 他们可以解决问题的所有方面,从初始数据收集和数据条件处理到得出结论. 他们可以跳出框框思考,提出解决问题的新方法,或者解决非常广泛定义的问题:“这里有很多数据,您可以从中得到什么?” | What is Data Science @ Quora | 数据科学结合了数据的许多方面,例如技术,算法开发和数据干扰,以研究数据,分析数据并找到解决难题的创新方法. 基本上,数据科学就是关于分析数据并通过寻找创新方式来推动业务增长的. | | The sexiest job of 21st century | _当今的数据科学家类似于1980年代和1990年代的华尔街“数量”. 在那些日子里,具有物理学和数学背景的人涌向投资银行和对冲基金,在那里他们可以设计出全新的算法和数据策略. 然后,各式各样的大学开发了金融工程硕士学位课程,从而培养出了第二代的人才,而主流企业更容易获得这些人才. 在1990年代后期,搜索工程师重复了这种模式,搜索工程师的稀有技能很快就被计算机科学程序所教授. | Wikipedia | _数据科学是一个跨学科领域,它使用科学方法,过程,算法和系统从许多结构化和非结构化数据中提取知识和见解. 数据科学与数据挖掘,机器学习和大数据有关. | How to Become a Data Scientist | _数据科学家是大数据争吵者,负责收集和分析大量结构化和非结构化数据. 数据科学家的角色结合了计算机科学,统计学和数学. 他们分析,处理和建模数据,然后解释结果以为公司和其他组织创建可行的计划. | a very short history of #datascience | _有关数据科学家如何变得性感的故事主要是关于将成熟的统计学学科与非常年轻的计算机科学相结合的故事. 直到最近才出现“数据科学”一词,专门指代一种新的专业,有望理解大量的大数据存储. 但是,了解数据的历史由来已久,并且已经由科学家,统计学家,图书馆员,计算机科学家及其他人讨论了多年. 以下时间线追溯了“数据科学”一词的演变及其用途,对其进行定义的尝试以及相关术语.
Learn Data Science¶
Our favorite programming language is Python nowadays for #DataScience. Python's - Pandas 该库具有收集和分析数据的全部功能. 我们用 Anaconda 玩数据并创建应用程序.
Algorithms¶
这些是一些机器学习和数据挖掘算法和模型,可帮助您理解数据并从中获得含义.
Supervised Learning¶
-回归 -线性回归 - 普通最小二乘 -Logistic回归 -逐步回归 -多元自适应回归样条 -局部估计的散点图平滑 - 分类 -k最近邻居 -支持向量机 -决策树 -ID3算法 -C4.5算法 -合奏学习 -提升 - Bagging -随机森林 -AdaBoost
Unsupervised Learning¶
-聚类 -层次聚类 -k均值 -模糊聚类 -混合模型 - 神经网络 -自组织图 -自适应共振理论
Semi-Supervised Learning¶
Reinforcement Learning¶
-Q学习 -SARSA(状态-行动-奖励-状态-行动)算法 -时间差异学习
Data Mining Algorithms¶
-C4.5 -k-均值 -支持向量机 -Apriori - 在 - 网页排名 -AdaBoost -kNN -朴素贝叶斯 -购物车
COLLEGES¶
- A list of colleges and universities offering degrees in data science.
- Data Science Degree @ Berkeley
- Data Science Degree @ UVA
- Data Science Degree @ Wisconsin
- MS in Computer Information Systems @ Boston University
- MS in Business Analytics @ ASU Online
- Data Science Engineer @ BTH
- MS in Applied Data Science @ Syracuse
- M.S. Management & Data Science @ Leuphana
- Master of Data Science @ Melbourne University
- Msc in Data Science @ The University of Edinburgh
- Master of Management Analytics @ Queen's University
- Master of Data Science @ Illinois Institute of Technology
MOOC's¶
- Coursera Introduction to Data Science
- Data Science - 9 Steps Courses, A Specialization on Coursera
- Data Mining - 5 Steps Courses, A Specialization on Coursera
- Machine Learning – 5 Steps Courses, A Specialization on Coursera
- CS 109 Data Science
- OpenIntro
- CS 171 Visualization
- Process Mining: Data science in Action
- Oxford Deep Learning
- Oxford Deep Learning - video
- Oxford Machine Learning
- UBC Machine Learning - video
- Data Science Specialization
- Coursera Big Data Specialization
- Statistical Thinking for Data Science and Analytics by Edx
- Cognitive Class AI by IBM
- Udacity - Deep Learning
- Keras in Motion
- Microsoft Professional Program for Data Science
- COMP3222/COMP6246 - Machine Learning Technologies
- CS 231 - Convolutional Neural Networks for Visual Recognition
- Coursera Tensorflow in practice
- Coursera Deep Learning Specialization
- 365 Data Science Course
- Coursera Natural Language Processing Specialization
- Coursera GAN Specialization
- Codecademy's Data Science
- Linear Algebra -Gilbert Strang的线性代数课程
- A 2020 Vision of Linear Algebra (G. Strang)
- Python for Data Science Foundation Course
Tutorials¶
- 1000 Data Science Projects 您可以使用ipyton在浏览器上运行.
- #tidytuesday 针对R生态系统的每周数据项目.
- Data science your way
- PySpark Cheatsheet
- Machine Learning, Data Science and Deep Learning with Python
- How To Label Data
- Your Guide to Latent Dirichlet Allocation
- Over 1000 Data Science Online Courses at Classpert Online Search Engine
- Tutorials of source code from the book Genetic Algorithms with Python by Clinton Sheppard
- Tutorials to get started on signal processings for machine learning
Free Courses¶
- Data Scientist with R
- Data Scientist with Python
- Genetic Algorithms OCW Course
- AI Expert Roadmap -成为人工智能专家的路线图
- Convex Optimization -凸优化(凸分析的基础;最小二乘,线性和二次程序,半定规划,极小极大值,极值体积和其他问题;最优性条件,对偶理论...)
Toolboxes - Environment¶
| 友情链接描述 | --- | --- | | The Data Science Lifecycle Process | 数据科学生命周期过程是一个过程,该过程使数据科学团队从观念到价值反复不断地获得可持续发展. 此仓库中记录了该过程. | Data Science Lifecycle Template Repo | 数据科学生命周期项目的模板存储库| | PyTorch Geometric Temporal | 动态图上的表示学习. | | Little Ball of Fur | 具有Scikit-Learn like API的NetworkX的图形采样库. | | Karate Club | 带有Scikit-Learn like API的NetworkX的无监督机器学习扩展库. | | ML Workspace | 基于Web的多合一IDE,用于机器学习和数据科学. 工作区被部署为Docker容器,并预加载了各种流行的数据科学库(例如Tensorflow,PyTorch)和开发工具(例如Jupyter,VS Code). | neptune.ml | 社区友好型平台,支持数据科学家创建和共享机器学习模型. Neptune促进了团队合作,基础架构管理,模型比较和可重复性. | | steppy | 轻量级的Python库,用于快速且可重复的机器学习实验. 引入了非常简单的界面,可实现干净的机器学习管道设计. | | steppy-toolkit | 精选的神经网络,变压器和模型集合,可让您的机器学习更快,更有效地工作. | | Datalab from Google | 使用Python和SQL等熟悉的语言轻松交互地浏览,可视化,分析和转换数据. | | Hortonworks Sandbox | 是一个个人的,可移植的Hadoop环境,其中包含许多交互式Hadoop教程. | | R | 是用于统计计算和图形的免费软件环境. | | RStudio | IDE – R的强大用户界面.它是免费的开放源代码,可在Windows,Mac和Linux上运行. | | Python - Pandas - Anaconda | 完全免费的企业就绪Python发行版,用于大规模数据处理,预测分析和科学计算| | Pandas GU | Pandas GUI | | Scikit-Learn | Python中的机器学习 | NumPy | NumPy是使用Python进行科学计算的基础. 它支持大型的多维数组和矩阵,并包括用于在这些数组上进行操作的各种高级数学函数. | | SciPy | SciPy与NumPy数组一起使用,并提供了用于数值积分和优化的有效例程. | Data Science Toolbox | Coursera课程| | Data Science Toolbox | 博客| | Wolfram Data Science Platform | 采集数值,文本,图像,GIS或其他数据,并给予Wolfram处理,进行全方位的数据科学分析和可视化,并自动生成丰富的交互式报告,所有这些均基于革命性的基于知识的Wolfram语言提供支持. | | Datadog | 大规模数据科学的解决方案,代码和开发人员. | | Variance | 无需编写JavaScript即可构建强大的Web数据可视化| | Kite Development Kit | Kite软件开发工具包(Apache许可证,版本2.0)或Kite是一组库,工具,示例和文档,旨在简化在Hadoop生态系统之上构建系统的工作. | | Domino Data Labs | 运行,扩展,共享和部署模型-无需任何基础架构或设置. | | Apache Flink | 一个高效,分布式,通用数据处理的平台. | | Apache Hama | Apache Hama是一个Apache顶级开源项目,可让您进行MapReduce之外的高级分析. | | Weka | Weka是用于数据挖掘任务的机器学习算法的集合. | | Octave | GNU Octave是一种高级解释语言,主要用于数值计算. | Apache Spark | 迅捷的集群计算| | Hydrosphere Mist | 一种将Apache Spark分析作业和机器学习模型公开为实时,批处理或反应式Web服务的服务. | | Data Mechanics | 数据科学和工程平台使Apache Spark对开发人员更友好且更具成本效益. | | Caffe | 深度学习框架| | Torch | LuaJit的科学计算框架| | Nervana's python based Deep Learning Framework | . | | Skale | NodeJS中的高性能分布式数据处理 | Aerosolve | 专为人类打造的机器学习包. | | Intel framework | 英特尔®深度学习框架| | Datawrapper | 一个开源的数据可视化平台,可帮助每个人创建简单,正确和可嵌入的图表. 同样在 github.com | | Tensor Flow | TensorFlow是一个用于机器智能的开源软件库. | Natural Language Toolkit | . | | nlp-toolkit for node.js | . | | Julia | 用于技术计算的高级,高性能动态编程语言| | IJulia | 朱莉娅语言后端结合Jupyter交互式环境| | Apache Zeppelin | 基于Web的笔记本,可通过SQL,Scala等实现数据驱动的交互式数据分析和协作文档| | Featuretools | 用python编写的用于自动功能工程的开源框架| | Optimus | 带有PySpark后端的清理,预处理,功能工程,探索性数据分析和简易ML. | | Albumentations | 快速且与框架无关的图像增强库,可实现多种增强技术. 支持分类,分割,开箱即用的检测. 曾经在Kaggle,Topcoder和CVPR研讨会的一部分中赢得过许多深度学习竞赛. | | DVC | 开源数据科学版本控制系统. 它有助于跟踪,组织数据科学项目并使之可重现. 在最基本的情况下,它有助于版本控制以及共享大数据和模型文件. | | Lambdo | 是一种工作流引擎,通过将一个分析管道(i)特征工程和机器学习(ii)模型训练和预测(iii)表填充和列评估结合在一起,大大简化了数据分析. | | Feast | 用于管理,发现和访问机器学习功能的功能存储. Feast可为模型训练和模型服务提供一致的特征数据视图. | | Polyaxon | 可重现和可扩展的机器学习和深度学习的平台. | | LightTag | 团队文字注释工具| | Trains | 自动魔术实验管理器,用于AI的版本控制和DevOps | | Hopsworks | 具有功能存储的开源数据密集型机器学习平台. 摄取和管理用于在线(MySQL群集)和离线(Apache Hive)访问的功能,大规模培训和提供模型. | | MindsDB | MindsDB是面向开发人员的可解释AutoML框架. 借助MindsDB,您可以仅用一行代码即可构建,训练和使用最新的ML模型. | | Lightwood | 一个基于Pytorch的框架,它将机器学习问题分解为较小的块,可以将这些块无缝地粘在一起,目的是用一行代码构建预测模型. | | AWS Data Wrangler | 一个开源Python软件包,将Pandas库的功能扩展到连接DataFrame和AWS数据相关服务(Amazon Redshift,AWS Glue,Amazon Athena,Amazon EMR等)的AWS. | | CML | 一个开放源代码工具包,用于在数据科学项目中使用持续集成. 使用GitHub Actions&GitLab CI在类似于生产的环境中自动训练和测试模型,并自动生成关于拉/合并请求的可视报告. | | Dask | 一个开源Python库,可以轻松地将您的分析代码过渡到分布式计算系统(大数据)| | Statsmodels | 基于Python的推论统计,假设检验和回归框架| | Gensim | 一个用于自然语言文本主题建模的开源库| | spaCy | 高效的自然语言处理工具包| | Grid Studio | Grid studio是基于Web的电子表格应用程序,与Python编程语言完全集成. | |Python Data Science Handbook| Python数据科学手册:Jupyter Notebooks中的全文| | Shapley | A data-driven framework to quantify the value of classifiers in a machine learning ensemble. | | DAGsHub | 一个基于开源工具构建的平台,用于数据,模型和管道管理. |
Machine Learning in General Purpose¶
- scikit-learn
- scikit-multilearn
- sklearn-expertsys
- scikit-feature
- scikit-rebate
- seqlearn
- sklearn-bayes
- sklearn-crfsuite
- sklearn-deap
- sigopt_sklearn
- sklearn-evaluation
- scikit-image
- scikit-opt
- scikit-posthocs
- pystruct
- Shogun
- xLearn
- cuML
- causalml
- mlpack
- MLxtend
- modAL
- Sparkit-learn
- hyperlearn
- dlib
- RuleFit
- pyGAM
Deep Learning¶
pytorch¶
- PyTorch
- torchvision
- torchtext
- torchaudio
- ignite
- PyTorchNet
- PyToune
- skorch
- PyVarInf
- pytorch_geometric
- GPyTorch
- pyro
- Catalyst
tensorflow¶
- TensorFlow
- TensorLayer
- TFLearn
- Sonnet
- tensorpack
- TRFL
- Polyaxon
- NeuPy
- tfdeploy
- tensorflow-upstream
- TensorFlow Fold
- tensorlm
- TensorLight
- Mesh TensorFlow
- Ludwig
- TF-Agents
- TensorForce
keras¶
Visualization Tools - Environments¶
- addepar
- amcharts
- anychart
- bokeh
- slemma
- cartodb
- Cube
- d3plus
- Data-Driven Documents(D3js)
- datahero
- dygraphs
- ECharts
- exhibit
- gephi
- ggplot2
- Glue
- Google Chart Gallery
- highcarts
- import.io
- jqplot
- Matplotlib
- nvd3
- Opendata-tools
- Openrefine
- plot.ly
- raw
- rcharts
- Seaborn
- techanjs
- Timeline
- variancecharts
- vida
- Wrangler
- r2d3
- NetworkX
- Redash
- C3
- TensorWatch
Journals, Publications and Magazines¶
- ICML -国际机器学习大会
- GECCO -遗传与进化计算会议(GECCO)
- epjdatascience
- Journal of Data Science -致力于统计方法应用的国际期刊
- Big Data Research
- Journal of Big Data
- Big Data & Society
- Data Science Journal
- datatau.com/news -与骇客新闻类似,但用于数据
- Data Science Trello Board
- Medium Data Science Topic -媒体上与数据科学相关的出版物
- Towards Data Science Genetic Algorithm Topic 与遗传算法相关的出版物,迈向数据科学
Presentations¶
- How to Become a Data Scientist
- Introduction to Data Science
- Intro to Data Science for Enterprise Big Data
- How to Interview a Data Scientist
- How to Share Data with a Statistician
- The Science of a Great Career in Data Science
- What Does a Data Scientist Do?
- Building Data Start-Ups: Fast, Big, and Focused
- How to win data science competitions with Deep Learning
- Full-Stack Data Scientist
Podcasts¶
- Adversarial Learning
- Data Crunch
- Data Engineering Podcast
- Data Science at Home
- Data Science Mixer
- Data Skeptic
- Data Stories
- Datacast
- Learning Machines 101
- Linear Digressions
- Not So Standard Deviations
- Partially Derivative
- Superdatascience
- What's The Point
- Chai time Data Science
- Becoming a Data Scientist
- DataTalks.Club
Books¶
- Machine Learning from Scratch
- A Comprehensive Guide to Machine Learning
- Become a Leader in Data Science -抢先体验
- Fighting Churn With Data
- Data Science at Scale with Python and Dask
- Python Data Science Handbook
- The Data Science Handbook: Advice and Insights from 25 Amazing Data Scientists
- Think Like a Data Scientist
- Introducing Data Science
- Practical Data Science with R
- Everyday Data Science & (cheaper PDF version)
- Exploring Data Science -免费的电子书采样器
- Exploring the Data Jungle -免费的电子书采样器
- Classic Computer Science Problems in Python
- Math for Programmers 抢先体验
- R in Action, Third Edition 抢先体验
- Data Science Bookcamp 抢先体验
- Data Science Thinking: The Next Scientific, Technological and Economic Revolution
- Applied Data Science: Lessons Learned for the Data-Driven Business
- The Data Science Handbook
- Essential Natural Language Processing -抢先体验
- Mining Massive Datasets -在线课程包含的免费电子书
- Pandas in Action -抢先体验
- Genetic Algorithms and Genetic Programming
- Genetic algorithms in search, optimization, and machine learning -免费下载
- Advances in Evolutionary Algorithms -免费下载
- Genetic Programming: New Approaches and Successful Applications -免费下载
- Evolutionary Algorithms -免费下载
- Advances in Genetic Programming, Vol. 3 -免费下载
- Global Optimization Algorithms: Theory and Application -免费下载
- Genetic Algorithms and Evolutionary Computation -免费下载
- Convex Optimization -斯蒂芬·博伊德的凸优化书-免费下载
- Data Analysis with Python and PySpark -抢先体验
- R for Data Science
- Build a Career in Data Science
- Machine Learning Bookcamp -抢先体验
Socialize¶
Bloggers¶
- Wes McKinney -韦斯·麦金尼档案馆.
- Matthew Russell -挖掘社交网络.
- Greg Reda -格雷格·雷达(Greg Reda)个人博客
- Kevin Davenport -凯文·达文波特个人博客
- Julia Evans -递归中心校友
- Hakan Kardas -个人网页
- Sean J. Taylor -个人网页
- Drew Conway -个人网页
- Hilary Mason -个人网页
- Noah Iliinsky -个人博客
- Matt Harrison -个人博客
- Vamshi Ambati -AllThings数据场景
- Prash Chan -关于主数据管理及其周围所有嗡嗡声的技术博客
- Clare Corthell -开源数据科学大师
- Paul Miller Cloud of Data的咨询服务总部位于英国,在全球范围内工作,可帮助客户了解将数据及更多内容带到Cloud的含义.
- Data Science London 伦敦数据科学公司是一个非营利性组织,致力于数据科学的免费,开放和传播. 我们是欧洲最大的数据科学社区. 我们社区中有3190多名数据科学家和数据极客.
- Datawrangling 彼得·斯科莫罗奇(Peter Skomoroch). 机器学习,数据挖掘及更多
- Quora Data Science -来自专家的数据科学问答
- Siah 伯克利大学博士生
- Data Science Report MDS,Inc.帮助建立数据科学,高级分析,大数据架构和高性能软件工程领域的职业
- Louis Dorard 对网络和数据都钟情的技术人员
- Machine Learning Mastery 帮助专业程序员自信地应用机器学习算法来解决复杂的问题.
- Daniel Forsyth -个人博客
- Data Science Weekly -每周新闻博客
- Revolution Analytics -数据科学博客
- R Bloggers -R博客
- The Practical Quant 大数据
- Datascope Analytics 数据驱动的咨询和设计
- 另一个数据博客 另一个数据博客
- Spenczar _Twitch_的一位数据科学家. 我负责整个数据管道,从跟踪到模型构建再到报告.
- KD Nuggets 数据挖掘,分析,大数据,数据,科学而不是博客门户
- Meta Brown -个人博客
- Data Scientist 正在建立数据科学家文化.
- WhatSTheBigData 是上述内容的一部分,全部或更多,并且此博客探讨了它对信息技术,商业界,政府机构和我们生活的影响.
- Tevfik Kosar -大告示
- New Data Scientist 社会科学家如何跳入大数据世界
- Harvard Data Science -关于统计计算和可视化的思考
- Data Science 101 -学习成为一名数据科学家
- Kaggle Past Solutions
- DataScientistJourney
- NYC Taxi Visualization Blog
- Learning Lover
- Dataists
- Data-Mania
- Data-Magnum
- Map Reduce Blog
- P-value -关于数据科学,机器学习和统计的沉思.
- datascopeanalytics
- Digital transformation
- datascientistjourney
- Data Mania Blog - The File Drawer -克里斯·赛义德(Chris Said)的科学博客
- Emilio Ferrara's web page
- DataNews
- Reddit TextMining
- Periscopic
- Hilary Parker
- Data Stories
- Data Science Lab
- Meaning of
- Adventures in Data Land
- DATA MINERS BLOG
- Dataclysm
- FlowingData -可视化和统计
- Calculated Risk
- O'reilly Learning Blog
- Dominodatalab
- i am trask -机器学习技巧博客
- Vademecum of Practical Data Science -实际问题的数据驱动解决方案的手册和配方
- Dataconomy -有关新兴数据经济的博客
- Springboard -一个为数据科学学习者提供资源的博客
- Analytics Vidhya -有关数据科学和分析研究资料的完整网站.
- Occam's Razor -专注于网络分析.
- Data School -面向初学者的数据科学教程!
- Colah's Blog -了解神经网络的博客!
- Sebastian's Blog -NLP和转学的博客!
- Distill -致力于清楚地解释机器学习!
- Chris Albon's Website -数据科学和AI笔记
- Andrew Carr -具有神秘编程语言的数据科学
- floydhub -进化算法博客
- Jingles -审查并从学术论文中提取关键概念
- nbshare -数据科学笔记本
Facebook Accounts¶
- Data
- Big Data Scientist
- Data Science 101
- Data Science Day
- Data Science Academy
- Facebook Data Science Page
- Data Science London
- Data Science Technology and Corporation
- Data Science - Closed Group
- Center for Data Science
- Big data hadoop NOSQL Hive Hbase
- Analytics, Data Mining, Predictive Modeling, Artificial Intelligence
- Big Data Analytics using R
- Big Data Analytics with R and Hadoop
- Big Data Learnings
- Big Data, Data Science, Data Mining & Statistics
- BigData/Hadoop Expert
- Data Mining / Machine Learning / AI
- Data Mining/Big Data - Social Network Ana
- Vademecum of Practical Data Science
- Veri Bilimi Istanbul
- The Data Science Blog
Twitter Accounts¶
推特 | 描述 |
---|---|
Big Data Combine | 寻求数据科学家通过交易模型进行货币化的快速试验,实时试用 |
Big Data Mania | Data Viz Wiz,数据新闻记者,成长型黑客,《傻瓜数据科学》一书的作者(2015) |
Big Data Science | 大数据,数据科学,预测建模,业务分析,Hadoop,决策和运营研究. |
Charlie Greenbacker | @ExploreAltamira的数据科学总监 |
Chris Said | Twitter的数据科学家 |
Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
Data Science Central | 数据科学中心是大数据从业者的行业单一资源. |
Data Science London | 数据科学. 大数据. 数据黑客. 数据迷. 数据启动. 打开数据 |
Data Science Renee | 记录我从寻求工程硕士学位的SQL数据分析师到数据科学家的道路 |
Data Science Report | 使命是帮助指导和促进数据科学与分析事业的发展 |
Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
Data Vizzard | DataViz,安全性,军事 |
DataScienceX | |
deeplearning4j | |
DJ Patil | 白宫数据主管,RelateIQ副总裁. |
Domino Data Lab | |
Drew Conway | 数据书呆子,黑客,冲突学生. |
Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
Greg Reda | @ _GrubHub_关于数据和熊猫的工作 |
Gregory Piatetsky | KDnuggets总裁,分析/大数据/数据挖掘/数据科学专家,KDD和SIGKDD的共同创始人,曾是两家初创公司的首席科学家,兼职哲学家. |
Hadley Wickham | RStudio的首席科学家,奥克兰大学,斯坦福大学和莱斯大学的统计学兼职教授. |
Hakan Kardas | 数据科学家 |
Hilary Mason | @accel的居住数据科学家. |
Jeff Hammerbacher | 转推有关数据科学 |
John Myles White | Facebook科学家和Julia开发人员. 黑客机器学习和用于网站优化的强盗算法的作者. 推文仅反映我的观点. |
Juan Miguel Lavista | 首席数据科学家@微软数据科学团队 |
Julia Evans | 黑客-熊猫-数据分析 |
Kenneth Cukier | 《经济学人》的数据编辑兼大数据(http://big-data-book.com)的合著者. |
Kevin Davenport | https://meetup.com/San-Diego-R-Users-Group/的组织者 |
Kevin Markham | 数据科学讲师,创始人 Data School |
Kim Rees | 交互式数据可视化和工具. 数据专家. |
Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
Linda Regber | 数据故事出纳员,可视化. |
Luis Rei | 博士生. 编程,移动,Web. 人工智能,智能机器人机器学习,数据挖掘,自然语言处理,数据科学. |
Mark Stevenson | Salt(@SaltJobs)Analytics(分析)的Data Analytics招聘专家-洞察力-大数据-Datascience |
Matt Harrison | 目前正在玩数据科学家的全栈Python专家,作家,讲师的观点. 偶尔育儿,养育,有机园艺. |
Matthew Russell | 挖掘社交网络. |
Mert Nuhoğlu | BizQualify的数据科学家,开发人员 |
Monica Rogati | 数据@ Jawbone. 在LinkedIn上将数据转换为故事和产品. 文本挖掘,应用机器学习,推荐系统. 前游戏者,前机器编码器; 命名者. |
Noah Iliinsky | 可视化和交互设计师. 实用的自行车手. 视觉书籍的作者:http://www.oreilly.com/pub/au/4419 |
Paul Miller | 云计算/大数据/开放数据分析师和顾问. 作家,演讲者和主持人. Gigaom研究分析师. |
Peter Skomoroch | 创建智能系统以自动化任务并改善决策. 企业家,前首席数据科学家@LinkedIn. 机器学习,ProductRei,网络 |
Prash Chan | @ IBM解决方案架构师,主数据管理,数据质量和数据治理Blogger. 数据科学,Hadoop,大数据和云. |
Quora Data Science | Quora的数据科学主题 |
R-Bloggers | 来自R博客圈,数据科学会议和(!)数据科学家的推特博客文章. |
Rand Hindi | |
Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
Recep Erol | Data Science geek @ UALR |
Ryan Orban | 数据科学家,遗传学家,硬件爱好者 |
Sean J. Taylor | 社会科学家. 黑客. Facebook数据科学团队. 关键字:实验,因果推理,统计,机器学习,经济学. |
Silvia K. Spiva | #DataScience at Cisco |
Harsh B. Gupta | BBVA Compass的数据科学家 |
Spencer Nelson | Data nerd |
Talha Oz | 享受ABM,SNA,DM,ML,NLP,HI,Python,Java. 顶级百分位数kaggler /数据科学家 |
Tasos Skarlatidis | 复杂事件处理,大数据,人工智能和机器学习. 对编程和开源充满热情. |
Terry Timko | InfoGov; 大数据; 数据即服务; 数据科学; 开放,社交和业务数据融合 |
Tony Baer | Ovum的IT分析师介绍了一些系统工程,涵盖了大数据和数据管理. |
Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
Wes McKinney | Pandas(Python数据分析库). |
WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
WNYC Data News Team | @WNYC的数据新闻工作人员. 练习数据驱动的新闻业,使其形象化并展示我们的工作. |
Alexey Grigorev | 数据科学作者 |
Newsletters¶
- AI Digest . 每周新闻通讯,以了解人工智能,机器学习和数据科学的最新动态. Archive.
- DataTalks.Club . 关于数据相关事物的每周新闻. Archive.
Youtube Videos & Channels¶
- What is machine learning?
- Andrew Ng: Deep Learning, Self-Taught Learning and Unsupervised Feature Learning
- Deep Learning: Intelligence from Big Data
- Interview with Google's AI and Deep Learning 'Godfather' Geoffrey Hinton
- Introduction to Deep Learning with Python
- What is machine learning, and how does it work?
- Data School -数据科学教育
- Neural Nets for Newbies by Melanie Warrick (May 2015)
- Neural Networks video series by Hugo Larochelle
- Google DeepMind co-founder Shane Legg - Machine Super Intelligence
- Data Science Primer
- Data Science with Genetic Algorithms
- Data Science for Beginners
- DataTalks.Club
- Mildlyoverfitted - Tutorials on intermediate ML/DL topics
Telegram Channels¶
- Open Data Science –第一个电报数据科学频道. 涵盖所有与数据科学相关的技术和热门人员:人工智能,大数据,机器学习,统计,通用数学以及前者的应用.
- Loss function porn —关于DS / ML主题的漂亮帖子,带有视频或图形可视化.
- Machinelearning –每日ML新闻.
Slack Communities¶
Github Groups¶
Competitions¶
一些数据挖掘竞赛平台
Fun¶
Infographic¶
预览 | 描述 |
---|---|
![]() |
Key differences of a data scientist vs. data engineer |
![]() |
通过8个步骤成为一名数据科学家的直观指南 DataCamp (img) |
![]() |
所需技能的思维导图(img) |
![]() |
斯瓦米·钱德拉塞卡兰(Swami Chandrasekaran) Curriculum via Metro map. |
![]() |
经过 @kzawadz 通过 twitter |
![]() |
经过 Data Science Central |
![]() |
从 this article 由伯克利科学评论. |
![]() |
数据科学大战:R与Python |
![]() |
如何选择统计或机器学习技术 |
![]() |
选择合适的估算器 |
![]() |
数据科学行业:谁在做什么? |
![]() |
数据科学~朋友~欧拉图 |
![]() |
不同的数据科学技能和角色 this article 由Springboard |
![]() |
一种简单友好的方式来教您的非数据科学家/非统计学家同事 how to avoid mistakes with data . 从壁虎板 Data Literacy Lessons. |
Data Sets¶
- Academic Torrents
- hadoopilluminated.com
- data.gov -美国政府公开数据的所在地
- United States Census Bureau
- usgovxml.com
- enigma.com -浏览公共数据世界-快速搜索和分析由政府,公司和组织发布的数十亿条公共记录.
- datahub.io
- aws.amazon.com/datasets
- datacite.org
- quandl.com -以所需的形式获取所需的数据; 即时下载,API或直接到您的应用.
- figshare.com
- GeoLite Legacy Downloadable Databases
- Quora's Big Datasets Answer
- Public Big Data Sets
- Kaggle Datasets
- A Deep Catalog of Human Genetic Variation
- A community-curated database of well-known people, places, and things
- Google Public Data
- World Bank Data
- NYC Taxi data
- Open Data Philly 将人们与费城的数据联系起来
- grouplens.org 电影样本(带有评级),书籍和Wiki数据集
- UC Irvine Machine Learning Repository - contains data sets good for machine learning
- research-quality data sets 经过 Hilary Mason
- National Climatic Data Center - NOAA
- ClimateData.us (有关的: U.S. Climate Resilience Toolkit)
- r/datasets
- MapLight -免费提供各种数据,供公众免费使用. 点击下面的数据集以了解更多信息
- GHDx -健康指标与评估研究所-来自世界各地的健康和人口统计数据集目录,其中包括IHME结果
- St. Louis Federal Reserve Economic Data - FRED
- New Zealand Institute of Economic Research – Data1850
- Open Data Sources
- UNICEF Statistics and Monitoring
- UNICEF Data
- undata
- NASA SocioEconomic Data and Applications Center - SEDAC
- The GDELT Project
- Sweden, Statistics
- Github free data source list
- StackExchange Data Explorer -一个开源工具,用于对来自Stack Exchange网络的公共数据运行任意查询.
- San Fransisco Government Open Data
- IBM Blog about open data
- IBM Asset Dataset
- Open data Index
- Public Git Archive
- GHTorrent
- Microsoft Research Open Data
- Open Government Data Platform India
- Google Dataset Search (beta)
- NAYN.CO Turkish News with categories
- Covid-19
- Covid-19 Google
- Enron Email Dataset
- 5000 Images of Clothes
Awesome Data Science¶
Hobby¶
Other Lists¶
-其他惊人的清单也可以在 awesome-awesomeness - Awesome Machine Learning - lists - awesome-dataviz - awesome-python - Data Science IPython Notebooks. - awesome-r - awesome-datasets - awesome-Machine Learning & Deep Learning Tutorials - Awesome Data Science Ideas - Machine Learning for Software Engineers - Community Curated Data Science Resources - Awesome Machine Learning On Source Code - Awesome Community Detection - Awesome Graph Classification - Awesome Decision Tree Papers - Awesome Fraud Detection Papers - Awesome Gradient Boosting Papers - Awesome Computer Vision Models - Awesome Monte Carlo Tree Search - Glossary of common statistics and ML terms - 100 NLP Papers - Awesome Game Datasets - Data Science Interviews Questions