数据科学

Awesome Data Science Awesome Subscribe to new links

一个开放源代码的数据科学存储库,用于学习和解决现实世界中的问题.

Motivation

*本部分适用于数据科学新手

这是开始研究“数据科学”的捷径. 只需按照以下步骤回答以下问题:“什么是数据科学?我应该学习什么才能学习数据科学?”

首先,数据科学是当今计算机和Internet农田上最热门的主题之一. 人们一直从应用程序和系统中收集数据,直到今天,现在是分析它们的时候了. 下一步是从数据中提出建议并创建有关未来的预测. Here 您可以找到 Data Science 的最大问题以及专家提供的数百个答案.

Secondly, Our favorite programming language is Python nowadays for #DataScience. Python's - Pandas 该库具有收集和分析数据的全部功能. 我们用 Anaconda 玩数据并创建应用程序.

Infographic

预览 描述
通过8个步骤成为一名数据科学家的视觉指南 DataCamp (img)
所需技能的思维导图(img)
斯瓦米·钱德拉塞卡兰(Swami Chandrasekaran) Curriculum via Metro map.
通过 @kzawadz 通过 twitter
通过 Data Science Central
this article 由伯克利科学评论.
数据科学大战:R与Python
如何选择统计或机器学习技术
选择合适的估算器
数据科学行业:谁在做什么
数据科学〜朋友〜欧拉图
不同的数据科学技能和角色 this article 由Springboard
Data Fallacies To Avoid 一种简单友好的方式来教您的非数据科学家/非统计学家同事 how to avoid mistakes with data . 从壁虎板 Data Literacy Lessons.

What is Data Science?

COLLEGES

MOOC's

Data Sets

Bloggers

Newsletters

  • AI Digest . 每周新闻通讯,以了解有关AI,机器学习和数据科学的最新信息. Archive.

Podcasts

Books

Facebook Accounts

Twitter Accounts

  • Big Data Combine -为寻求将其模型货币化为交易策略的数据科学家而进行的快速试验,实时试用
  • Big Data Mania - Data Viz Wiz | Data Journalist | Growth Hacker | Author of Data Science for Dummies (2015)
  • Big Data Science -大数据,数据科学,预测建模,业务分析,Hadoop,决策和运营研究.
  • Charlie Greenbacker -@ExploreAltamira的数据科学总监
  • Chris Said -Twitter的数据科学家
  • Clare Corthell - Dev, Design, Data Science @mattermark #hackerei
  • DADI Charles-Abner - #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
  • Data Science Central -数据科学中心是大数据从业者的行业单一资源.
  • Data Science London 数据科学. 大数据. 数据黑客. 数据迷. 数据启动. 公开资料
  • Data Science Renee -记录我从获得工程硕士学位的SQL数据分析师到数据科学家的道路
  • Data Science Report -使命是帮助指导和促进数据科学与分析事业
  • Data Science Tips - Tips and Tricks for Data Scientists around the world! #datascience #bigdata
  • Data Vizzard -DataViz,安全性,军事
  • DataScienceX
  • deeplearning4j -
  • DJ Patil -白宫数据主管,RelateIQ副总裁.
  • Domino Data Lab
  • Drew Conway -数据书呆子,黑客,冲突学生.
  • Emilio Ferrara - #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv
  • Erin Bartolo - Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr.
  • Greg Reda @ _GrubHub_处理数据和熊猫
  • Gregory Piatetsky -KDnuggets总裁,分析/大数据/数据挖掘/数据科学专家,KDD和SIGKDD共同创始人,曾是两家初创公司的首席科学家,兼职哲学家.
  • Hakan Kardas -数据科学家
  • Hilary Mason -@accel的居住数据科学家.
  • Jeff Hammerbacher 转推有关数据科学
  • John Myles White Facebook科学家和Julia开发人员. 黑客机器学习和用于网站优化的强盗算法的作者. 推文仅反映我的观点.
  • Juan Miguel Lavista -首席数据科学家@微软数据科学团队
  • Julia Evans -黑客-熊猫-数据分析
  • Kenneth Cukier -《经济学人》的数据编辑兼大数据(http://big-data-book.com)的合著者.
  • Kevin Davenport -https://meetup.com/San-Diego-R-Users-Group/的组织者
  • Kevin Markham -数据科学讲师和创始人 Data School
  • Kim Rees -交互式数据可视化和工具. 数据专家.
  • Kirk Borne - DataScientist, PhD Astrophysicist, Top #BigData Influencer.
  • Linda Regber -数据故事讲述人,可视化.
  • Luis Rei - 博士生. 编程,移动,Web. 人工智能,智能机器人机器学习,数据挖掘,自然语言处理,数据科学.
  • Mark Stevenson -Salt(@SaltJobs)的数据分析招聘专员| 分析-洞察力-大数据-数据科学
  • Matt Harrison -目前正在使用数据科学家的全栈Python专家,作家,讲师的观点. 偶尔做父亲,做丈夫,超终生,有机园艺.
  • Matthew Russell -挖掘社交网络.
  • Mert Nuhoğlu BizQualify的数据科学家,开发人员
  • Monica Rogati - Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer.
  • Noah Iliinsky -可视化和交互设计师. 实用的自行车手. 视觉书籍的作者:http://www.oreilly.com/pub/au/4419
  • Paul Miller -云计算/大数据/开放数据分析师和顾问. 作家,演讲者和主持人. Gigaom研究分析师.
  • Peter Skomoroch -创建智能系统以自动化任务并改善决策. 企业家,前首席数据科学家@LinkedIn. 机器学习,ProductRei,网络
  • Prash Chan -解决方案架构师@ IBM,主数据管理,数据质量和数据治理Blogger. 数据科学,Hadoop,大数据与云.
  • Quora Data Science Quora的数据科学主题
  • R-Bloggers -R博客圈,数据科学会议和(!)数据科学家的推文博客文章.
  • Rand Hindi
  • Randy Olson - Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate.
  • Recep Erol -数据科学极客@ UALR
  • Ryan Orban -数据科学家,遗传学家,硬件爱好者
  • Sean J. Taylor -社会科学家. 黑客. Facebook数据科学团队. 关键字:实验,因果推理,统计,机器学习,经济学.
  • Silvia K. Spiva - #DataScience at Cisco
  • Harsh B. Gupta -BBVA指南针的数据科学家
  • Spencer Nelson -数据书呆子
  • Talha Oz -拥有ABM,SNA,DM,ML,NLP,HI,Python,Java. 顶级百分位数kaggler /数据科学家
  • Tasos Skarlatidis -复杂的事件处理,大数据,人工智能和机器学习. 对编程和开源充满热情.
  • Terry Timko -InfoGov; 大数据; 数据即服务; 数据科学; 开放,社交和业务数据融合
  • Tony Baer -Ovum的IT分析师负责大数据和数据管理以及一些系统工程.
  • Tony Ojeda - Data Scientist | Author | Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC
  • Vamshi Ambati - Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com )
  • Wes McKinney -熊猫(Python数据分析库).
  • WileyEd - Senior Manager - @Seagate Big Data Analytics | @McKinsey Alum | #BigData + #Analytics Evangelist | #Hadoop, #Cloud, #Digital, & #R Enthusiast
  • WNYC Data News Team -@WNYC的数据新闻工作人员. 练习数据驱动的新闻业,使其形象化并展示我们的工作. @SkymindIO针对JVM的开源深度学习. 与Hadoop,Spark集成. 分布式GPU / CPU | http://nd4j.org | https://www.skymind.ai/

Youtube Videos & Channels

Telegram Channels

  • Open Data Science –第一个电报数据科学频道. 涵盖所有与数据科学相关的技术和热门人员:人工智能,大数据,机器学习,统计,通用数学以及前者的应用.
  • Loss function porn —关于DS / ML主题的漂亮帖子,带有视频或图形可视化.
  • Machinelearning –每日ML新闻.

Toolboxes - Environment

  • ML Workspace -用于机器学习和数据科学的基于Web的多合一IDE. 工作区被部署为Docker容器,并预加载了各种流行的数据科学库(例如Tensorflow,PyTorch)和开发工具(例如Jupyter,VS Code).
  • neptune.ml ->社区友好型平台,支持数据科学家创建和共享机器学习模型. Neptune促进了团队合作,基础架构管理,模型比较和可重复性.
  • steppy ->轻量级的Python库,用于快速且可重复的机器学习实验. 引入了非常简单的界面,可以进行干净的机器学习管道设计.
  • steppy-toolkit ->精心挑选的神经网络,变换器和模型集合,可让您的机器学习更快,更有效地工作.
  • Datalab from Google 使用熟悉的语言(例如Python和SQL)以交互方式轻松地探索,可视化,分析和转换数据.
  • Hortonworks Sandbox 是一个个人的,可移植的Hadoop环境,其中包含许多交互式Hadoop教程.
  • R 是用于统计计算和图形的免费软件环境.
  • RStudio IDE – R的强大用户界面.它是免费和开源的,可在Windows,Mac和Linux上运行.
  • Python - Pandas - Anaconda 完全免费的企业就绪Python发行版,用于大规模数据处理,预测分析和科学计算
  • Scikit-Learn Python机器学习
  • NumPy NumPy是使用Python进行科学计算的基础. 它支持大型的多维数组和矩阵,并包括各种在这些数组上运行的高级数学函数.
  • SciPy SciPy与NumPy数组一起使用,并提供了用于数值积分和优化的有效例程.
  • Data Science Toolbox -Coursera课程
  • Data Science Toolbox - 博客
  • Wolfram Data Science Platform 采集数值,文本,图像,GIS或其他数据,并给予Wolfram处理,进行全方位的数据科学分析和可视化,并自动生成丰富的交互式报告,所有这些均由基于革命性知识的Wolfram语言提供支持.
  • Sense Data Science Development Platform 用于数据科学和大数据分析的新型云平台 在数据分析和高级分析项目上进行协作,扩展和部署,从根本上更快. 使用功能最强大的工具-R,Python,JavaScript,Redshift,Hive,Impala,Hadoop等-已增压并集成在云中.
  • Datadog 大规模数据科学的解决方案,代码和开发人员.
  • Variance 无需编写JavaScript,即可为Web构建强大的数据可视化
  • Kite Development Kit Kite软件开发工具包(Apache许可证,版本2.0)或Kite是一组库,工具,示例和文档,旨在简化在Hadoop生态系统之上构建系统的工作.
  • Domino Data Labs 运行,扩展,共享和部署模型-无需任何基础架构或设置.
  • Apache Flink 一个高效,分布式,通用数据处理的平台.
  • Apache Hama Apache Hama是一个Apache顶级开源项目,可让您进行MapReduce之外的高级分析.
  • Weka Weka是用于数据挖掘任务的机器学习算法的集合.
  • Octave GNU Octave是一种高级解释语言,主要用于数值计算.(免费Matlab)
  • Apache Spark 快如闪电的集群计算
  • Hydrosphere Mist -用于将Apache Spark分析作业和机器学习模型公开为实时,批处理或反应式Web服务的服务.
  • Caffe 深度学习框架
  • Torch LuaJit的科学计算框架
  • Nervana's python based Deep Learning Framework
  • Skale -NodeJS中的高性能分布式数据处理
  • Aerosolve -为人类打造的机器学习包.
  • Intel framework -英特尔®深度学习框架
  • Datawrapper –一个开源数据可视化平台,可帮助每个人创建简单,正确和可嵌入的图表. 同样在 github.com
  • Tensor Flow -TensorFlow是机器智能的开源软件库
  • Natural Language Toolkit
  • nlp-toolkit for node.js
  • Julia –用于技术计算的高级,高性能动态编程语言
  • IJulia –与Jupyter互动环境相结合的Julia语言后端
  • Apache Zeppelin -基于网络的笔记本电脑,可实现数据驱动, 使用SQL,Scala等进行交互式数据分析和协作文档
  • Featuretools -用python编写的用于自动功能工程的开源框架
  • Optimus -使用PySpark后端进行清理,预处理,功能工程,探索性数据分析和简单的ML.
  • Albumentations -快速且与框架无关的图像增强库,可实现多种增强技术. 支持分类,分割,开箱即用的检测. 曾经在Kaggle,Topcoder和CVPR研讨会的一部分中赢得过许多深度学习竞赛.
  • DVC -开源数据科学版本控制系统. 它有助于跟踪,组织数据科学项目并使之可重现. 在其最基本的方案中,它有助于版本控制以及共享大数据和模型文件.
  • Lambdo 是一个工作流引擎,通过将一个分析管道(i)特征工程和机器学习(ii)模型训练和预测(iii)表填充和列评估结合在一起,大大简化了数据分析.
  • Feast -用于管理,发现和访问机器学习功能的功能存储. Feast为模型训练和模型提供了一致的特征数据视图.
  • Polyaxon -用于可重现和可扩展的机器学习和深度学习的平台.
  • LightTag -团队文字注释工具

Visualization Tools - Environments

Journals, Publications and Magazines

Presentations

Competitions

一些数据挖掘竞赛平台 * Kaggle * DrivenData * Analytics Vidhya * The Data Science Game * InnoCentive * TuneedIT

Comics

Digital Data

Tutorials

Free Courses

Other Awesome Lists

-其他惊人的清单也可以在 awesome-awesomeness 清单. - Awesome Machine Learning 精选的很棒的机器学习框架,库和软件的列表. - lists - awesome-dataviz - awesome-python - Data Science IPython Notebooks. - awesome-r - awesome-datasets –公共领域的优质开放数据集的绝佳列表 - awesome-Machine Learning & Deep Learning Tutorials - Awesome Data Science Ideas - Machine Learning for Software Engineers - Community Curated Data Science Resources - Awesome Machine Learning On Source Code - Awesome Community Detection - Awesome Graph Classification - Awesome Decision Tree Papers - Awesome Fraud Detection Papers - Awesome Gradient Boosting Papers - Awesome Computer Vision Models - Glossary of common statistics and ML terms - 100 NLP Papers