Site Reliability Engineering

Awesome Site Reliability Engineering ¶

精选清单 Site Reliability 和 Production 工程资源.

What is Site Reliability Engineering?¶

> “从根本上说，这就是当你要求软件工程师设计操作功能时发生的事情.” - Ben Treynor Sloss，谷歌工程副总裁，谷歌 SRE 创始人

Contributing¶

请看一下 contribution guidelines 第一的. 贡献总是受欢迎的！

Culture¶

Education¶

Books¶

Hiring¶

Reliability¶

Monitoring & Observability & Alerting¶

On-Call¶

Post-Mortem¶

Capacity Planning¶

Service Level Agreement¶

Performance¶

Programming¶

Misc Articles¶

Real-time Messaging¶

#sre channel at Hangops Slack - 一般讨论站点可靠性工程.
#incident_response channel at Hangops Slack - 关于事件响应的讨论.
USENIX SREcon Slack

Blogs¶

Brendan Gregg's Blog - 关于系统内部结构、性能和 SRE 的高度技术性博客文章.
Everything Sysadmin - Tom Limoncelli 关于 SysAdmin/DevOps/SRE 的博客文章.
High Scalability - 关于系统架构的技术博客文章.
rachelbythebay - 技术博客文章.
Susan J. Fowler - 关于 SRE、软件工程和微服务的各种博客文章.
SysAdvent - 12 月每天一篇文章，在第 25 篇文章结束.
Stephen Thorne's Blog - 关于 SRE 的博客文章
Increment - 一本关于团队如何大规模构建和操作软件系统的数字杂志.
GopherSRE - 关于 Go 和 SRE 的博客文章.
Cindy Sridharan - 关于分布式系统及其管理的博客文章.
Blameless Blog - 关于 SRE 文化和实践的博客文章.
Resilience Roundup - 每周分析为软件系统设计的弹性工程和人为因素研究
Squadcast Blog - 关于 SRE 最佳实践、可靠性、随叫随到和事件管理的博客文章.
FireHydrant Blog - 关于复杂系统、事件响应和 SRE 最佳实践的帖子.
Rootly Blog - 事件管理最佳实践和指南.
incident.io Blog - 有关事件管理和响应的指南、建议和资源.
Logit.io Blog - 有关日志管理、SRE 和 devOps 的资源.

Newsletters¶

DevOpsLinks - 关于 SRE、SysAdmin 和 DevOps 新闻、工具、教程和意见的每周时事通讯.
KubeWeekly - 关于 Kubernetes 的每周时事通讯. KubeWeekly 由 Bob Killen、Chris Short、Craig Box、Kim McMahon 和 Michael Hausenblas 策划
SRE Weekly - 每周网站可靠性通讯.
O’Reilly Systems Engineering and Operations Newsletter - 每周系统工程和运营新闻以及业内人士的见解.
ChaosEngineering.news - 混沌工程时事通讯. 混沌工程的所有内容，直接发送到您的收件箱！
Monitoring Weekly - 监控有什么新内容？每周将精选的监控文章发送到您的收件箱.
Observability news - 围绕可观察性 (o11y) 的更新，特别关注开源.

Conferences & Meetups¶

SRECon Conferences - 官方 SRE 会议.
LISA Conferences - 关于 SysAdmin/DevOps/SRE 的重要会议.
SRE Tech Talks - 谷歌主持的 SRE 演讲.
South Bay Site Reliability Engineering (Sunnyvale, CA) Meetup - 一个为应对网络规模系统的可靠性挑战的个人而设的团体.
San Francisco Reliability Engineering - 一群热衷于可靠、高性能软件系统的人.
Site Reliability Engineering Munich, Germany - 在慕尼黑啤酒节城市的更大区域举行 SRE 聚会.
ADDO - All Day DevOps - 完全在线且免费的 24 小时会议.
Site Reliability Engineering Paris, France - 光明之城的 SRE Meetup.
Site Reliability Engineering India - SRE 聚会印度

Twitter¶

Google SRE Twitter Account - Google 的 SRE Twitter 帐户.
SREBook - 网站可靠性工程书籍的官方推特账号.
SREcon - SRECon 的官方 Twitter 帐户.
SREWorkbook - 站点可靠性工作簿的官方 Twitter 帐户.
The SRE Dev - SRE 相关的帖子来自 dev.to.
Twitter SRE - Twitter SRE 团队的官方 Twitter 帐户.
Twitter SRE Weekly - SRE 每周时事通讯的官方 Twitter 帐户.
USENIX Association - 官方 USENIX Twitter 帐户.

SRE Tools¶

Awesome SRE Tools - 站点可靠性和生产工程工具的精选列表
List of Continuous Integration services
SRE cheat sheet - 网站可靠性工程原则和数字的备忘单

Site Reliability Engineering

Awesome Site Reliability Engineering ¶

What is Site Reliability Engineering?¶

Contributing¶

Culture¶

Education¶

Books¶

Hiring¶

Reliability¶

Monitoring & Observability & Alerting¶

On-Call¶

Post-Mortem¶

Capacity Planning¶

Service Level Agreement¶

Performance¶

Programming¶

Misc Articles¶

Real-time Messaging¶

Blogs¶

Newsletters¶

Conferences & Meetups¶

Twitter¶

SRE Tools¶

Podcasts¶