Skip to content

Commit

Permalink
Merge pull request #10 from XiaoE0203/main
Browse files Browse the repository at this point in the history
wpv1.0.4
  • Loading branch information
XiaoE0203 committed Sep 3, 2024
2 parents e6687ca + 065ee86 commit 0150e5f
Show file tree
Hide file tree
Showing 93 changed files with 964 additions and 19,423 deletions.
68 changes: 68 additions & 0 deletions content/chinese/notice/wp-v-1.0.4.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,68 @@
---
title: "《SRE实践白皮书》v1.0.4 发布"
date: 2024-09-01T15:27:17+06:00
draft: false
# page title background image
bg_image: "images/backgrounds/page-title.jpg"
# meta description
description : "《SRE实践白皮书》v1.0.4 更新版。"
# notice download link
download_link : "http://docs.sre-elite.com/SRE-White-Paper-v1.0.4.pdf"
wp_version: "v1.0.4"
# type
type: "notice"
---

此次更新主要聚焦于《研发保障》和《故障应急》两大核心部分,整体文章结构进行了优化,新增7个案例,共计7.2万字。新增内容涵盖互联网、运营商、银行及金融等多个行业。其中,《故障应急》章节深入解析了多家企业的应急响应体系,内容充实且实用性强。而《研发保障》章节则探讨了SRE工作左移的前沿实践,包含了企业代码级的细致案例分享,极具参考价值。

### 2.3.1 腾讯游戏全球研发保障实践
#### SRE Elite精选原因
这是一个完整的游戏行业研发保障案例。面对游戏研发中的复杂研发管线、大文件版本管理、冗长的构建过程和频繁的更新需求等挑战,SRE团队通过稳定性保障、平台工具建设、以及与业务开发团队的有效分工,实现了高效的研发保障。
此案例覆盖了研发保障的多个关键模块,在代码可靠性,代码仓库可靠性、制品分发、以及构建加速等多个方面进行了优化,显著提升了代码提交和构建的成功率,并有效解决了代码库卡顿和文件分发效率低等问题。相关的优化内容非常的详尽细节, 具有很强的实践性,且大部分关键组件提供了开源的实现案例,非常值得参考。

![腾讯游戏全球研发保障实践](/images/notice/image.png)

### 2.3.2 某语音直播公司研发过程保障实践
#### SRE Elite精选原因
此案例展示了某语音直播公司在现代化软件架构下的研发保障实践。面对微服务、容器化和服务网格等新技术带来的挑战,该公司构建了全面的研发保障体系,涵盖快速发布、稳定性保障、代码可靠性和服务运行等多个关键模块。其中,采用服务网格进行环境隔离和金丝雀发布,属行业内的创新实践,体现了深入的云原生应用。此外,通过IDE插件对接环境进行调试,大幅提升了问题排查的效率。此案例实践性强、创新性高,具有广泛的借鉴意义。

![某语音直播公司研发过程保障实践](/images/notice/image2.png)


### 5.3.1 小米故障应急响应经验分享

小米拥有很强的硬件基因文化,因为如果硬件出现质量问题, 相关的修复成本将会非常巨大。所以其质量有独特的要求, 小米拥有独立QA 团队, 对运维质量进行考核及管控,构成了其独特的故障管理体系以及复盘的体系, 可供有类似业务特性的组织进行参考。

![小米故障应急响应经验分享](/images/notice/image3.png)

### 5.3.2 中国联通数字化监控平台稳定性保障实践

中国联通作为国家重点央企,长期以来以其庞大的业务体系和稳健的运营著称,面对数字化转型的浪潮,中国联通积极推动核心业务系统向云原生架构大规模演进,面临着技术革新的复杂挑战,还需确保转型过程中的系统稳定性。此案例探索并构建了一套符合稳态企业的稳定性保障方案、策略及平台,并深度融合可落地的智能化 AIOPS能力,提升运维效率与故障处置速度,为其他稳态企业提供了可供参考的路径。

![中国联通数字化监控平台稳定性保障实践](/images/notice/image4.png)

### 5.5.3 腾讯全球化游戏故障管理实践

腾讯游戏在全球运营的多个游戏业务中, 统一使用了SLO /SLI方法论, 对业务进行业务导向的监控可视化, 并使用了eBPF 等技术, 对业务进行无死角的观测,实现了业务服务的标准化度量,故障的快速感知及定位。 并能通过蓝鲸平台,实现部分部分固定场景的自愈,实现了监控与批量作业的联动,降低了MTTR,相关实践具备较强的落地性及可参考性。

![腾讯全球化游戏故障管理实践](/images/notice/image5.png)

### 5.5.4 XX银行应急管理一体化平台建设实践

XX 银行是中国乃至全球规排名前列的商业银行,业务众多,客户群体遍布全球,且适逢整体IT 架构升级,数字化转型深入,技术挑战巨大。在这种背景下,XX 银行构建了符合金融行业强监管特性的三个一体化的应急管理平台:通过“一体化技术平台”实现了底层能力平台PaaS化,满足各种底层操作原子化包装的需求;通过“管理操作一体”,实现应急管理思想和自动化操作的同步;通过“数据融合一体化”,实现应急决策所需配置数据、执行数据、性能数据、变更数据的统一管理和展示 。通过以上以上三个一体化,降低了业务稳定性的风险, 值得广大金融行业参考。

![XX银行应急管理一体化平台建设实践](/images/notice/image6.png)

### 5.5.5 美图故障管理体系搭建实践
美图在这个案例的分享中,展示了非常完整的SRE体系及故障管理体系,以故障生命周期管理为核心,引入了由人员、流程、技术和愿景构成的“PPTV框架”;并强调数据驱动的决策,倡导定期复盘和持续改进,通过构建稳定性运营平台,实现对故障事前、事中及事后的全方位管理,全面且扎实,很值得大家进行研读。

![美图故障管理体系搭建实践](/images/notice/image7.png)

### 反馈和沟通

如果您有任何问题或建议,点这里提交[联系我们](/contact/)

> 也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。
>
> - <https://github.com/sre-elite/whitepaper/issues>
> - <https://github.com/sre-elite/whitepaper/discussions>
9 changes: 9 additions & 0 deletions hugo_stats.json
Original file line number Diff line number Diff line change
Expand Up @@ -270,18 +270,27 @@
"ids": [
"1capex和opex",
"1带宽成本优化",
"231--腾讯游戏全球研发保障实践",
"232-某语音直播公司研发过程保障实践",
"2定价",
"2服务器成本优化",
"3公有云成本优化",
"3计费",
"4小结",
"4账单",
"531-小米故障应急响应经验分享",
"532-中国联通数字化监控平台稳定性保障实践",
"553-腾讯全球化游戏故障管理实践",
"554-xx银行应急管理一体化平台建设实践",
"555-美图故障管理体系搭建实践",
"disqus_thread",
"mail",
"message",
"name",
"navigation",
"newsletter",
"sre-elite精选原因",
"sre-elite精选原因-1",
"sre-excellence-unleashed-live-with-pros-ep1",
"sre实践白皮书",
"subject",
Expand Down
Loading

0 comments on commit 0150e5f

Please sign in to comment.