-
Notifications
You must be signed in to change notification settings - Fork 1
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
93 changed files
with
964 additions
and
19,423 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,68 @@ | ||
--- | ||
title: "《SRE实践白皮书》v1.0.4 发布" | ||
date: 2024-09-01T15:27:17+06:00 | ||
draft: false | ||
# page title background image | ||
bg_image: "images/backgrounds/page-title.jpg" | ||
# meta description | ||
description : "《SRE实践白皮书》v1.0.4 更新版。" | ||
# notice download link | ||
download_link : "http://docs.sre-elite.com/SRE-White-Paper-v1.0.4.pdf" | ||
wp_version: "v1.0.4" | ||
# type | ||
type: "notice" | ||
--- | ||
|
||
此次更新主要聚焦于《研发保障》和《故障应急》两大核心部分,整体文章结构进行了优化,新增7个案例,共计7.2万字。新增内容涵盖互联网、运营商、银行及金融等多个行业。其中,《故障应急》章节深入解析了多家企业的应急响应体系,内容充实且实用性强。而《研发保障》章节则探讨了SRE工作左移的前沿实践,包含了企业代码级的细致案例分享,极具参考价值。 | ||
|
||
### 2.3.1 腾讯游戏全球研发保障实践 | ||
#### SRE Elite精选原因 | ||
这是一个完整的游戏行业研发保障案例。面对游戏研发中的复杂研发管线、大文件版本管理、冗长的构建过程和频繁的更新需求等挑战,SRE团队通过稳定性保障、平台工具建设、以及与业务开发团队的有效分工,实现了高效的研发保障。 | ||
此案例覆盖了研发保障的多个关键模块,在代码可靠性,代码仓库可靠性、制品分发、以及构建加速等多个方面进行了优化,显著提升了代码提交和构建的成功率,并有效解决了代码库卡顿和文件分发效率低等问题。相关的优化内容非常的详尽细节, 具有很强的实践性,且大部分关键组件提供了开源的实现案例,非常值得参考。 | ||
|
||
![腾讯游戏全球研发保障实践](/images/notice/image.png) | ||
|
||
### 2.3.2 某语音直播公司研发过程保障实践 | ||
#### SRE Elite精选原因 | ||
此案例展示了某语音直播公司在现代化软件架构下的研发保障实践。面对微服务、容器化和服务网格等新技术带来的挑战,该公司构建了全面的研发保障体系,涵盖快速发布、稳定性保障、代码可靠性和服务运行等多个关键模块。其中,采用服务网格进行环境隔离和金丝雀发布,属行业内的创新实践,体现了深入的云原生应用。此外,通过IDE插件对接环境进行调试,大幅提升了问题排查的效率。此案例实践性强、创新性高,具有广泛的借鉴意义。 | ||
|
||
![某语音直播公司研发过程保障实践](/images/notice/image2.png) | ||
|
||
|
||
### 5.3.1 小米故障应急响应经验分享 | ||
|
||
小米拥有很强的硬件基因文化,因为如果硬件出现质量问题, 相关的修复成本将会非常巨大。所以其质量有独特的要求, 小米拥有独立QA 团队, 对运维质量进行考核及管控,构成了其独特的故障管理体系以及复盘的体系, 可供有类似业务特性的组织进行参考。 | ||
|
||
![小米故障应急响应经验分享](/images/notice/image3.png) | ||
|
||
### 5.3.2 中国联通数字化监控平台稳定性保障实践 | ||
|
||
中国联通作为国家重点央企,长期以来以其庞大的业务体系和稳健的运营著称,面对数字化转型的浪潮,中国联通积极推动核心业务系统向云原生架构大规模演进,面临着技术革新的复杂挑战,还需确保转型过程中的系统稳定性。此案例探索并构建了一套符合稳态企业的稳定性保障方案、策略及平台,并深度融合可落地的智能化 AIOPS能力,提升运维效率与故障处置速度,为其他稳态企业提供了可供参考的路径。 | ||
|
||
![中国联通数字化监控平台稳定性保障实践](/images/notice/image4.png) | ||
|
||
### 5.5.3 腾讯全球化游戏故障管理实践 | ||
|
||
腾讯游戏在全球运营的多个游戏业务中, 统一使用了SLO /SLI方法论, 对业务进行业务导向的监控可视化, 并使用了eBPF 等技术, 对业务进行无死角的观测,实现了业务服务的标准化度量,故障的快速感知及定位。 并能通过蓝鲸平台,实现部分部分固定场景的自愈,实现了监控与批量作业的联动,降低了MTTR,相关实践具备较强的落地性及可参考性。 | ||
|
||
![腾讯全球化游戏故障管理实践](/images/notice/image5.png) | ||
|
||
### 5.5.4 XX银行应急管理一体化平台建设实践 | ||
|
||
XX 银行是中国乃至全球规排名前列的商业银行,业务众多,客户群体遍布全球,且适逢整体IT 架构升级,数字化转型深入,技术挑战巨大。在这种背景下,XX 银行构建了符合金融行业强监管特性的三个一体化的应急管理平台:通过“一体化技术平台”实现了底层能力平台PaaS化,满足各种底层操作原子化包装的需求;通过“管理操作一体”,实现应急管理思想和自动化操作的同步;通过“数据融合一体化”,实现应急决策所需配置数据、执行数据、性能数据、变更数据的统一管理和展示 。通过以上以上三个一体化,降低了业务稳定性的风险, 值得广大金融行业参考。 | ||
|
||
![XX银行应急管理一体化平台建设实践](/images/notice/image6.png) | ||
|
||
### 5.5.5 美图故障管理体系搭建实践 | ||
美图在这个案例的分享中,展示了非常完整的SRE体系及故障管理体系,以故障生命周期管理为核心,引入了由人员、流程、技术和愿景构成的“PPTV框架”;并强调数据驱动的决策,倡导定期复盘和持续改进,通过构建稳定性运营平台,实现对故障事前、事中及事后的全方位管理,全面且扎实,很值得大家进行研读。 | ||
|
||
![美图故障管理体系搭建实践](/images/notice/image7.png) | ||
|
||
### 反馈和沟通 | ||
|
||
如果您有任何问题或建议,点这里提交[联系我们](/contact/)。 | ||
|
||
> 也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。 | ||
> | ||
> - <https://github.com/sre-elite/whitepaper/issues> | ||
> - <https://github.com/sre-elite/whitepaper/discussions> |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Oops, something went wrong.