唯品会运维架构和流程改造之路

mnd5

贡献于2014-06-16

字数:0 关键词: 软件架构

www.vip.com 唯品会运维 ! 架构和流程改造之路 www.vip.com ⾃我介绍 • 黎毅敏 ! • ⼗多年⼀线运维经验 ! • ⻓期关注⾼可⽤性、⾼可靠性、可扩展性架构和⽅案 ! • 2013年 4⽉加⼊唯品会,负责⺴站系统运维 ! • 微博: @Yimin_Li www.vip.com 分享主题 • 基础架构优化案例 ! • 运维流程优化案例 ! • 运维⾃动化现状 ! • 关于 DEV和 OPS! • 图⽚系统优化案例 ! • ⼤数据对运维的帮助 www.vip.com 基础架构优化案例 www.vip.com www.vip.com 背景 • 公司业务发展快 ! • 技术团队年轻 ! • ⺴络基础架构薄弱 www.vip.com 优化前⾯临的挑战 • 交换机之间的流量经常跑满 ! • ⽆法接⼊更多的服务器和机柜 ! • 内⺴经常丢包 ! • 交换机之间⺴线经常降速 ! • 运维⼈员经常踩坑 ! • ⾮常多的单点故障点 ! • 对流量要求⾼的新业务⽆法上线 www.vip.com 原有 IDC⺴络架构缺点 • 千兆⾻干 ! • ⽆冗余 ! • ⽆扩展性 ! • 内外⺴结构,两套⺴络,成本⾼ ! • 对运维不友好 ! • 安全性差 服务器 10.100.10.* 10.100.11.* www.vip.com 重新设计 • 3个⽉ ! • 2位⺴络⼯程师 www.vip.com 新的 IDC⺴络结构特点 • ⾼性能( 10G⾻干,核⼼交换机 Tb级转发能⼒ )! • 冗余性 ! • 可扩展性 ! • ⽆⽣成树 ! • 模块化 ! • 合理收敛⽐ ! • 内外⺴融合,运维友好 ! • 安全性加强 服务器 10.100.*.* Bonding www.vip.com 迁移项⺫ • 全部 4个数据中⼼ ! • ⼤数据平台 ! • 数据中⼼迁移 ! • 持续半年 ! • ⼈⼒投⼊巨⼤ www.vip.com 新架构效果 • 消除了⺴络单点故障点 ! • 应⽤性能提⾼ ! • 服务器带宽及可靠性提⾼ ! • 可快速扩展 ! • ⺴络整体容量提⾼ 10倍 + www.vip.com 好的架构还可以避免 www.vip.com 运维流程优化案例 www.vip.com 流程优化 • 基于 ITIL! • 监控中⼼负责 ! • 体系化 ! • 变更管理 ! • 事件管理 ! • 问题管理 www.vip.com ⺫标是团队像 www.vip.com ⽽不是 www.vip.com 变更管理 • 减少变更对⽣产系统的影响 ! • 减少故障定位和发现的时间 ! • 有助于跨团队和⼤团队的沟通 ! • 确保对⽣产环境的变更都经过审查和审批 ! • 避免过度审批 ! • 蝴蝶效应 www.vip.com 变更流程 www.vip.com 变更系统 www.vip.com 事件管理 • 监控中⼼负责 ! • 多个监控系统( Zabbix, Telescope) ! • 统⼀告警平台 ! • 标准化故障处理流程 ! • 电话会议 www.vip.com 问题管理 • 监控中⼼驱动 ! • 重⼤故障 ! • 反复发⽣的故障 ! • 定位原因 ! • 解决⽅案 www.vip.com 运维⾃动化现状 www.vip.com 运维⾃动化进展情况 • 还处于初级阶段 ! • 服务器安装 Cobbler! • 配置管理采⽤ Puppet框架 ! • 在 QA、⼤数据、 DBA、移动运维团队已经⽤ Puppet实 现服务器快速部署和系统配置标准化 ! • 对还没有接⼊配置管理系统的服务器从流程上要求把 配置和运维操作进⾏了规范化和标准化 www.vip.com 关于 DEV和 OPS www.vip.com 很多⼈认为开发和运维的关系 www.vip.com 但我们认为 www.vip.com 所以 • 对外互相补位 ! • 对内各⾃发挥所⻓(运维提需求,开发设计和实现 ) www.vip.com 图⽚系统优化案例 www.vip.com 图⽚系统优化前情况 • 1亿 +图⽚(不包含移动图⽚) ! • 35T存储空间( 3份拷⻉) ! • 优化前⾼峰时间平均响应时间⼏⼗秒 ! • (优化前架构) LVS -> Nginx( Cache) ->MooseFS! • CDN⼚商⽆法完全预热移动终端的所有 URL www.vip.com 图⽚系统优化⼿段 • LVS->Haproxy-> Nginx( Cache) ->MooseFS! • Haproxy URI 哈希负载均衡 ! • MFS master server扩内存 ! • MFS chunk server 扩容并采⽤全裸盘 ! • 双重预热机制 ! • 试⽔ Flashcache! • 优化后降到⼏⼗ ms到⼏百 ms之间 www.vip.com 图⽚系统改造⽅向 • 对象存储 ! • SWIFT或⾃⾏开发? www.vip.com ⼤数据对运维的帮助 www.vip.com ⽇志平台 • Telescope/Logview! • 具体架构参⻅ Qcon上海 2013 姚仁捷 -唯品会⽇志平台 建设 ! • 监控中⼼和运维最依赖的监控⼯具之⼀ ! • 各个系统的 4XX,5XX及访问量,平均响应时间 ! • 迅速发现⽣产系统的隐蔽问题 ! • 变更和代码发布后的校验⼿段之⼀ www.vip.com 基于响应时间的优化 • 优化前后响应时间改变情况 ! • 响应时间和系统容量密切相关 ! • ⼤促前的优化⽅向 ! • ⼤促期间的监控⼿段 www.vip.com ⼤数据对运维的⼀些其他帮助 • CDN服务质量监控 ! • 移动图⽚各分辨率访问⽐例统计(预热) www.vip.com ⼤数据对运维的⼀些其他帮助 • CDN服务质量监控 ! • 移动图⽚各分辨率访问⽐例统计(预热) www.vip.com 总结 • 设计良好的基础架构可以有效提⾼⺴站容量、可靠性和可维护性⽔平 ! • 运维流程可以有效提⾼⺴站可⽤性和提供团队效率 ! • 运维和开发是互补、相互扶持的关系 ! • 图⽚系统的优化经验 ! • ⼤数据对提⾼运维⽔平有很⼤帮助 www.vip.com 招聘中。。。 • ⾼级 /资深基础运维⼯程师 ! • ⾼级 /资深应⽤运维⼯程师 ! • ⾼级 /资深运维⼯具开发 ! • 基础架构软件开发⼯程师 ! • 运维架构师 ! • ⾼级 /资深⺴络⼯程师 ! • 基础运维经理 /⾼级运维经理 ! • 地点:⼲州或上海( zhaopin@vipshop.com) www.vip.com Q&A ! ! ! ! Thank You!

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 3 金币 [ 分享文档获得金币 ] 1 人已下载

下载文档

相关文档