2021-08-22 06:58:30
「 第三期」
【IT运维服务分享】
降低IT成本,保障系统稳定和数据安全!
解读商派全场景“IT运维服务”
服务客户:迪卡侬,屈臣氏,VF(Vans,TNF ,dickies), ,Lacoste,艾高,牛尔,贝迪,ABB,三棵树,LEE,苏泊尔等。
朱士杰:大家好我是商派运维负责人朱士杰,那平时大家都叫我Alex,那今天我主要和大家分享一下,我们整个商派在整个运维服务过程中遇到的一些场景,包括怎样去帮助客户解决安全问题,解决稳定性问题,解决可靠性问题。我相信这些问题,可能也是所有的甲方公司都需要了解的一些问题。
第一问:我们可能需要提一些跟关于IT服务怎样来提升我们的一个运营的效率,怎样去提升我们整个公司的一个系统的稳定性,那肯定这是我们甲方IT公司的IT负责人最需要知道的。
第二问:我们怎样去节省我们的IT成本,这也是我们整个IT团队需要去考量的一个经济性的一个问题。
第三问:目前主流的的安全性问题,可能也是我们整个IT团队需要去关心的,因为我们的数据都是有个人隐私啊,我们有一些敏感数据啊。那这些数据怎么去保护,那也是我们后期会给大家做分享的一个课题。
第四问:可能大家做零售这一块或者做电商这一块,都会有一些相关的大促活动。我的性能怎么去提升,我怎样去做快速的扩容,怎样去在百万用户进入我的系统的时候,做到一个稳定性。那这也是我们IT,肯定需要关心的一些问题。
那今天的话,我主要是整体的来对我们整个的IT服务,作为一个全景化的一个概要的一个描述和一个说明。
那首先我这边可能会通过一个案例来讲述一下我们这个客户典型的一个最佳实践,他主要是在基于云上的一个基础架构和权限管理的一个最佳实践。
客户的诉求其实很简单。他需要对于我的权责进行管理,对我的成本进行控制,对我的整个安全性进行可控的一个风险评估,对我的可用性进行一个长期的一个监测和保护。
那这一块的话,其实对于客户来说,这是他整个互联网系统上线以后最需要了解的一个东西,也是他最关心的一些问题。那这些问题的话,我们是怎么去解决的呢?
其实我们也提供了一个云上的一个最佳实践的架构。通过整个的一个 VPC网络,包括整个云提供的一些网络资源,我们达到了一个权责分离的最佳实践,我们把每一个供应商提供的不同应用和不同小程序,或者是一些其他的第三方应用,划分在不同的VPC里面,进行不同的资源管理,那这一块就可以帮客户整个的业务体系可以,进行一个权责的分离,包括权责的一个控制性的一个介入。这样的话,各个应用之间都不会有互相干扰的情况发生。
第二块,我怎么去区分我的成本?那有些资源是共享的,有些资源是独享的,共享资源和独享资源我怎么去区分,我每个业务系统之间的成本,怎么去管理?
其实我们也会用到一些云上的财务管理,包括通过从资源的使用率,包括整个的计费方式,来进行一个合理的分配,谁用的多就给他用,谁用的少就相反之下把它给降下来,这样的话,我整个资源使用率也会进一步得到提升。
然后另外一块对于整个安全性的管理。因为我在我整个系统里面会有我的隐私数据,我的个人信息,我的核心数据,那这些数据我怎么去保护?
在传输阶段我要去保护他,在存储阶段我需要保护他,在运营阶段我也需要去保护他。那这块东西的话,我们也会有一个完整的解决方案,来帮助客户来解决安全性的问题。
另外就是最核心的一个问题,上线以后互联网的一系列的应用,我怎么去保证他的稳定性可靠性,来持续运行365天,可以每天都保持一个比较良好的状态,去为商家去为我的用户提供一个服务体验,包括我整个的一个购物体验也好,包括我的整个的小程序的一个浏览体验也好,怎么去保证他?
那这一块其实都是我们在整个为客户提供的整个运维服务体系里面需要做的一些事情。那做了这些事情以后的话,其实我们帮助用户去做了哪些适应性呢?
第一,我们提升了整个平台的稳定性,那帮助他在365天里面,7*24小时的时间里面,都可以稳定运行。
第二,我们帮助用户去理顺整个IT流程,那我们从我们的系统评估,到咨询,到整个云计算的选型,到整个的发布上架,我们都会去提供一系列的整个的一个标准和机制。那这个机制的话在整个过程中都会去,顺利的去扭转,去运行。这样一来的话,我可以在每一个点去控制我的风险,控制我整个的一个发布的规范性。
第三,其实也说到了我们对于资源的隔离,我怎么去把我的资源的利用率放到最大化,每一个资源都不浪费,用到最适合的地方。
最后,我们帮助客户去解决了IT的投入问题,其实对于整个运维团队来说,在一个甲方公司,他需要去建设他的运维团队,需要投入至少3-5人的力量。
那这样的话,其实我们的介入,一年至少可以帮客户去省了,10%到50%的一个IT投入的能力,因为在我们这边我们会有完整的服务的一个全景体系,包括我整个的人员培养体系,包括我整个的经验,包括我的技术,都会全身心的为客户提供这样一系列的服务,帮助客户去解决他的IT服务问题。
第一,IT咨询服务。我们可以给我们的客户提供整个 IT 的一个评估咨询。如何去上云,在云上采用什么样的安全架构?什么样的一个性能扩展性架构?为客户提供完整的一个基础架构的一个解决方案。那这个方案可以帮助用户快速的从我的传统架构,迁移到我的云计算架构,甚至于我们整个的微服务架构,都是可以帮助客户去快速的去转换我的整个的一个基础架构的一个形式。
第二,系统集成,那我们可以给客户提供整个的一个系统集成方面的一个服务,包括我整个的云计算的搭建,云计算的迁移,包括整个的数据大规模的迁移,包括容灾的一个规划。这是我们系统集成可以帮客户所提供的一系列的一个落地的一个方案。
第三,我们可以为客户提供信息与安全,风险评估方面的一个计划。那我们可以定期为客户的整个系统,去提供我的渗透测试啊,安全扫描啊,包括整个的日志的分析等。那这一系列动作,就是为了保帮助客户的,安全性提升一个档次。也可以顺利的去通过我们目前整个零售系统或者互联网系统,都需要去做的等保三级这一系列的测评工作。
第四,我们7*24小时的一个运维,那保证的就是我们通过巡检,通过日常的配置管理,事件管理,包括我的知识库,来确保我整个业务体系的一个稳定性的一个运行。这里的话其实我们提供了一个IT服务的总览,我们可以看到我们这个总览里面,其实是会通过我们最底层的IDC层,或者是云计算层往上走,上面会有牵涉到我们有网络环境,有我的系统环境,也有我整个的一个应用环境。那整体环境来说的话,我们运维可以提供在这些环境中,某一个领域的一个服务输出,来帮助客户建立一个完整的IT服务的一个平台,来提升我的工作效率。
我们可以看到,我们从日常的运行阶段的服务规范,包括我们应急响应流程是怎么来做的,我整个的管理流程会提供哪一些的流程文档,包括流程制度,然后也会通过一些安全的评估来保证我们整个体系的一个完整性,那这边的话就会提到日常运行,我们会提供监控,我们会提供日常的健康巡检,我们会有配置管理,系统优化加固,日志收集,容量规划,还有一系列的备份策略。
这是我日常的行为,那日常的行为就是为了让我的整个的事故率,包括我的事件发生率降低到最低,因为防患于未然。
然后另外的就是应急响应,那一定会有1%的可能,或者是0.1%可能发生一些事故,这些事故可能是崩溃性的,那我们需要做好我们一系列的应急预案。
那这些应急预案是会牵涉到每一个点,包括我的攻击行为的应急预案,我数据方面的应急预案,包括我整个系统崩溃时候应急预案,那这些应急预案都会切切实实落实到我们日常的每一个点上面,然后另外我们会有一系列的流程。那这些流程的话,也是规范了我们整个运维管理体系的一个标准,那运维整体来说就是三分技术,七分管理。
所以管理其实一个重头,有应急预案性的,有一些BCP演练方面的,有一些报告和一些文档。
那这些,汇总起来就是我们的一个知识库,通过这些知识库来不断去改进我们这个IT运维体系方面的一些流程。
然后在安全层面的话,我们其实会有一系列的渗透测试啊,白盒测试啊,扫描啊,巡检啊,年审啊。这一系列的动作,其实为了我们可以达到一个国际的标准的水平,可能你可以去申请你的等保三级,IOS27001或者27018。那这一系列,都会为了去保证我整个系统平台的一个安全性要求。
那经过了整个的我的服务的模型,我的服务的规范,我的服务的流程。那这边的话其实就是我的服务级别,那我的服务级别我会根据我的事件的优先级,从p1到p4。然后我的响应的优先级,也会从p1到p4,每一层级都是有不同的响应级别。
p1级别一定是崩溃性事情,我们会以最快的速度,分钟级的速度,包括我会在30分钟之内,恢复我整个系统的运作,那这是我的一个服务级别。那我的服务级别也相对于提升了我整个的一个后续的一个 SOA。那后面我们就来讲我们的SOA。
我们的整个的一个 SOA,SOA的话就会劝到我业务的可用性,我监控的及时性,我数据备份的有效性,我日志怎么来归档,我数据库怎么来做备份,我的持续集成,和发布按照什么计划来进行,这一系列都是我们整个的SOA 在提供服务时给到客户的一个保证,那也相对于来说也是对我们的一个考核,一个 KPI的一个认可。
综上是我们商派提供给我们客户的整体的一个7*24小时的一个运维服务的一个解决方案:其中包括我的系统集成,我的咨询与评估,我整个的安全怎么来做,我整个的日常的工作怎么来去实施。
我们的目标,就是帮助客户节省他的IT成本,提升他的互联网平台的运行效率,然后帮客户节约他的人力投入。这就是我们帮客户所能做的一系列的IT服务这一块的事情。
源码开放|支持二开|多语言多终端|丰富配置|灵活运营
上一篇:
打通公私域!《品牌零售业数字化运营的方法论及实践白皮书》附下载
下一篇:
lululemon全渠道品牌新零售战略