本文共 4622 字,大约阅读时间需要 15 分钟。
Service Mesh 概念在 Linkerd 落地之后,让一直漂浮在空中的微服务治理方案有了一个明确的落地点,给微服务架构的具体实现指出了一个清晰的方向,围绕这一概念逐步开始形成新的技术生态,在业界造成不少震动。这种震动对于企业 IT 转型工作带来的影响,甚至比容器化的影响更加深远。对于承担企业 IT 转型工作的企业服务行业来说,也自然首当其冲感觉到新概念带来的压力。企业服务行业和互联网行业相比,业务形态、技术积累和人员结构等方面都大相径庭,举几个常见的差异:崔秀龙,HPE 软件分析师,Kubernetes 权威指南作者之一,Kubernetes、Istio 项目成员。
本文根据崔秀龙在 2019 广州 Service Mesh Meetup#5 分享整理,完整的分享 PPT 获取方式见文章底部。本文内容收录在崔秀龙的新书:《深入浅出 Istio - Service Mesh 快速入门与实践》的第十章,该书将于近期由博文视点出版发行,敬请关注。
目前进行 Service Mesh 布道的主力还是互联网行业的旗手们,一味追求跟进互联网同行们的进度和做法,颇有邯郸学步的风险。
本文中将会针对目前 Service Mesh 方面的一些普遍问题和关注热点发表一些个人意见。并尝试提供一种 Istio 的试用思路,给乙方同行们提供参考。无需赘述,多数用户都很清楚,Istio 使用和应用共享网络栈的方式,利用 Iptables 劫持应用的网络流量,从而在不修改业务源码的情况下,完成一系列的功能:
分布式跟踪和业务紧密相关,无法做到无侵入。
这其中最大的优势就是无侵入,这意味着给试用流程留下了全身而退的机会,如果没有回滚的能力,上述种种能力都是空中楼阁。
这里提出的只是被反复提及,或者经常出现在 Issue 列表中的问题,由发布问题来看,面临的风险可能远不止这些。
试用 Istio,首先应该确定,该技术的采用,是否能够在可控的风险和投入下,得到有效的产出。
Istio 的多数功能,在无需对程序进行修改(分布式跟踪除外)的情况下,能对应用提供如此之多的功能支持,无疑是非常有吸引力的。Istio 的功能集,完全可以说是服务网格技术的典范。一旦确认现有环境有可能支持 Istio 的运行,并且在合理的投入下能够获得有效益的产出,那么这个试用就是有价值的。
结合 Istio 的现状,以及多数企业的运行状态,个人浅见,Istio 的应用在现阶段只能小范围试探性地进行,在进行过程中要严格定义试用范围,严控各个流程。 按照个人经验,笔者将试用过程分为如下 4 个阶段。在 Istio 中包含了非常多的功能点,从原则上来说,各种功能都是有其实际作用的。然而,Istio 作为一个新产品,本身也有很多不足,我们在 10.1 节中也提到了这些不足。
Istio 提供的众多功能对每个公司或者项目,都会有不同价值。我们在采用一个新系统时,首先要考虑的就是性价比问题,这里的“价”代表着 Istio 带来的风险、对业务应用的影响,还包括可能出现的服务停机等问题。可以根据性价比,做出一个优先级别列表。在制定了优先级列表之后,就可以根据这一列表,结合项目的实际需求,按照效果明显、功能稳定、部署成本低、少改造或者不改造的标准来进行选择,最终确定待测试的功能点。在选定功能点之后,应该遵循目前已有的 Istio 文档,对各个功能点进行单项测试和验证,以确保其有效性。并通过官方 GitHub 的 Issue 列表及讨论组内容,了解现有功能是否存在待解决的问题,以及相关的注意事项等。在试用功能点确定之后,就要选择用于试用的业务应用了。Istio 作为一个相对底层的系统,其部署和调试过程必然会对业务产生一定的影响,在运行阶段又有 Sidecar 和各个组件造成的损耗,如下所述:
如上所述还只是个概要,对业务来说,对这些风险都是必须正视并做好预案的。 为了避免引起过大损失,建议将如下标准作为选择试用服务的依据:
按照现有业务的实际需要,对试用服务进行功能分析。和传统的需求功能分析类似,要在该过程中明确一些具体的需求内容。
首先是基本环境的准备,按照前面提到的环境需求,复查集群环境。 如果是内网部署,应该部署内网可达的私有镜像库,推送全部所需的镜像,并利用 Helm 变量设置合理的镜像地址。 接下来根据试用需求,利用 Helm 对 Istio 部署进行调整,这方面的调整主要分为两类——资源分配和功能裁剪。
在进行试用应用的注入之前,首先应该部署一组备份服务,这组服务需要和整体服务网格进行隔离。这一组备份服务应处于待机模式,以备网格版本的应用在出 现故障时,进行整体切换。基于这一点考虑,负载均衡等前端控制设施也应齐备。
接下来要把试用服务部署到网格之中,同其他 Kubernetes 一样,网格应用的部署也是从 YAML 代码开始的。原有应用的部署代码需要根据 Istio 标准进行复核,检查其中的端口命名、标签设置。
除了待注入的应用清单文件,还应该为每个部署单元都提供默认的 VirtualService 和 DestinationRule,建立基本的路由关系,提供一个路由基准,方便在路由调整过程中进行对比。然后根据在前面制定的具体网格需求列表,逐个编写所需的路由、规则等方面的配置内容。 在这些都完成之后,就可以按照顺序逐个提交部署了。在试用服务部署之后,就有更多的项目可以监测了,这里建议将其自带的 Prometheus 进行变更,连接到能够有效发出告警的 Alert manager 组件上,并根据试用业务的服务质量、Istio 组件进行告警设置。
根据功能需求对试用服务进行功能测试,在测试通过之后进行性能和疲劳测试,观察各方面的性能指标是否符合,如果性能出现下滑,则可以尝试扩容,提高资源分配率。
关键组件的性能下降有可能是 Istio 自身的问题,应检查社区 Issue 或提出新的 Issue。此处是一个关键步骤,如果测试方案不符合实际情况或者预期目标无法达到, 则强烈建议放弃试用。在功能和性能测试全部通过之后,就应该进行试用服务和后备服务之间的双向切换的演练,在双方切换之后都应该重复进行验证过程,防止故障反复。 切换演练是试点应用的最后一道保险,在网格严重故障之后能否迅速恢复业务,全靠这一步的支持,因此同样需要认真对待。
虽然很多企业服务团队的研发能力不高,无法像一些高水平技术团队一样,对开源软件进行因地制宜的适应性修改。然而需要理解的重要一点是,不少软件项目其实并非为世界级的流量而生的,互联网 Say No 的时候,其它场景中未必无法接受。通过细致的调查研究,详尽的方案设计,谨慎的执行和验证之后,Service Mesh 或者其它的新技术的试用决策都是可以进行尝试的,甚至也是有可能因此获利的。
PPT 下载和视频地址点击页面回顾按钮,回顾当天所有讲师分享: 延伸阅读转载地址:http://quoso.baihongyu.com/