移动网络优化实践

如题所述

第1个回答  2022-06-29
网络优化对于App产品的用户体验至关重要,与公司的运营和营收息息相关。这里列举两个公开的数据:

“ 页面加载超过3秒,57%的用户会离开。 ”

“ Amazon页面加载延长1秒,一年就会减少16亿美金营收。 ”

首先是网络不可用的问题。主要由以下几种原因导致:

GFW的拦截,原因你懂的。

DNS的劫持,端口的意外封禁等。

偏远地区网络基础设施比较差。

其次是网络加载时间长。原因包括: * 移动设备出于省电的目的,发出网络请求前需要先预热通信芯片。 * 网络请求需要跨网络运营商,物理路径长。 * HTTP请求是基于Socket设计的,请求发起之前会经历三次握手,断开时又会进行四次挥手。

最后是HTTP协议的数据安全问题。原因有: * HTTP协议的数据容易被抓包。Post包体数据经过加密能够避免泄露,但协议中的URL和header部分还是会暴露给抓包软件。HTTPS也面临相似的问题。 * 运营商数据恶意篡改严重。如下图中,App的网页中就被运营商插入了广告。

3

面对上述网络问题,我们首先在HTTP短连请求中进行了一些优化尝试。

1. 告别 DNS,直接使用 IP 地址

如果是首次发送基于 HTTP 协议的网路服务,第一件事就是进行 DNS 域名解析,我们统计过 DNS 解析成功率只有 98%,剩下 2% 是解析失败或者运营商 DNS 劫持(Local DNS 返回了非源站 IP 地址),同时 DNS 解析在 3G 下耗时 200 毫秒左右,4G 也有 100 毫秒左右,延迟明显。我们基于 TCP 连接,直接跳过了 DNS 解析阶段,使用内置 IP 列表的方式进行网络连接。

 App 内置了一组 Server IP 列表,同时每个 IP 具备权重。每次建立新连接,会选择权重最高的 IP 地址进行连接。App 启动时,IP 列表的所有权重是相同的,此时会启动一组 Ping 的操作,根据 Ping 值的延迟时间来计算 IP 的权重,这么做的原理是 Ping 值越小的 IP 地址,连接后的网络传输延迟也应该相对更小。业界也有使用 HTTP DNS 方式来解决 DNS 劫持问题,同时返回最合适用户网络的 Server IP。然而 HTTP DNS 的开发和部署需要不小的开发成本,我们目前没有使用。

内置 Server IP 列表也会被更新,每次 App 启动后会有个 Mobile Config 服务(支持 TCP 和 HTTP 两种网络类型服务)更新 Server IP 列表,同时支持不同产品线的 Server IP 列表更新。因此,传统 DNS 解析能够解决多 IDC 导流的功能也可以通过此方法解决。

2. Socket 连接优化,减少连接时间

和 HTTP 协议中的 Keepalive 特性一样,最直接减少网络服务时间的优化手段就是保持长连接。每次 TCP 三次握手连接需要耗费客户端和服务端各一个 RTT(Round trip time)时间才能完成,就意味着 100-300 毫秒的延迟;TCP 协议自身应对网络拥塞的  Slow Start  机制也会影响新连接的传输性能。

App 使用了长连接池的方式来使用长连接,长连接池中维护了多个保持和服务端的 TCP 连接,每次网络服务发起后会从长连接池中获取一个空闲长连接,完成网络服务后再将该 TCP 连接放回长连接池。我们没有在单个 TCP 连接上实现 Pipeline 和 Multiplexing 机制,而是采用最简单的 FIFO 机制,原因有二:

简化 Mobile Gateway 的服务处理逻辑,减少开发成本;

在服务端同时返回多个响应时,如果某个响应报文非常大,使用多个长连接方式可以加快接收服务响应报文速度。

如果发起网络服务时长连接池中的 TCP 连接都正在被占用,或者 TCP 长连接的网络服务失败,则会发起一个 TCP 短连接实现网络服务。这里长连接和短连接的区别仅仅是服务完成后是否直接关闭这个 TCP 连接。

附: Pipeline 和 Multiplexing 是有区别的,如 HTTP/1.1 支持 Pipeline,客户端能否同时发送多个请求,但是服务端返回响应时也要按照请求的发送次序来返回响应;SPDY 和 HTTP/2 协议支持 Multiplexing,即支持响应报文的乱序返回,发送请求和接收响应互不干扰,因此避免了 HTTP/1.1 Pipeline 也没能完全解决的 Head of line blocking 问题。

3. 弱网和网络抖动优化

App 引入了网络质量参数,通过网络类型和端到端 Ping 值进行计算,根据不同的网络质量改变网络服务策略:

调整长连接池个数:例如在 2G/2.5G Egde 网络下,会减少长连接池个数为 1(运营商会限制单个目标 IP 的 TCP 连接个数);WIFI 网络下可以增加长连接池个数等机制。

动态调整 TCP connection、write、read 的超时时间。

网络类型切换时,例如 WIFI 和移动网络、4G/3G 切换至 2G 时,客户端 IP 地址会发生变化,已经连接上的 TCP Socket 注定已经失效(每个 Socket 对应一个四元组:源 IP、源 Port、目标 IP、目标 Port),此时会自动关闭所有空闲长连接,现有网络服务也会根据状态自动重试。

4. 数据格式优化,减少数据传输量和序列化时间

传输数据量越小,在相同 TCP 连接上的传输时间越短。携程 App 曾经使用自行设计的一套数据格式,后来和 Google ProtocolBuffer 对比后发现,特定数据类型下数据包大小会降低 20-30%,序列化和反序列化时间可以降低 10-20%,因此目前核心服务都在逐步迁移到到 ProtocolBuffer 格式。另外 Facebook 曾分享过他们使用  FlatBuffer 数据格式 提高性能的实践,我们分析后不太适合携程的业务场景因而没有使用。

5. 引入重试机制,提升网络服务成功率

受 TCP 协议重传机制来保证可靠传输的机制启发,我们在应用层面也引入了重试机制来提高网络服务成功率。我们发现 90% 以上的的网络服务失败都是由于网络连接失败,此时再次重试是有机会连接成功并完成服务的;同时我们发现前面提到的网络服务生命周期处于 1 建立连接、序列化网络请求报文、发送网络请求这三个阶段失败时,都是可以自动重试的,因为我们可以确信请求还没有达到服务端进行处理,不会产生幂等性问题(如果存在幂等性问题,会出现重复订单等情况)。当网络服务需要重试时,会使用短连接进行补偿,而不再使用长连接。

实现了上述机制后,携程 App 网络服务成功率由原先的 95.3%+ 提升为如今的 99.5%+(这里的服务成功率是指端到端服务成功率,即客户端采集的服务成功数除以请求总量计算的,并且不区分当前网络状况),效果显著。

6. 其他网络服务机制 & Tricks

携程 App 也实现了其他一些网络服务机制方便业务开发,如网络服务优先级机制,高优先级服务优先使用长连接,低优先级服务默认使用短连接;网络服务依赖机制,根据依赖关系自动发起或取消网络服务,例如主服务失败时,子服务自动取消。

开发过程中我们也发现一些移动平台上的 TCP Socket 开发 tricks:

iOS 平台上的原生 Socket 接口创建连接并不会激活移动网络,这里原生 Socket 接口是指 POSIX Socket 接口,必须使用 CFSocket 或者再上层的网络接口尝试网络连接时才会激活网络。因此携程 App 启动时会优先激活注册一些第三方 SDK 以及发送 HTTP 请求来激活移动网络。

合理设置 Socket 的几个参数:SO_KEEPALIVE 参数确保 TCP 连接保持(注:此 KeepAlive 是 TCP 中的属性,和 HTTP 的 KeepAlive 是两个场景概念),SO_NOSIGPIPE 参数关闭 SIGPIPE 事件,TCP_NODELAY 参数关闭 TCP Nagle 算法的影响。

由于 iOS 要求支持 IPv6-Only 网络,因此使用原生 Socket 必须支持 IPv6。

如果使用 select 来处理 nonblocking IO 操作,确保正确处理不同的返回值和超时参数。

保持 TCP 长连接可用性的心跳机制:对于非 IM 类应用而言,心跳机制的作用不大,因为用户会不断触发请求去使用 TCP 连接,尤其在携程业务场景下,通过数据统计发现使用心跳与否对服务耗时和成功率影响极小,因此目前已经关闭心跳机制。原先的心跳机制是 TCP 长连接池中的空闲 TCP 连接每 60 秒发送一个心跳包到 Gateway,Gateway 返回一个心跳响应包,从而让双方确认 TCP 连接有效。

Hybrid 网络服务优化

携程 App 中有相当比例的业务是使用 Hybrid 技术实现的,运行在 WebView 环境中,其中的所有网络服务(HTTP 请求)都是由系统控制的,我们无法掌控,也就无法进行优化,其端到端服务成功率也仅有 97% 左右(注:这里指页面中业务逻辑发送的网络服务请求,而非静态资源请求)。

我们采用了名为『TCP Tunnel for Hybrid』的技术方案来优化 Hybrid 网络服务,和传统 HTTP 加速产品的方法不同,我们没有采用拦截 HTTP 请求再转发的方式,而是在携程 Hybrid 框架中的网络服务层进行自动切换。

如图所示,该技术方案的流程如下:

如果 App 支持 TCP Tunnel for Hybrid,Hybrid 业务在发网络服务时,会通过 Hybrid 接口转发至 App Native 层的 TCP 网络通讯层,该模块会封装这个 HTTP 请求,作为 TCP 网络服务的 Payload 转发到 TCP Gateway;

TCP Gateway 会根据服务号判断出是 Hybrid 转发服务,解包后将 Payload 直接转发至 HTTP Gateway,此 HTTP 请求对 HTTP Gateway 是透明的,HTTP Gateway 无需区分是 App 直接发来的还是 TCP Gateway 转发来的 HTTP 请求;

后端业务服务处理完成后,HTTP 响应会经 HTTP Gateway 返回给 TCP Gateway,TCP Gateway 将此 HTTP 响应作为 Payload 返回给 App 的 TCP 网络通讯层;

TCP 网络通讯层会再将该 Payload 反序列化后返回给 Hybrid 框架,最终异步回调给 Hybrid 业务调用方。整个过程对于 Hybrid 业务调用方也是透明的,它并不知道 TCP Tunnel 的存在。

采用该技术方案后,携程 App 中 Hybrid 业务的网络服务成功率提升至 99% 以上,平均耗时下降了 30%。

海外网络服务优化

携程目前没有部署海外 IDC,海外用户在使用 App 时需要访问位于国内的 IDC,服务平均耗时明显高于国内用户。我们采用了名为『TCP Bypass for Oversea』的技术方案来优化海外网络服务性能,主要是使用了 Akamai 的海外专属网络通道,同时在携程国内 IDC 部署了局端设备,使用专用加速通道的方式来提升海外用户体验。

海外用户启动 App 后先通过 Akamai 定制域名获取 Server IP,所有网络服务优先走 Akamai 通道;如果 Akamai 通道的网络服务失败并且重试机制生效时,会改走传统 Internet 通道进行重试。相比只用传统 Internet 通道,在保持网络服务成功率不变的情况下,使用 Akamai 通道 Bypass 技术后平均服务耗时下降了 33%。

其他网络协议探讨

过去两年我们的网络服务优化工作都是基于 TCP 协议实现的,基本达到了优化目标。不过这两年来新的应用层网络协议 SPDY 和 HTTP/2 逐步迈入主流,基于 UDP 的 QUIC 协议看起来也非常有趣,值得跟进调研。

SPDY & HTTP/2

SPDY 是 Google 基于 TCP 开发的网络应用层协议,目前已经停止开发,转向支持基于 SPDY 成果设计的 HTTP/2 协议,HTTP/2 协议的核心改进其实就是针对 HTTP/1.x 中影响延迟性能的痛点进行优化:

Header 压缩:压缩冗余的 HTTP 请求和响应 Header。

支持 Multiplexing:支持一个 TCP 连接上同时实现多个请求和响应。

保持长连接(比 HTTP/1.x 更彻底):减少网络连接时间。

支持推送:可以由服务端主动推送数据到客户端。

官方性能测试结果显示使用 SPDY 或者 HTTP/2 的页面加载时间减少 30% 左右,不过这是针对网页的测试结果,对于 App 中的网络服务,具体优化效果我们还在进行内部测试,不过其优化手段看和目前我们使用 TCP 协议的优化手段类似,因此性能优化效果可能不会很显著。

QUIC

QUIC 是 Google 基于 UDP 开发的应用层协议,UDP 协议无需连接,不存在重传机制,因此应用层需要保证服务的可靠性。目前国内腾讯有针对弱网络尝试过 QUIC 协议,我们也在进行测试,最终是否会采用还需要看测试的结果。

综述

技术只是手段,最终还是要反映在业务效果上。我们已经实现除静态资源等需要访问 CDN 的网络请求外,其他 App 网络服务使用统一的 TCP 通道,从而具备更好的性能调优和业务监控能力。携程目前基于 TCP 协议的各种 App 网络服务优化,也是各种技术方案的平衡,虽然目前 HTTP/2 等新协议逐步成熟,但是 TCP 协议自身的灵活性支持有针对性的性能优化,还是具备其特别的优势,希望我们的实践总结能对国内无线技术从业者有一些借鉴价值。