数字中国·星火文集 | 电商大促前物流IT要做哪些准备?
电商大促前
物流IT要做哪些准备?
神州控股
焦海涛
前言
听到“双十一”这个词大家都会非常熟悉,它是一年一度的购物狂欢,发展至今也已经举办13次了。每年的双11都是物流行业突破自身极限能力的时刻,是对物流人的大考。在那7天里,订单量是日常单量的几十至百倍,社会上所有的物流能力好像一下子都被占用没了,车辆紧张、场地紧张、人员紧张,系统崩溃。记得最初几年伴随着销量暴增的报道,总是出现电商平台崩盘,付款失败的情况,IT人面对双11,如临大敌,与购物者的狂欢心态完全不同,IT人是在提心吊胆,神经高度紧张中度过的。为了系统稳定,网上还有各种“奇葩”招数,比如把马老师的照片贴在服务器上保平安。足以证明双11的单量压力是多么的可怕。随着大促经验的不断积累,现在的双11,虽然单量还在逐年增长,但是我们很少会听说系统崩了,站点爆仓了这类消息。这个转变的原因是多方面的,各方资源和能力都在增长,在这里,我们浅谈“要做哪些准备才能支撑好电商仓发货的业务”。
作为亲历过12次双十一的神州控股旗下科捷物流的IT团队成员,我特别想把一些经验分享给感兴趣的伙伴们。今天就借着神州数码技术年会星火文集这个舞台,带着伙伴们一起进入科捷物流忙碌的大促系统筹备中。
科捷物流在大促中扮演的是电商仓储发货的角色,每次我们做大促支持,都分“战前”、“战中”、“战后”三个阶段。工作量最为繁重也是最重要的就是“战前”阶段。在这个阶段,我们会按以下九个方面来做准备。
1.
硬件资源
硬件资源指我们使用到的服务器、虚拟机、存储一类的硬件设备。这是最基础的资源,也是一切的根基。在大促前,一定是需要做短期扩容的。我们有本地的资源,也用到云上的资源,本地资源就更要提早的协调沟通。
1.根据单量预测,增加服务器或者提升CPU/内存
2.检查更新WINDOWS服务器补丁,并设置成不允许自动升级补丁状态
3.整理磁盘碎片
4.做硬件健康检查
5.关注磁盘空间、网络状况、CPU使用、内存使用情况
2.
仓内设备
仓内设备指库房内的电脑、打印机、手持设备、电子秤、自动称重设备DWS、AGV等。这些设备不像总部机房内设备那样集中管理,都分布在各个仓里,难管理,在大促前需要做一次全面检查。
1.库房内电脑磁盘空间是否足够
2.手持设备的联网状态,手持设备本地空间剩余,备用数量
3.电子秤备用数量,提前做好短期新增的电子秤与电脑的适配连接
4.各型号打印机的试打印
5.自动化设备的健康检查
3.
监控管理
监控管理有很多层面要顾及。要有最基础的服务器、网络资源使用情况的监控和自动报警;也要有业务层面的监控,比如来自于我们大数据系统KingKooData自动发送的业务各项指标的完成报告【图1】、业务数据流的流转阻塞监控【图2】;还要有全国各仓的实时画面监控【图3】。
图1
图2
图3
4.
网络准备
网络涉及到服务端的带宽和库房的内外网。首先是要通过日常的网络占用情况数据来判断需要增加多少带宽。其次是如果发现连接总部网络质量不好的库房,需要采取一些加强措施,比如SDWAN的方式,减少链路跃点数,提高网速和稳定性。
5.
数据库
最有可能出现卡顿的故障点就是数据库,要做以下准备。
1.清理历史数据,保证一个安全的数据量
2.重建索引、收集碎片
3.调整全备份的日期,避开大促
4.调整批量数据导出作业,避开大促
5.优化慢SQL,避免死锁
6.
部署调整
利用短期新增的服务器,做多节点配置,接口系统和应用系统用Nginx做分压。根据单量预测,单量比较集中的库房,不能集中在一个数据库中,需要做拆分。日常如果有很多程序挤在一个服务器上情况,这种时候就要分服务器部署。
7.
压力测试
大促开始时,压力会先来自于上游给库房下发单据的动作,我们叫接单。当夜间和第一个白天过后,所有压力都发生在仓储系统的发货流程上。所以我们一般会针对以上两个重点做压力测试。
1.接单压试,是通过测试工具模拟大量订单接入的场景测试。自测后,还要协同客户,根据往年的单量进行压力测试,模拟大促场景,确保客户订单接入无延迟。
2.关键功能压测,是找到用量最大的几个关键功能点做压测。比如“制拣选波次”、“批量调度”、“获取面单”等,根据结果,要制定针对性能瓶颈的解决方案。需要注意的是,功能优化往往是花费时间最多的准备环节,需要提早3个月以上开始着手。最晚到大促2周前,就不能再有代码变动了,要封闭版本,因为任何上线都可能隐藏着代码BUG,一定要留给业务一个版本稳定期。
8.
日志管理
在大促的时候,系统动作越少越好,能节省资源的地方就不要放过,日志记录在金库系统中做了开关,分出了“必须”和“非必须”两个级别,在大促时,只开“必须”的日志记录,能大大缓解数据库和磁盘的I/O压力。另一项工作,就是清理旧日志,腾出足够的空间。
9.
值班安排
值班安排就是把参与大促的IT人员做分工安排,要根据大家各自熟悉的领域搭配好,提前为大促值班排出两个班次,这种大促都是24小时轮值,每耽误1小时解决问题的时间,仓里就是几万到几十万的损失。
好了,如果准备完以上的九方面内容,时间可能也过去四个月了。临近大促最后的一周基本上没有大动作了,就是小的查漏补缺,一些不能提前做的配置和开关动作在这时候进行。那么,真正到了双十一来临的那个晚上,我们会和仓储管理部、客户部组成联合作战团队一起进驻作战室集中办公。全天候双班24小时的战斗,通过KingKooData大屏盯住所有仓的各项指标,线上响应各方呼叫,每小时系统自动发送详实战报。
科捷的IT小伙伴们就是这样来准备一场大促的。“亲,签收满意的话,给个五星好评哦!”