乐思软件

提交需求|联系我们|请电400-603-8000

首创证券伏劲松:扭转“IT独舞”

  首创证券早在2003年就开始学习ITIL,并在2004年实现企业IT系统实时监控。2005年首创证券开始按照ITIL理念进行实践。但在按照ITIL理念实践的过程中,首创证券发现在系统运营中有很多问题ITIL并没有解决。

  “ITIL给了我们一套处理问题的流程,但是某个问题具体用什么方式来处理、这样处理是否正确,ITIL并没有解释。” 首创证券有限责任公司信息技术总监伏劲松说,“好比企业上了ISO9000并不表示你的产品质量达标,如果实力不够,只会导致不合格产品数量的急剧增加。”

  为了解决IT运营管理中存在的问题,改变IT人员疲于奔命的状态,首创证券在2008年初开始将IT运维人工操作流程进行自动化的实践。2009年底,首创证券实现所有业务系统IT自动化运营。

  自动化运营新思路

  IT运营是指从管理的角度来研究保障IT系统正常运转所需的人员配置、工作流程设计以及工作流程的控制与执行等范畴。证券业IT技术的快速发展,不仅导致IT系统的复杂性呈指数增长,需要管理的要素已超出人的能力范围。同时,复杂的系统又对IT运营专业人员提出了更高的技术要求。在这种情况下,前期受人追捧的IT运营管理方法越来越显得力不从心,IT系统运维人员也渐渐陷入到流程与专业技术所形成的漩涡之中。

  这一突出矛盾,在近年来国内众多企业投入巨资进行ITIL实施的过程中已经得到充分暴露。企业在背负着巨大的IT运营成本的同时,又不得不小心翼翼地应对各种潜在的IT系统故障,形成企业在自己用巨资建立起的IT这根钢丝绳上跳舞的局面。

  证券业由于市场的特殊性,要保证客户资料和交易过程的安全,系统一旦宕机,后果不可想象,运维人员犹如顶着“火盆”在工作。中国证券业已经发展了20多年,在这20年的IT建设中,又涉及到交易所、登记公司、银行等,证券公司的IT系统几乎难以纳入到可持续构建的框架之内,它包含了各个时期的IT技术,使得其复杂性高于任何其他行业。此外,时间和价格决定了客户的交易成本或者投资获利,因此对实时性要求要高于其它任何一个行业。

  “不仅如此,由于缺乏企业应用软件在运营管理方面所必须遵循的国家标准,因此各个应用软件开发商在开发应用系统时只注重系统所实现的功能,而忽略了对系统运营管理的必要支持,给后期系统运维带来极大挑战。”伏劲松谈道。

  近几年,首创证券IT基础设施的数量、应用系统的数量急剧增加, IT技术的复杂度也在快速加大,IT工作的调度和协调也变得更为复杂。证券业缺乏专业IT运维人员的教育培养体系,又需要相应的业务背景知识,导致相互挖人成为行业普遍现象。目前中国的证券业正处于高速发展时期,业务变化速度快,系统架构难以保持相对的稳定,大量、频繁的系统变更经常发生。

  IT运维人员长期处于高压力环境下工作,工作内容又琐碎繁多、重复性强,容易形成疲沓工作状态,导致人为操作差错出现。“系统繁多、结构复杂,形成知识分散,过度分离在个人身上,关键时会影响问题解决速度。有时一个人员承担多个应急操作,易产生运维安全隐患。”付劲松解释道。传统监控方式过于分散,监控相互独立,这些分散、片面的应用视图导致故障难以准确定位。运维管理效率低下,相似问题屡屡发生,运维人员疲于奔命,“救火队”角色难以摆脱。一旦故障发生,运维人员压力大,使得既定的应急操作流程在执行过程中产生变形。

  近几年,证券业内约有10%的证券公司开展了ITIL实践活动,ITIL将日常运维中的活动归结为10大工作流程,并对每个工作流程给出最佳实践准则,极大地改善了IT运维管理工作状况。“但是,ITIL的复杂流程降低了工作效率,对前面所述问题改善效果也并不显著,甚至是无能为力,因为ITIL回避了两个实质性问题,也是影响ITIL成败的关键问题:工作流程每一步的操作是否能正确完成;产生的问题是否能在最快的时间内有效诊断和处理。”伏劲松讲道。

  如何简化流程、提高系统的可用性、降低IT系统运营成本、优化IT运营管理、有效地利用IT资源,是继ITIL之后,近年来被IT厂商和企业所关注的焦点问题,IT自动化服务的概念随之产生。

  IT服务自动化不仅可以将IT运维人员从日常重复性劳动中解放出来,重要的是可以提高系统的可用性,杜绝人为差错所形成的系统故障,提高系统的平均修复时间,同时也大幅度降低了企业的IT运营成本,简化了繁琐的ITIL管理流程,IT服务自动化与ITIL的结合让IT运营管理进入到一个新的阶段。

  人机合一

首创证券自动化运营之路

  “IT自动化运营的核心是采用人机界面整合技术,结合闭环控制方法,运用流程可视化和门户技术,让复杂多变环境下的IT自动化实施能够分批逐步实施。”伏劲松解释道。IT自动化运营不仅对ITIL流程进行了简化,大幅度降低了ITIL实施的难度,同时将运维流程、应急流程固化为电子流程,在有效地降低了日常运维过程中人为操作失误所导致的系统故障的同时,又大大缩短了意外事件发生后的故障修复时间,为IT系统的安全稳定运行创造了一个良性空间。

  2008年3月,首创证券IT部门用了4个月的时间完成了自动化脚本的开发阶段。IT人员开发独立的脚本程序存放于各个服务器上,日常维护时手工点击脚本运营程序。在这一阶段,运维人员充分测试了脚本的准确性和有效性,并进一步修改完善已有的脚本程序,使其运营更加稳定。

  2008年8月,IT部门构建集中管理平台,整合多个IT系统,实现统一控制。在这一阶段运维人员在前一阶段的基础上,将运营流程自动化实施于整个IT系统中,实现了开始前操作、盘中监控、收盘作业自动化以及部分事故处理自动化,简化了运维人员对系统的日常操作,有效地防止了人为操作故障的发生。

  IT自动化运营管理系统在管理上实现了对集中交易系统、网上交易系统、资产管理系统、风险控制系统、影像系统等多个系统的全面整合,构建统一的集中控制平台,摆脱了以往运维工作过程中对上百台设备的交互操作,更好地满足了证券公司业务的需要。

  “尤为突出的是,目前业界对系统的整合多是停留在数据层面的整合,而IT自动化管理系统实现了在应用层级别的有效整合,使系统整合更为快速灵活。”伏劲松谈道。

  IT自动化管理系统从Agent、任务和流程三个层面实现IT系统业务操作自动化,简化了日常运行维护工作过程中的人为操作步骤,大幅度降低了人为操作失误,实现了在无人值守的条件下整个证券业务系统的日常开市与收市处理的自动运行。应用脚本对每一步骤操作都进行交叉检查与判断,确保了每一执行过程准确无误。

  当事件发生时,应急处理自动化可以根据设定的触发条件,立即触发应急操作流程自动执行,应急操作流程的自动化可大幅度缩短系统的平均修复时间,可将人为干预的应急操作流程从10分钟的处理过程缩短至1分钟完成。应急处理自动化有效地控制了故障平均修复时间,避免了当系统发生故障时人为混乱导致的系统故障时间的延长。

  中央自动化操作中心,采用精准的自动交互替代人工交互操作,实现了对传统应用程序的自动操作。操作中心通过交叉核对,准确判断每一个自动操作是否正确完成。通过集中统一的控制平台来完成运维操作,操作过程标准化。操作中心设有直观的可视化流程执行器,

  操作人员可以清晰观地察自动化执行的全过程。此外,灵活的流程执行模式与调度控制,自动化脚本允许单步执行、自动执行、定期执行、条件执行等。

  为了避免过去权限不当造成的安全隐患,重新设置权限控制,对哪些人员能够执行哪些流程是根据权限严格管理的。丰富的自动化脚本功能、完整的操作记录留痕,供检查与审计使用;交互式流程设计工具,便于快速设计自动化流程。

  自动化运维管理系统,建立面向业务级的实时监控和报警。“目前业界的监控软件,多只停留在基础环境级别,没有对业务应用程序的统一监控。部分运营软件提供商,提供针对其软件的独立监控程序,并不能满足IT运维人员集中监控的需要。”伏劲松解释道。IT自动化运营管理系统实现了对以下系统的集中实时监控:总部集中交易系统、营业部交易系统、灾备中心交易系统。监控内容主要有:环境监控、网络监控、服务器状态监控、应用状态监控、应用性能监控、流程状态监控和安全监控。

  基于IT资源动态调整的风险化解体系,目前业界的风险化解思路,主要体现在应急预案、设备备份等方面。这样的风险化解思路会大大缩短业务恢复的时间,但很难真正化解业务中断的可能。并且由于单点故障导致其他设备的负载增加,容易引起在一整条业务应用线路上主机、网络、应用等多米诺骨牌现象。

  首创证券通过针对业务应用的整条交易线的资源分析,给出各个交易单元的IT资源匹配模型,并通过自动化的手段完成对IT资源的重新部署和分配。通过对业务的性能进行端到端的监控,监控局部的故障,在故障发生时,迅速隔离故障,并同时以自动调整和设定整条交易线的资源匹配比例的方式,保证端到端的业务访问性能以及每个环节的IT资源不会出现交易瓶颈。通过操作自动化,实现对业务IT资源的动态调整,可以保证业务故障仅仅影响极小部分的资源区域,整个业务还是可用。而且可以有效避免整个关联业务线的大范围风险事故发生。

  2009年初,项目进入ITIL流程的完善阶段。在完成集中管理平台的建设之后,首创证券又进一步参考ITIL流程,设计适合自己的运营管理流程,将自动化的理念巧妙地融入ITIL流程当中。在探索与实现中,ITIL的执行力度比以往有了很大的改进,更有力地保证了IT运营管理工作流程的有效实施。

  ITIL自动化体现在大部分配置信息的自动搜集、事件管理的应急处理、问题报告的自动产生、变更管理的审计、可用性数据的自动采集、系统容量数据的自动采集、定制的服务水平报告的自动生成等等。

  虽然对于日常IT运维实现了自动化,但当IT自动化运营管理系统的突发事件异常处理功能不能自动处理突发事件时,需要人工干预处理突发事件,系统也提供桌面操作的录制功能。此项功能完整准确地记录了运营维护者对系统的应急操作,为IT系统的审计工作提供了最原始的资料。

  收益:显性+隐性

  IT自动化运营管理系统不仅为首创证券节省了人力成本、减少差错率、延长设备使用周期,更有效地降低了IT运营成本。

  按首创证券(15家营业部)每年2000亿元的成交金额计,佣金比例按0.1%、交易时间按250个交易日、每天交易时间按4小时、客户索赔比例按10%计算,则年佣金收入为:2000亿元×0.1%=2亿元;一年的交易时间为:250交易日×4小时/日×60分钟/小时=60000分钟;所以,每分钟的佣金收入为:2亿元÷60000分钟=0.3万元;每分钟的客户索赔金额为:2000亿元÷60000分钟×10%=33.3万元。

  因此,系统每减少一分钟的宕机时间,为公司避免0.3万元+33.3万元=33.6万元的损失,平均每家营业部损失为33.6万元÷15家=2.24万元,对于一家拥有100家营业部的证券公司,减少一分钟宕机,可避免224万元的直接经济损失。

集成系统网络情报信息数据库

CIO频道人物视窗
CIO频道方案案例库
大数据建设方案案例库
电子政务建设方案案例库
互联集成系统构建方案案例库
商务智能建设方案案例库
系统集成类软件信息研发企业名录