信息数据采集如何为企业和个人征信服务
2015年1月5日,央行发文,要求腾讯征信、芝麻信用等八家机构做好个人征信业务的准备工作,准备时间为6个月。这表明,个人征信市场正式向互联网企业开放。享受此次征信开放业务的由8家机构承担,分别是芝麻信用管理有限公司、腾讯征信有限公司、深圳前海征信中心股份有限公司、鹏元征信有限公司、中诚信征信有限公司、中智诚征信有限公司、拉卡拉信用管理有限公司、北京华道征信有限公司。
什么是个人和企业征信
所谓征信,就是专业化的、独立的第三方机构为个人或企业建立信用档案,依法采集、客观记录其信用信息,并依法对外提供信用信息服务的一种活动,它为专业化的授信机构提供了一个信用信息共享的平台。征信的数据要素主要包括三个方面。一是个人基本信息,包括姓名、证件类型及号码、通讯地址、联系方式、婚姻状况、居住信息、职业信息等;二是信用交易信息,包括信用卡信息、贷款信息、其他信用信息;三是其他信息,包括查询记录等。
当前,由中国人民银行组织商业银行建成的企业和个人征信系统,已经为全国1300多万户企业和近6亿自然人建立了信用档案。这也就是说,这些企业和个人从事经济金融活动的信用状况将被记录到“经济身份证”上,成为与企业和个人永远相伴的档案。如果逾期还贷或有其他违反合同的规定,那么“经济身份证”将被抹上灰色的一笔,今后向银行申请贷款就可能面临更加谨慎和挑剔的目光。
征信服务遭遇的数据瓶颈
当前,网购已经触及到社会经济行为的各个角落,以P2P为代表的互联网金融正在对传统金融行业发起冲击,基于网络的互联网经济成为一个重要的经济形势,而主体虚拟化的交易方式使得信用的重要性越来越突出,于是征信业务作用性越发迫切。与此同时,互联网发展给个人征信行业带来了跳跃式的发展。随着互联网的发展,人的行为变成24小时可记录,这就导致跟传统征信业的数据相比,互联网征信的数据涉及范围更广,种类更多。因此,传统的征信模式很难实现大数据时代的要求,大数据征信是征信体系的发展趋势。
从互联网征信的特征来看,其获取的主要是信息主体在线上的行为数据,包括网上的交易数据、社交数据以及其他互联网服务使用中产生的行为数据等,甚至可以是在信息主体之外的第三方评价、信用口碑等信息。这些代表信息主体的互联网行为轨迹和细节更多反映人的性格、心理等更加本质的信息,都可以用来对信息主体的信用状况进行推断。
然而,随着互联网大数据时代的到来,传播与网上的数据信息增量惊人。有数据显示,阿里芝麻信用信用数据日处理量在30P B以上,相当于5000个国家图书馆的数据总量,其中包含了用户网购、还款、转账以及个人信息等方方面面数据。而与互联网上传播的日数据量相比,阿里芝麻信用的这些数据真算是九牛一毛。面对分布在各种平台、网站、社区、数据库的数据量庞大的,甚至是零散、零碎的征信建设可用数据信息,如何实现这些信息数据的收集、清洗、汇总,也算是当前互联网个人及企业征信建设的一个瓶颈了。
在业内看来,无论是阿里还是腾讯,布局征信业务主要优势在于手上握有的大数据。但是,面对抓取阿里生态圈外数据的瓶颈,阿里芝麻也只能通过购买或者合作等方式采集外部数据,包括政府机构数据以及金融机构数据等来弥补互联网征信在数据上的不足。于是,在自有生态圈外实现个人和企业信用信息的采集、整理、保存、加工工作,已经成为互联网大数据时代征信建设必须要突破的困局。
信息采集打破征信数据“贫穷”困局
互联网时代,每天存在于网络的数据数以亿万计,这些数据中包含着个人或企业的基本身份信息,工作情况,消费记录,兴趣爱好信息,口碑状况,犯罪记录,社交圈状况等等,它们都可以作为征信建设的重要依据要素。但是,这些数据同时又表现出互联网信息普遍存在的传播性、即时性、零散性和杂乱性,这些特点都大大增加了传统人工数据收集的困难,也不利于海量数据的清洗。
在此背景下,以互联网开源信息作为抓取对象的网络数据自动化采集系统走入人们的视线。以当前信息采集行业知名品牌乐思信息采集系统为例,其主要根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。而自动获取的数据涵盖文本信息、URL、数字、日期、图片、音频、视频、快照等各种类别,主要应用于公关效果监测,品牌监测,价格监测,门户网站新闻采集,行业资讯采集,竞争情报获取,商业数据整合,市场研究,数据库营销等领域。对于征信建设而言,其在网络信息数据自动化获取和清理方面作用突出。
以企业征信系统建设中的企业口碑状况和违法记录为例。比如想建立万科的征信档案,通过乐思网络信息采集系统,可以以全网作为数据抓取对象,采集各类涉及万科的言论信息,包括网友跟帖、新闻报道、产品评价、营业情况等,然后通过后台的数据自动化分类聚类实现数据的清洗,得出万科相关的公众口碑度、媒体关注度、产品好评度等数据表,以此作为万科信用评分的参照要素之一,从而保证对一个企业信用标准评判的科学化、精细化和精准化。同时,这种征信参照数据的完整性,也提高了企业信用在金融贷款、经济交往中的说服力。
再比如,企业的违法记录对于企业信用度评判的高度作用是毋容置疑的。然而,面对分布在各级各大法院数据库里相对孤立的巨量企业违法信息,一是难以实时全面收集,二是即使通过人工收集,也难以做好数据的清洗,其工作量和人工成本巨大难以想象。而信息数据采集则很好的化解了这一难题。例如乐思网络信息采集系统则可以一次性并且实时跟踪自动采集分散在各大法院官网的企业违法数据,集中入库,再通过系统的自动聚类分类功能,以企业或者违法类型为对象对入库数据实现信息自动清洗,最终完成企业违法记录数据库,依据需要纳入企业征信系统。
其实,不管是企业征信建设还是个人征信建设,其本质是数据,如何获得全面、及时、有效的数据,直接决定了征信建设在未来经济活动中的作用和意义。信用数据判定要素越丰富、全面、准确,那么通过信用度来考量经济交往中的风险也就越科学、越精准。因此,面对大数据需求与网络信息“孤岛”的矛盾,信息数据大采集为征信建设提供了渠道。
推荐阅读
自贡公安局交警舆情工作启示
大数据环境下CIO企业信息化建设方法
新媒体时代下微信舆情该如何监控?
网络大数据挖掘如何促进防灾减灾工作?
电力企业如何做好网络舆情监控管理