随着信息技术的迅速发展,数据规模逐渐扩大,与此同时,劣质数据也随之而来,极大地降低了数据挖掘的质量,对信息社会造成了严重的困扰,劣质数据大量存在于很多领域和机构,国外权威机构的统计表明:美国的企业信息系统中,1%~30%的数据具有各种错误和误差12.13.6%~81%的关键数据不完整或陈旧情况存在于美国的医疗信息系统中,根据 Gartner 的调查结果:在全球财富 1000 强的企业中超过25%的企业信息系统中存在错误数据。
大多数组织不考虑数据质量,就对大数据平台建设、分析应用等方面的重要影响而盲目投入,也缺乏对大数据资源的整体规划和综合治理,最终导致一些项目实施的终止和失败。因此数据治理越来越被重视。
数据治理的重要前提是建设统一共享的数据平台,信息系统的建设发展到一定阶段,数据资源将成为战略资产,而有效的数据治理才是数据资产形成的必要条件。
同时,在数据共享的时代,享受大数据带来便利的同时也带来如个人隐私泄露的问题,个人隐私信息泄露事件频繁发生,使得人们更加注重保护个人的隐私信息,往往会采取一些措施,如在进行网站注册时故意填写虚假信息,这会影响数据的质量和完整性,低质量的数据将导致低质量的挖掘结果。
因此,数据治理不仅要规范数据,实现数据的价值和管控风险,还要做到隐私保护。
数据治理的研究现状
1.1数据治理的定义
至今为止,数据治理还没有统一标准的定义,IBM 对于数据治理的定义是,数据治理是一种质量控制规程用于在管理、使用、改进和保护组织信息的过程中添加新的严谨性和纪律性。DGI则认为,数据治理是指在企业数据管理中分配决策权和相关职责。
数据治理的目标,总体来说就是提高数据质量,在降低企业风险的同时,实现数据资产价值的最大化,包括:
1.构筑适配灵活、标准化、模块化的多源异构数据资源接入体系;
2.建设规范化、流程化、智能化的数据处理体系;
3.打造数据精细化治理体系、组织的数据资源融合分类体系
4.构建统一调度、精准服务、安全可用的信息共享服务体系