当数据治理遇上人工智能

作者/来源:  人民邮电报    责任编辑: 陈近梅 时间: 2018年09月14日

  随着大数据在各个行业领域应用的不断深入,数据作为基础性战略资源的地位日益凸显,如何构建更有利于大数据产业健康有序发展的良好环境,成为业界关注的焦点,数据治理也随之成为大数据产业生态系统中的新热点。

  与此同时,在政策、技术、需求等多重因素的推动下,以自动驾驶、智能客服、语音识别为代表的人工智能应用快速兴起,AI已经成为全球科技巨头的布局重点。如百度李彦宏公开表示:“百度公司将不再是互联网公司,而是一家人工智能公司。”中国移动也高度重视人工智能,于2017年发布了“九天”人工智能平台,努力将人工智能技术应用在网络、市场、服务、安全、管理和衍生业务等多个领域。

  那么,当数据治理遇上人工智能,将碰撞出怎样的火花?

  确保数据质量和安全是发展AI的前提

  今天,企业对全面数据治理的需求从未如此强烈。监管机构希望企业能更加清晰地了解数据,对它进行有效的管控;企业管理层希望理清数据资产,降低数据应用的复杂性,对企业进行更高效的管理;企业员工也开始认识到数据的重要性,更多地采用数据驱动的方式来开展工作。数据治理正迅速发展成一种企业核心策略,只有做好数据治理,让数据更加准确完整,并且安全合规,才能释放出数据的无限潜能,挖掘出更多有价值的数据应用。

  在人工智能技术的应用和实践中,确保数据质量和数据安全是最基础的底层保障。由于人工智能的落地应用效果会受到数据质量和安全的影响,更多的企业开始反思并转而去推动数据质量和安全性提升,提供数据质量和安全评测工具,建立好的数据环境,再进行人工智能应用的同步研发。

  大数据是人工智能技术研发、训练的关键,是人工智能长期发展的重要保障。只有当人工智能系统能够获取更为准确、及时、一致的高质量数据,才能提供更有效、有用、精准性高的智能化服务。埃森哲在2018年4月发布的一份调研显示,中国制造企业在运用人工智能技术时面临一系列挑战。其中,52%的受访中国企业将数据质量列为突出挑战,数据安全与网络安全紧随其后(47%)。在2017年4月的一次研讨会上,围绕人工智能话题, 华为任正非提出:“高质量的数据是人工智能的前提和基础。”当前,不管是人工智能技术的研发,还是人工智能应用领域的发展,“数据质量”都是一个不可或缺、位于重中之重的要素。

  人工智能发展的另一个重点保障就是数据安全,人工智能系统的基础是大数据,要对外提供服务,就会涉及数据的安全保护,在这个过程中,一系列的数据安全防护手段是必不可少的,如数据脱敏管理,对敏感信息的风险评估、使用监控,对数据的泄露检测,数据库保密检查等。人工智能需要海量的数据,人工智能技术的进步取决于各种来源数据的可用性,如何确保这些数据的安全性与保证用户数据的隐私性是数据质量之外又一个重要问题。同时,通过对业务数据应用语义计算、数据挖掘、机器学习、知识图谱、认知计算等人工智能技术,也可以促进企业数据安全保障体系完善。因此,数据安全和人工智能两种技术起到了相互促进、相互完善的作用。

  智能化数据治理悄然兴起

  经过多年的理论更新、技术演进和应用实践,与前些年相比,如今的数据治理从概念到技术已经发生了很多变化。特别是随着这一波人工智能浪潮的兴起,数据治理技术和人工智能技术在一些方面也开始有了结合使用,应用了人工智能技术的新一代数据治理可以称之为“智能化数据治理”。

  在数据治理工作中,可以通过对大数据应用机器学习技术,进行数据挖掘和分析,从而识别哪些是用户隐私性数据,哪些数据可能有异常,一旦数据特征被确认,打上标签,未来再做数据管理时,就可以使用元数据管理的方法,对外提供服务。比如,当碰到涉及某特殊标记数据,就会有相应的流程启动,或在相关的数据对外服务提供过程中,一旦数据涉及个人隐私,则一定要小心处理,以避免引起政策方面的风险。通过上述应用,可以增强大数据系统数据安全管理和元数据管理的能力。

  另外,也可以在针对大数据开展数据质量核查过程中,配合传统的根据预置质量核查规则进行核查的方式,仅针对少量核心核查规则,从大数据中选取训练数据样本,经过预处理,利用机器学习算法进行深度分析,提取公共特征和模型,可以用来确定数据质量原因,进行数据质量问题的预测,并进一步形成知识库。这样就可以进一步增强大数据系统数据质量管理的能力。

  对于数据模型的管理,机器学习技术可用来分析数据库中数据实体的引用热度,通过聚类算法自动识别数据模型间的内在关系,还可以用于数据模型质量的检测和评估。对于非结构化数据的管理,如文档内容、图像、音频、视频等,更是可以充分利用人工智能中的自然语言处理、图像识别、语音识别、视频处理等技术。

  大数据治理+AI

  大数据治理,顾名思义,即基于大数据的数据治理。大数据,一般指符合4V特征的数据,包括社交数据、机器数据等,大数据对传统数据治理工作带来很多的扩展。在政策和流程上,大数据治理应覆盖大数据的获取、处理、存储、安全等环节;在数据生命周期管理各阶段,如数据存储、保留、归档、处置时,要考虑大数据保存时间与存储空间的平衡;大数据量大,因此应识别对业务有关键影响的数据元素,检查和保证数据质量;大数据还需要定义与其内容相关的元数据,需与传统数据定义标准保持一致,术语字典应包含大数据的术语,需要为非结构化数据提供分类、语义支持,Hadoop、NoSQL数据库的技术元数据也同样需要纳入元数据存储库管理;此外,在隐私方面,应考虑社交数据的隐私保护需求,制定相应政策,还要将大数据治理与企业内外部风险管控需求建立联系。

  在数字化时代,大数据治理应该如何与人工智能技术深度结合,人工智能技术在大数据治理领域又会有哪些应用?

  数据安全管理

  当前已经有许多行业信息安全解决方案都开始使用机器学习算法来识别潜在的系统攻击,通过机器学习可以建立用于检测异常情况的基线,一切不符合基线标准的异常情况都能及时得到预警和处理。

  元数据管理

  互联网企业使用机器学习,分析用户点击过哪些链接,为用户生成画像,打上特定的标签,来做商品、内容的推荐和优化用户搜索结果。这些描述用户消费行为、兴趣偏好特征的元数据信息,已经成为互联网企业得以生存发展的核心数据资产。

  数据质量管理

  在金融行业中,银行信用卡发卡部门很早就开始利用机器学习技术,来识别不合规的申请人、虚假申请信息以及可能存在欺诈性的交易行为。此外,既然机器学习可以识别信息系统中的异常数据,那它也可以检测工业制成品中的异常情况。企业可以通过将实体物品生产过程数字化,然后使用经过训练的机器学习系统来识别不符合标准或规格的产品数据,挑出异常数据,从而部分替代人类检测员的工作。

  非结构化数据管理

  近年来,利用机器学习的人脸识别系统能力一直在提高,已经大量应用在识别已知的犯罪分子,员工上班考勤以及识别公共场所中超出规范或违反法律的行为或活动。医疗行业则可以利用机器学习工具,通过对大量纸质和图像病例资料的训练学习,构建医疗知识库,辅助专业医护人员,诊断疾病并提出最有效的治疗策略。

  各类社交网站每天都在产生大量非结构化数据,企业可以利用机器学习技术来实时发现和识别潜在的问题,同时手写识别、语音转写、自然语言处理技术也在不同场景中大量应用,可以提高人们识别、理解和处理非结构化数据的能力。

  数据共享开放

  企业可以充分利用人工智能技术,以信息化、自动化方式,共享和开放一部分数据或数据加工结果,对外提供服务,提升企业竞争力。最典型的就是现在各种客户服务机器人,可以使用自然语言处理技术处理回答客户提出的常见问题,并随着时间的推移提高答案的质量。据悉,中国移动客户服务系统中机器服务的比例已经超过10%。

  另外一个常见的应用领域就是营销推荐,在大多数商业环境中,将适合的产品投放给恰当的受众对促进商业成功至关重要。机器学习系统可以使用企业收集的用户数据,根据用户过去的购物习惯预测可能喜欢的物品,再将预测结果数据向企业电商系统或销售决策系统开放。Facebook前科学家Jeffrey Hammerbacher曾感叹道: “我们这一代最聪明的大脑,没有花多少精力思考如何利用人工智能改善人们的生活,而是思考怎么让人们点击更多广告……”

  数据资产分析

  物联网的大发展提供了许多潜在的机器学习使用场景,其中就包括预测性维护,企业可以使用历史设备数据开展预测分析,推断机器可能发生故障的时间,使其能够在影响业务运行之前主动进行维修或安装更换部件。对于物流企业来说,设置时间表和路线是一件复杂而费时的工作,机器学习系统可以通过对交通数据的分析和监控,帮助企业规划货物运输路线及计划,提出最有效和最具低成本高效益的方法。

  另外,在金融市场交易中,每个交易者都希望在市场上找到低买高卖的模式,大的金融机构更是花费重金,使用人工智能技术针对金融交易数据做深度的分析挖掘,打造自己的量化交易系统,以期在变幻莫测的市场风云中更早一步识别潜在的风险和机会。

  数据治理政策研究重要性凸显

  2018年5月,在中国国际大数据博览会上,中国科学院院士梅宏在演讲中表示,大数据治理体系建设是我们国家实施大数据战略的重要保障,是发挥大数据作用、做大做强大数据产业的重要因素,也是关键基础。当下,做人工智能的企业很多,人工智能的基础就是大数据,数据首先要能标准化、共享、开放,如果数据标准不一致、质量不高,就很难做分析、建模,更谈不上预测的准确性。开展数据治理能为企业提供一个高质量的数据工作环境,促进人工智能技术的研究和实践。总之,数据治理是人工智能的基础,想做人工智能,需要先把数据治理这个基础打好。

  对大型科技企业来说,面对日益激烈的竞争环境,企业亟须进行数字化转型,一方面要做好数据治理;另一方面,数据治理政策也对人工智能发展发挥着重要的影响作用。

  号称欧盟“史上最严”的数据保护法规——《通用数据保护条例》(General Data Protection Regulation,GDPR)于2018年5月25日正式生效。GDPR适用地域范围不仅限于欧盟境内,也适用于提供业务给欧盟境内个人的境外组织机构;同时,GDPR在全面加强个人信息保护,强调用户知情权、访问权和被遗忘权的同时,对相关组织机构提出更为严格的合规要求,违反者会被处以最高2000万欧元或其全球营业额的4%的罚款。根据GDPR条例,个人消费者可以享有更多个人数据隐私权。同时, GDPR也会对国内互联网及商业科技公司产生长远的影响。可以断定,GDPR必将对基于个人信息搜集和隐私驱动的国内互联网产业的收入模式产生重大甚至可能是颠覆性的影响。

  此外,我国的《信息安全技术个人信息安全规范》于2018年5月1日正式实施,目前已对我国科技公司产生了实质性的影响。过去这些年,我国大型科技企业在人工智能领域取得了突飞猛进的发展,这些企业通过使用消费者数据,提供了便捷的智能化服务,但在保护消费者数据隐私权方面却做得不够好。

  未来,以欧盟为代表的个人数据隐私权监管机构,根据GDPR等数据保护法规,随时可能对违规企业进行处罚。在这种环境下,开展数据治理,以及对数据治理的政策研究,将成为整个行业关注和推进的焦点。

  * * *

  随着数字时代的到来,数据治理和人工智能研究的关系日渐紧密。近年来,一些互联网企业在享受人工智能技术红利的同时,存在数据认知不清、数据治理不当、用户隐私数据使用不合规等问题,出现了不少负面事件。要防止大数据和人工智能的滥用和失控,应该在人工智能的源头——大数据上建立科学的数据治理体系,包括数据的质量规范、制度政策、管理流程、职责定位和技术管控工具。数据治理体系是对商业价值和用户隐私,以及企业长期利益和短期利益选择的基础,建立数据治理体系是一个长期的过程,对于大型科技企业而言,都应当在数据治理的规范和约束下应用大数据,挖掘数据资产价值,提供人工智能服务。

  数据治理是人工智能的基础,数据治理的目的是在业务价值驱动下提供高质量的大数据,而人工智能本身是大数据应用的一种商业模式,数据治理和人工智能就好比一枚硬币的正反面一样密不可分,两者的有机结合才能驱动两大行业的升级,助力我们迈入一个更加美好的数字化时代。(文立木)