GenAI为企业利用数据开辟了新的可能性,但要确保对AI模型所依赖的数据的信任,强大的数据治理是不可或缺的。GenAI的问世标志着技术革新的新时代,它承诺将重塑各行各业以及我们处理数据的方式。数据治理在确保为AI系统提供高质量、完整数据方面扮演着至关重要的角色。


根据TechTarget的企业战略集团在20246月发布的《AI时代的数据治理》研究报告,70%的企业表示,在AI驱动的项目中,他们优先考虑数据的质量和完整性。这种高度的重视凸显了数据治理与AI项目成功之间密不可分的联系。然而,只有46%的企业对用于决策的数据准确性表示出适度的信心。这一数据表明,尽管企业认识到数据质量的重要性,但在将这种认识转化为确保数据信任的实际行动方面仍面临挑战。这是企业在构建内部和面向客户的GenAI工具时需要克服的障碍。包括数据库、治理工具、机器学习和分析在内的GenAI工具和基础设施,都有助于建立对企业GenAI使用案例中所用数据的信任。

为什么在AI时代,数据治理的角色变得如此关键?答案在于AI系统的本质。构建由GenAI驱动的应用程序的企业应从定义用例开始,例如,一个由GenAI驱动的知识库,员工和客户可以快速获得公司和产品的答案。这一过程始于数据基础——即企业数据,如产品目录、培训文件和支持数据。这些数据经过向量化数据库处理,使用检索增强生成和嵌入等技术,从大型语言模型或基础模型(如OpenAIGPTGoogleGemini或前端聊天机器人)中提取数据,使用户能够提出问题,并基于特定企业数据基础,以自然语言形式获得回答。这个例子展示了数据质量、准确性、合规性和对用于GenAI应用的企业数据控制的重要性。数据的质量和代表性直接影响GenAI工具的准确性、公平性和可靠性。

考虑到偏见或不准确数据的影响:一个基于劣质数据训练的AI系统可能会延续现有的偏见,导致歧视性的结果。例如,使用过时信息的AI算法可能会提供不准确的定价、功能和特性信息,或者,如果未能从数据中清除机密信息,这些信息可能会被泄露。随着企业从多样化来源收集和处理越来越多的数据,出现错误、不一致和隐私泄露的可能性呈指数增长。如果没有强有力的数据治理,企业将面临重大财务、声誉和法律责任的风险。

为了降低这些风险并充分释放AI的潜力,企业必须将数据治理作为其AI战略的核心要素进行优先考虑。它们应实施全面的框架,涵盖数据质量、安全性、隐私和可访问性等方面。强有力的数据治理计划的关键组成部分包括:

• 数据质量管理:通过数据清洗、验证和分析,确保数据的准确性、完整性、一致性和及时性。

• 数据安全:保护敏感数据免受未经授权的访问、使用、泄露、干扰、修改或破坏。

• 数据隐私:通过数据最小化、匿名化和加密,确保遵守隐私法规并保护个人权利。

• 数据可访问性:在保持适当控制以防止滥用的同时,使授权用户能够方便地访问数据。

• 数据治理框架:为数据管理建立明确的角色、责任和流程,包括数据所有权、管理和问责制。

通过投资数据治理,企业可以建立对其GenAI工具的信任,提升决策能力并降低风险。GenAI有潜力改变我们获取信息的方式,但每个企业都有责任建立可信的产品,而这一切都始于强有力的数据治理。

点赞(456)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部