数据仓库、数据湖与数据结构的比较

为了处理日益增长的数据量,各种存储和管理系统应运而生,包括数据仓库、数据湖和数据结构。在企业层面,需要一个统一的数据结构来整合、管理和治理跨企业的所有数据。企业间的协作至关重要。

行业专家认为,集中所有数据往往是不切实际的。通常,企业会先使用服务对分析进行原型化,以访问不同的数据源。如果这种方法被证明有效,并且业务需求指示需要,那么数据集中化可以在之后进行。

Hurwitz公司的分析师Dan Kirsch指出,数据去中心化趋势与数据结构之间的联系。他提到,“我们已经注意到数据结构方法越来越受欢迎,因为拥有一个中央存储库来保存所有数据是不现实的。”因此,数据结构需要支持异构数据位置。数据结构方法有助于解决分担责任的挑战,即每个团队负责自己的数据,然后将其整合,而不是简单地将数据转储到数据湖中。AWS公司认为,数据湖是分析成功的唯一途径,并希望企业将所有数据转移到AWS云平台上。

Gartner公司的数据与分析副总裁Nick Heudecker对此表示赞同,并认为所有这些趋势都很重要。他指出,“每个概念服务于不同的用户和用例,例如,数据仓库用于高性能、可重复的分析。数据湖用于问题开发和实验。数据网格则用于使用带有治理监督的分布式数据。因此,它们之间没有混淆。”

专家们采用双重策略,但坚持单一平台。通常有两种策略:一种针对产品,另一种针对分析。每种策略都有自己的核心枢纽平台,并支持多个数据存储库。然后在两个核心枢纽之间有一个ETL(提取、转换、加载)平台。

然而,目前还没有任何供应商能提供一个独立成为完整平台的解决方案。

在多个数据存储库方面,它不是集中数据,而是集成数据。关键在于如何将所有数据集成并可视化,以及如何将其连接到其他系统。

集中所有数据会带来成本、管理和安全问题。数据被锁定在业务线应用程序中,在办公场所和云生态系统中。连接数据所在位置有助于降低风险,提高洞察速度。这不是一个单一供应商解决方案的故事。一些企业提供查询功能,但治理故事尚未被充分讲述。在大数据中,移动数据是一个挑战。多平台是常态。如果幸运的话,可以将工具和技能标准化。

因此,数据结构是一种数据管理概念,旨在实现灵活的、可重用的和增强的数据集成管道、服务和语义,以支持跨多个部署和编排平台交付的各种操作和分析用例。

确保遵守数据治理和数据隐私规则

为了有效地管理数据,企业必须清楚地了解自己拥有哪些数据。组织需要了解他们的数据湖或数据结构中有哪些类型的数据。如果个人身份信息(PII)参与了一个特定的应用程序或新的努力,企业需要指派一名高管监督个人数据的适当使用。高管还可以帮助解决数据的可行性和适用性问题。

管理人员扮演着至关重要的治理角色。因此,定义“管理员”的角色至关重要,他们的职责是在信息的最初来源处访问和管理信息的更正。他们从业务团队中轮换出来,制定关键绩效指标(KPI)。

预先定义管理员的角色,并知道如何在过程中与他们沟通是重要的。获得管理员对用户体验设计的反馈也很重要。

云计算技术对大数据战略的影响

云计算正在成为计算和存储的另一种形式,而不仅仅是一个独立的环境。云管理和可见性至关重要。假设云计算是一种快速消耗预算的方法是不正确的。在许多情况下,没有理由将一些应用程序迁移到云端。能够在云上立即对概念和实验进行验证是非常重要的。

云计算允许组织尝试新事物,并根据需要增加或减少计算能力,而无需等待物理设施的完成。

数据过程的成熟度

流程需要明确定义术语的基础。从事务系统开始是至关重要的。如果数据一开始就是错误的,那么就需要花费大量时间来清理和增强数据。

在促进数据共享场景的领域,如数据读写能力,需要大部分成熟度。数据操作可以帮助提高弹性,但它仍然是一种压倒性的技术实践。

结语

显然,大数据正处于分析师所说的“幻灭低谷”。尽管数据驱动型公司将是长期赢家,但仍有工作要做。

获胜者需要进行数据治理,以使数据足够用于任务并保护数据。他们还需要改进数据处理过程。数据操作和数据治理可以一起提供帮助。

点赞(126)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部