分析师预测 2022:数据管理的未来

分析师预测 2022:数据管理的未来

在 2010 年代,组织敏锐地意识到数据将成为推动竞争优势、差异化和增长的关键因素。但时至今日,让数据发挥作用对于许多(如果不是大多数)组织来说仍然是一项艰巨的挑战。

随着云的成熟,它通过使廉价的存储和海量的处理能力易于访问,已成为数据从业者的游戏规则改变者。我们还看到了数据工作流、流式传输、机器智能和人工智能、开发人员工具、安全性、可观察性、自动化、新数据库等形式的更好的工具。这些创新提高了数据熟练度,但同时增加了从业人员的复杂性。数据湖、数据中心、数据仓库、数据集市、数据结构、数据网格、数据目录和数据海洋正在形成、发展和爆炸式增长。

为了让人们对这片可供选择的海洋提出观点,我们召集了数据分析师社区中的一些最聪明的人,讨论数据管理是如何变化的,以及从业者在 2022 年及以后应该期待什么。

在此突破性分析中,我们将回顾六位数据和数据管理领域最优秀的分析师的预测,他们将展示并讨论他们对 2022 年和本十年前五年的主要预测和趋势。

分析师预测 2022:数据管理的未来

这些经验丰富的分析师包括:前 Gartner 分析师兼 SanjMo 负责人 Sanjeev Mohan;dbInsight 的托尼·贝尔;IDC 研究副总裁 Carl Olofso;Ventana Research 高级副总裁兼研究总监 Dave Menninger;Brad Shimmin,Omdia 人工智能平台、分析和数据管理首席分析师;Constellation Research 副总裁兼首席分析师 Doug Henschen。

预测 1:数据治理成为主流赌注

分析师预测 2022:数据管理的未来

根据 Sanjeev Mohan 的说法:

我相信数据治理现在不仅会成为主流,而且会成为赌注。你提到的所有东西,数据、海洋、数据湖、湖屋、数据结构、网格,共同的粘合剂是元数据。如果我们不了解我们拥有哪些数据并且我们正在对其进行管理,那么我们就无法管理它。因此,我们看到 Informatica 在中断六年后于去年上市。我预测今年我们会看到更多的公司上市。我的赌注是 Collibra,很可能,也可能是 Alation。

我还预测数据治理的范围将不仅仅局限于数据。这不仅仅是数据和报告。我们将看到更多的转换,比如 Spark、Python 甚至 Air Flow。我们将看到更多的流数据。例如,Kafka Schema Registry。我们将看到 AI 模型成为整个治理套件的一部分。

治理套件将非常全面,包括详细的沿袭、影响分析,甚至扩展到数据质量。我们已经看到公司购买小公司并引入数据质量监控并将其与元数据管理、数据目录以及数据访问治理集成的一些工具会发生这种情况。

所以我们将看到的是,一旦数据治理平台成为这些现代架构的关键入口点,我预测数据目录的使用和用户数量将超过 BI 工具。这需要时间,但我们已经看到了这一轨迹。

我们打开了评论的预测,以下是值得注意的:

Doug Henschen 虽然普遍同意 Sanjeev 对治理重要性的看法,但认为我们仍然远离主流。他的观点是,很少有组织实施良好的治理,因为这很困难,而且缺乏激励措施。他确实指出,ESG(环境、社会和治理)授权可能是催化剂,就像在金融监管中一样。这将需要更严格的治理,但他的感觉是,在主流采用之前我们还有很长的路要走。

Brad Shimmin 补充说,他很乐意相信数据目录会是答案,但迄今为止,它们已成为特定领域用例的元数据孤岛,例如网络安全或数据质量。对违规行为的处罚(例如罚款)通常比修复治理成本更低。但随着新公共政策的出现,我们可能会看到更严格的指导方针出台,这将加速这一预测。

预测二:数据网格今年面临严峻现实

分析师预测 2022:数据管理的未来

这是托尼·贝尔的预测:

数据网格的想法是在几年前由 ThoughtWorks 首次提出的,媒体几乎一致不加批判。一个很好的理由是我们刚刚谈到的基本上是 Sanjeev、Doug 和 Brad 的所有问题,即我们拥有所有这些数据,但我们不知道该怎么做。现在,这不是一个新问题。这是我们在企业数据仓库中遇到的问题,也是我们在 Hadoop 集群中遇到的问题。现在更成问题的是数据在云中,数据不仅在您的数据湖中,而且到处都是。它包括流媒体,我知道我们稍后会谈到。所以数据网格是对这个问题的回应。基本上数据网格是一种架构模式和一个过程。

我对今年的预测是,数据网格将成为冷酷的现实。数据网格被视为一个非常具有革命性的新想法。我不认为这是革命性的,因为我们已经讨论过这样的想法。Brad,现在你和我多年前在谈论 SOA 和分散我们所有人时见过面,但那是在应用程序级别。现在我们在数据级别讨论它。现在我们有了微服务。因此,如果我们将云原生应用程序解构为微服务,为什么我们不以同样的方式考虑数据呢?今年我的感觉是,企业会认真看待这个问题。当他们认真看待它时,它会吸引它的第一次真正的严格审查,它会吸引它的第一次强烈反对。

这不一定是坏事。这意味着它正在被认真对待。我认为你会开始看到数据网格上的冷酷光芒的原因是它仍在进行中。你知道,这个想法基本上是几年前的,还有一些相当大的差距。最大的差距在联邦治理领域。现在,联邦治理本身并不是一个新问题。通过联合治理,我们开始弄清楚如何在企业策略、一致的企业治理之间取得平衡,同时将数据交到理解数据的团队手中。我们如何平衡两者?

在实践和知识方面存在巨大差距。同样在较小程度上,存在技术差距,基本上是自助服务技术,这些技术将帮助团队从本质上管理数据;贯穿整个生命周期,从开发到选择数据,从构建管道到确定访问控制,查看质量,基本上查看数据是否新鲜或趋势是否偏离轨道。

所以我的预测是,它将在今年受到第一次严格的审查。您将看到一些组织和企业在构建一些联合查询实现时宣布过早的胜利。您将看到供应商开始对他们的产品进行“数据网格清洗”,无论是流水线工具、ELT [提取、转换、加载过程]、目录还是联合查询工具。供应商将宣传他们如何支持数据网格。希望没有人会称自己为数据网格工具,因为数据网格不是一种技术。

我们将看到另一件事由此而来。这可以追溯到 Sanjeev 所说的元数据和数据目录。元数据将成为新的焦点。我认为这会激发人们对数据结构的兴趣。现在数据结构的定义非常模糊,但如果我们只采用最基本的定义,即常见的元数据背板,我认为如果有人要认真对待数据网格,他们需要查看数据结构,因为我们一天结束时,所有人都需要从同一张乐谱中阅读。

一般来说,小组在这个话题上意见不一。

Dave Menninger 说,我们需要更好地定义我们一直在讨论的这些重叠术语,例如数据网格、数据结构和数据虚拟化。Menninger 分享了 Ventana 关于数据虚拟化的一些调查数据,称 79% 的组织使用虚拟化访问其数据湖感到满意。在未使用虚拟化访问其数据湖的组织中,只有 39% 表示满意。

Sanjeev Mohan 有不同的看法。他说,数据网格已经按照其 四个原则进行了定义:域所有权、数据即产品、自助数据平台和联合计算治理。他建议将讨论提升到另一个层次。他还强调,数据网格是一种商业概念,而数据结构是一种数据集成模式。他的观点是,两者确实没有可比性。

为此,Mohan 认为我们需要将数据网格降低到理解水平,例如,数据产品是什么样的,以及如何处理跨域共享数据以及如何处理治理。他相信我们将在 2022 年看到更多数据网格的可操作化。

预测 3:注意图形数据库

分析师预测 2022:数据管理的未来

IDC 的 Carl Olofson 详细解释了图数据库,并在他的预测中列出了几个用例,如下所示:

我认为图数据库是下一个真正革命性的数据库管理技术。我很期待我们尚未定义的图形数据库市场,所以我在这里有一点回旋的余地。但这个市场在未来 10 年将增长约 600%。现在,10年是很长的时间。但在接下来的五年里,随着人们开始学习如何使用它,我们预计会逐渐增长。问题不在于它没有用;就是人们不知道如何使用它。因此,在我进一步解释什么是图形数据库之前,让我解释一下。

图数据库根据称为图的数学结构组织数据。该图具有称为节点和边的元素。所以一个数据元素落入一个节点,节点由边连接,边将一个节点连接到另一个节点。边的组合创建结构,您可以分析这些结构以确定事物之间的关系。在某些情况下,节点和边可以附加属性,从而添加额外的信息材料,使其更丰富。这称为属性图。

图数据库有两个主要用例。有语义属性图,用于将人类语言文本分解为语义结构。然后您可以搜索、整理并回答复杂的问题。很多人工智能都是针对语义图的。

另一种是我刚才提到的属性图,它的用例数量令人眼花缭乱。

我想指出,当我谈到这个时,人们可能会想,我们有关系数据库,这还不够好吗?关系数据库支持我所说的定义关系。这意味着您在固定结构中定义关系。数据库进入该结构,存在将一个表与另一个表相关联的外键值,并且该值是固定的。你不改变它。如果你改变它,数据库就会变得不稳定,不清楚你在看什么。在图形数据库中,系统旨在处理更改,以便它能够反映其用于跟踪的事物的真实状态。

所以让我给你一些用例的例子。它们包括实体解析、数据沿袭、社交媒体分析、客户 360、欺诈预防、网络安全……供应链是一个大问题。有可解释的人工智能,这将变得很重要,因为很多人都在采用人工智能。但他们想要一个事后的系统说,人工智能系统是如何得出这个结论的?它是如何提出这个建议的?现在我们还没有很好的方法来跟踪它。通常还有机器学习。

然后我们有数据治理、数据合规性、风险管理。我们有推荐,我们有个性化,反洗钱,这是另一个重要的,身份和访问管理。网络和 IT 运营已经成为您实际规划运营的关键之一,无论它是什么,您的数据中心,并且您可以跟踪那里发生的事情。还有根本原因分析,欺诈检测是一个巨大的问题。

许多主要信用卡公司使用图形数据库进行欺诈检测、风险分析、跟踪和追踪转向分析、下一个最佳行动、假设分析、影响分析、实体解析。我会在此列表中添加另一件事或仅添加其他几件事。元数据管理很重要。在我的前世,我从事元数据管理很长一段时间,我发现的一件事是,我们可用的数据管理技术都不能有效地处理元数据,因为它会产生各种结构。但是图表可以。图表可以做一些事情,比如说,这个术语在这个上下文中意味着这个,但在那个上下文中,它意味着那个。

也因为它处理递归关系——通过递归关系,我的意思是拥有其他相同类型对象的对象——你可以做一些事情,比如构建材料。例如,零件爆炸。或者你可以做一个人力资源分析,谁向谁报告,链条上有多少层等等。您可以使用关系数据库来做到这一点,但这需要大量的编程。事实上,你几乎可以用关系数据库做任何这些事情,但问题是,你必须对其进行编程。数据库不支持它。并且每当您必须对某些东西进行编程时,这意味着您无法跟踪它,您无法定义它。您无法根据其功能发布它,而且随着时间的推移,它真的非常难以维护。

根据 Omdia 的 Brad Shimmin 的说法,图数据库已经扰乱了市场。他指出,大多数银行都在使用图形数据库来控制欺诈检测。他说这是真正解决卡尔提到的许多问题的最好的,也许是唯一的方法。Shimmin 说图形数据库的致命弱点在于它们与非常专业和独特的用例相关联。

此外,根据 Shimmin 的说法,技术上的图形数据库是完全不同的。例如,您不能只使用 SQL 并查询它们。这使得缩放成为一个问题,特别是对于属性图来说,因为它的唯一性、专门的元数据、复杂性和数据量。Olofson 补充说,由于这种复杂性,单个服务器无法处理该问题,因此范围跨越网络,这会引入延迟。

Sanjeev Mohan 补充说,根据 DB-Engines 的数据,到 2022 年 1 月,数据库排名列表中有 381 个数据库。最大的类别是 RDBMS。第二大类实际上分为两种:属性图和IDF图。这两个共同构成了第二大数据库。所以另一个大问题是有太多的图形数据库可供选择。

预测 4:流式传输成为处理数据的默认方法

分析师预测 2022:数据管理的未来

根据 Ventana 的 Dave Menninger 的说法:

我想说历史数据库将成为过去。我并不是说他们会消失,这不是我的意思。我的意思是,我们需要历史数据库,但流数据将成为我们处理数据的默认方式。因此,在接下来的三到五年内,我预计数据平台——我们使用数据平台这个术语来代表数据库和数据湖的演变——将整合这些流媒体功能。我们将在数据流入组织时对其进行处理,然后将其滚入历史数据库。

历史数据库不会消失,但它们已成为过去。它们存储以前发生的数据。随着数据的出现,我们将对其进行处理,我们将对其进行分析,我们将对其采取行动。我的意思是,我们最终只能使用历史数据库,因为我们受到可用技术的限制。

数据不会成批出现。但我们分批处理它,因为这是我们能做的最好的。这还不错,我们继续改进,我们改进了,我们改进了。但今天的流数据仍然是个例外。这不是规则。组织内有处理流数据的项目。但这还不是我们处理数据的默认方式。

所以我的预测是,这将会改变,我们将让流数据成为我们处理数据的默认方式,以及你如何标记它以及你如何称呼它。也许这些数据库和数据平台只是进化到能够处理它。但我们将以不同的方式处理数据。我们的研究表明,在我们的分析和数据基准研究中,大约一半的参与者已经在使用流数据。另外三分之一正计划使用流媒体技术。因此,我们发现大约十分之八的组织需要使用这项技术。

这并不意味着他们必须在整个组织中使用它,但它在今天的使用中非常普遍,并且还在继续增长。如果您考虑 IT 的消费化,我们都习惯于期望立即访问信息和立即响应。我们想知道某件商品是否在我们当地零售店的货架上,我们可以立即进去取货。这就是我们生活的世界,并且正在蔓延到企业 IT 世界。我们必须提供这些相同类型的功能。

所以这就是我的预测:历史数据库将成为过去,流数据成为我们处理数据的默认方式。

正如 Carl Olofson 所指出的,所有数据库都存储历史记录。他不认为处理历史数据会消失。我们仍然需要进行工资核算和会计处理并提交纳税申报表。但就主要用例而言,越来越多的流媒体将变得更加主流。传统方法和流媒体将相得益彰。

Tony Baer 认为流媒体不会很快成为默认设置,但他确实看到了流媒体、事务数据库和分析数据平台之间的融合。他认为用例需要这些实时功能,而云原生架构允许我们在技术上融合。例如,您可以让一个节点进行实时处理,同时进行预测分析,与其他客户数据相关联。

该小组的共识是,流媒体将变得更加重要,并且在价值等式中占据更大的份额。它需要一些时间才能真正成为默认模型。数据库类型正在融合,并且出现了一个范围,您可以在其中拥有历史批处理、低延迟的近实时和实时流,以支持新的用例,例如边缘的 AI 推理。

预测五:人工智能变得隐形并引起反弹

分析师预测 2022:数据管理的未来

根据 Omdia 的 Brad Shimmin 的说法:

我认为我们已经看到 AI 中的自动化已经有一段时间了。它帮助我们做了很多事情,尤其是对于在企业中构建 AI 成果的从业者。它帮助他们填补了技能空白,帮助他们加快了开发速度,并帮助他们真正让 AI 变得更好。在某些方面,它提供了一些泳道,例如,使用 AutoML 等技术可以自动记录并创建我们之前讨论过的那种透明度。

但是这种自动化的想法正在发生一种有趣的转换。这就是因为我们已经开始为从业者实现自动化,它试图超越传统的界限,比如尝试获取我的特征、选择正确的算法、构建正确的模型。它正在整个生命周期中扩展到构建人工智能成果,从数据的最开始开始,然后一直持续到最后,这是该成果的持续交付和持续自动化,以确保它是正确的,它没有漂流之类的东西。

正因为如此,因为它变得非常强大,我们开始真正看到这种奇怪的事情发生在从业者开始与用户融合的地方。也就是说,例如,如果我现在在 Tableau 中,我可以支持 Salesforce Einstein Discovery,它会根据我提取的数据自动为我创建一个很好的预测算法。但是什么开始发生了– 我们从创建商业软件的公司(例如 Salesforce、Oracle、SAP 等)身上看到这一点 – 他们开始实际使用这些相同的理想和大量深度学习来基本上站稳脚跟 –开箱即用的翻转开关,您就可以为业务用户准备好 AI 结果。

我认为这就是它的发展方向,这意味着人工智能正在慢慢消失。我不认为这是一件坏事。我认为,如果有的话,我们将在 2022 年甚至到 2023 年看到这种急于将人工智能消失的想法付诸实践并在企业中拥有尽可能多的此类解决方案的冲动。例如,您可以看到,SAP 将在本季度推出这种称为自适应推荐服务的东西,它基本上是一种冷启动 AI 成果,可以在一大堆不同的垂直市场和用例中工作。它只是一个推荐引擎,用于您在业务中需要做的任何事情。所以基本上,你是一个 SAP 用户,有一天你打开你的软件,你是一个销售专家,比如说,突然你有一个关于客户流失的建议。

繁荣!那太棒了。嗯,我不知道,我觉得这很可怕。在某些方面,我认为人工智能将像那样消失是未来,但我绝对害怕它,因为我认为它真正的作用是引起人们对我们已经看到的围绕人工智能的许多问题的关注,具体到我们在 Omdia 喜欢称之为“负责任的人工智能”的想法。

你如何建立一个没有偏见、包容、公平、安全、可靠、可审计等的人工智能结果。因此,如果您想象一个 Salesforce 客户,比方说,他们正在他们的销售软件中打开 Einstein Discovery,您需要一些指导来确保当您切换开关时,您将获得的结果是正确的。

这需要一些工作。因此,我认为我们将看到这一举措,让我们推出这一举措,突然间会有很多问题,我们会看到很多阻力。其中一些将来自 GDPR 和 Sanjeev 之前提到的其他内容。其中很大一部分将来自公司内部的 CSR 要求,他们会说:“嘿,嘿,哇,等等,我们不能一下子做到这一切。让我们走慢路,让人工智能以智能的方式自动化。”

这需要时间。

Shimmin 还描述了缺乏可以作为公司更好地理解 AI 的指导方针的标准。对于那些没有内部数据科学团队的公司来说,这一点尤其重要,因为他们没有了解人工智能何时嵌入到流程或工作流中,系统实际上会正常运行。

Olofson 进一步指出,人工智能存在一些棘手的问题。特别是,人类是有偏见的,而为人工智能系统提供的数据通常会产生固有的偏见。因此,在涉及道德和法律问题时,我们需要特别小心,而不是简单地让机器来决定。

预测 6:Lakehouse 将成为 2022 年的主要数据管理产品

分析师预测 2022:数据管理的未来

Constellation Research 的 Doug Henschen 阐述了他的预测如下:

我的预测是,Lakehouse 以及这种将数据仓库和数据湖平台相结合的想法将成为主要的数据管理产品。我说供养。这并不意味着它将成为组织采用的主要产品,但它将成为 2022 年的主要供应商产品。

进入 2021 年,我们已经有 Cloudera、Databricks、微软、Snowflake 作为支持者。SAP、甲骨文和其中一些结构虚拟化/网格供应商加入了这一行列。承诺是您拥有一个管理结构化、非结构化和半结构化信息的平台。它同时满足 BI 分析需求和数据科学需求。

真正的承诺是简单和低成本。但我认为最终用户必须回答几个问题。

首先是,您的组织是否真的有数据重心,或者数据是否高度分布?多个数据仓库、多个数据湖、本地、云。如果它非常分散并且您很难整合,而这对您来说并不是真正的目标,那么也许那个单一平台是不切实际的并且不太可能为您增加价值。还有结构和虚拟化供应商,网格理念,如果你有这种高度分布式的情况,那可能是一条更好的前进道路。

第二个问题,如果您正在查看其中一个 Lakehouse 产品,并且正在考虑整合、简化、整合到一个单一平台,则如下:您必须确保它同时满足仓库需求和数据湖需求. 你有像 Databricks 和微软这样的供应商使用 Azure Synapse。这些对于数据仓库领域来说确实是新事物,他们必须证明其平台上的这些数据仓库功能能够满足扩展要求,能够满足用户和查询并发要求,能够满足那些严格的服务级别协议。

另一方面,Oracle、SAP、Snowflake、数据仓库人员进入数据科学世界,他们必须证明他们可以管理非结构化信息并满足数据科学家的需求。我从仓库人群中看到了很多 Lakehouse 产品,以列和行的形式管理非结构化信息。其中一些供应商,尤其是 Snowflake,确实依赖合作伙伴来满足数据科学的需求。

因此,您确实必须查看 Lakehouse 产品,并确保它同时满足仓库和数据湖的要求。

如果数据仓库和数据科学的世界融合在一起,似乎需要一个语义层来促进这一愿景。也许像 AtScale 或其他一些虚拟化平台这样的公司将成为 2022 年的收购目标,以加速这种融合。

看起来 Lakehouse 的术语实际上是一个供应商术语。Dave Menninger 更喜欢术语数据平台,因为它是一个更加与供应商无关的概念。他分享了来自 Ventana 调查的以下数据:

  • 25% 的组织已经在其数据湖中整合了数据仓库功能;
  • 大约 25% 从他们的数据仓库提供数据湖;
  • 大约 25% 的数据来自数据湖。

有一个广泛的融合趋势,尽管在亚马逊网络服务公司的案例中,它在高度专业化的数据存储方面非常成功。因此,专业和同类最佳套件与集成套件之间的持续辩论将继续进行。

快速拍摄

总而言之,我们要求每位分析师用简短的版本总结他们的预测。以下是他们的保险杠贴纸预测:

Sanjeev Mohan:治理成为主流。

Tony Baer:对数据网格的现实检查,希望没有供应商称他们提供数据网格产品。

Carl Olofson:图数据库是数据的瑞士军刀,将成为许多新兴用例的最佳选择。

Dave Menninger:快速思考——这是我们生活的世界,流数据最终将成为默认设置。

Brad Shimmin:想得快但想得慢……信任但要验证。

Doug Henschen:整合和简化将占上风,这将推动单一平台的吸引力,对象存储将成为常态。此外,ESG 将与 GDPR 之类的东西并驾齐驱,以加大数据治理的力度。

本文为作者 大咖说 独立观点,并不代表 我是CIO 立场。

发表评论

登录后才能评论