数据意味着什么(知识图谱和机器学习)
如果有更好的建议或者想看更多关于综合百科技术大全及相关资讯,可以多多关注茶馆百科网。

语义和DataFabric的新进展如何帮助我们更好地进行机器学习
介绍
如果你在网上搜索机器学习,你会找到大约2.05亿个结果。确实如此,但是要找到一个适合每个用例的描述或定义并不容易,但是会有一些很棒的描述或定义。在这里,我将提出机器学习的另一个定义,重点是新范式——DataFabric[1]。在
1什么是DataFabric?
讨论DataFabric的时候,要提到几个词:图、知识图、本体、语义、关联数据。在你理解了这些定义之后,我们可以说:DataFabric是支持企业所有数据的平台,它作为一个统一的框架来管理、描述、组合和访问数据。该平台由企业知识图谱构成以创建统一的数据环境。
让我们把这个定义分成几个部分。我们首先需要的是知识图谱。
知识地图由数据和信息组成,也包含大量不同数据之间的链接。这里的重点是,在这种新模式下,我们不是在寻找可能的答案,而是在寻找确定的答案。我们想要的是事实——。这些事实从何而来并不重要。这里的数据可以代表你头脑中的概念、物体、事物、人和任何东西。图表中充满了概念之间的关系和联系。
知识地图还允许您为图表中的关系创建结构。有了它,可以建立一个框架来研究数据及其与其他数据的关系。
在这种情况下,我们可以向我们的数据湖:这里存在什么?.提出这个问题
数据湖的概念也很重要,因为我们需要一个地方来存储数据、管理数据和运行我们的任务。但我们需要一个智能数据湖,一个我们可以了解我们拥有什么以及如何使用它的地方,这是拥有DataFabric的好处之一。
DataFabric应该是统一的,也就是说我们要尽量把组织中的所有数据都组织在一个地方,真正的管理起来。
2什么是机器学习?
机器学习已经存在很久了,关于它的描述、书籍、文章、博客也很多,我就不在太多章节描述了,只说清楚一些点。机器学习不是魔法。机器学习是数据科学工作流程的一部分。机器学习需要数据的存在,至少目前是这样。之后,我来给机器一个有点借用和个性化的定义:
机器学习是一种自动的过程,通过使用算法来理解数据中的模式和一些数据表示,这些算法能够提取那些模式,而无需专门为此编写程序,从而创建能够解决特定(或多个)问题的模型。
你可以同意也可以不同意这个定义。目前的文献中有很多很好的定义。我只是觉得这很简单,对我想表达的东西很有用。
3在DataFabric中进行机器学习
在爱因斯坦的引力理论(广义相对论)中,他从数学上提出质量可以使时空变形,这种变形就是我们理解的引力。我知道如果你不熟悉这个理论,听起来会很奇怪。让我解释一下。在没有引力的狭义相对论平行时空里,力学定律呈现出特别简单的形式。物体只要没有外力作用,就会沿直线匀速穿过时空(牛顿力学第一定律)。
但是当我们有质量和加速度时,我们可以说我们在重力下。就像惠勒说的,
SpacetimetellsmatterhowtomoveMattertellsspacetimehowtocurve。(时空讲述物质如何运动;物质告诉时空如何弯曲。)
在上图中,& quot立方体& quot是时空结构的代表。当一个物体在其中运动时,它会变形。的方式& quotline & quot移动将告诉我们一个接近的物体将如何接近那个物体。所以引力就像下面的:
所以当我们有质量时,我们可以制造一个& quot登特& quot在时空中。之后,当我们接近那个凹痕时,我们看到重力。我们必须离物体足够近才能感觉到它。
这正是我提到的机器学习在DataFabric中的作用。我知道这听起来很疯狂,让我解释一下。
假设我们创建一个DataFabric,对我来说最好的工具是Anzo。
您可以使用Anzo构建一个所谓的& quot企业知识地图& quot当然还有创建你的数据织物。
图表的节点和边灵活地捕捉每个数据源的高分辨率孪生——,结构化或非结构化。这个图表可以帮助用户快速地、交互式地回答任何问题,并允许用户与数据进行对话,从而发现& quot见解& quot的问题。
顺便说一下,这是我如何描述一个& quot洞察力& quot:
如果我们有DataFabric:
我的建议是& quot洞察力& quot可以认为是一个凹痕。发现了
这种“洞察力”(insight)的自动过程,就是机器学习。所以现在我们可以说:
机器学习是一种自动发现DataFabric中隐藏的“洞察力”(insight)的过程,它使用的算法能够发现这些“洞察力”(insight),而无需专门为此编写程序,从而创建模型来解决特定(或多个)问题。
使用fabric生成的“洞察力”(insight)本身就是新数据,作为fabric的一部分而变得明确。也就是说“洞察力”(insight)可以扩增图,可能会产生进一步的“洞察力”(insight)。
在DataFabric中,我们遇到了一个问题,试图在数据中找到那些隐藏的“洞察力”(insight),使用机器学习我们可以发现它们。这在现实生活中会是什么样子?
CambridgeSemantics研究人员也用Anzo给出了答案,使用Anzo进行机器学习的解决方案用一个现代化的数据平台取代了这种单调乏味、容易出错的工作,该数据平台旨在快速集成、协调和将来自所有相关数据源的数据转换为优化的机器学习特性数据集。
DataFabric提供了高级数据转换功能,这是快速有效的特性工程所必需的,可以帮助将关键的业务信号从无关的噪声中分离出来。
记住,数据是第一位的,这个新的范示使用内置的图形数据库和语义数据层集成和协调所有相关的数据源——结构化和非结构化数据都是如此。DataFabric传递数据的业务上下文和含义,使业务用户更容易理解和正确使用数据。
重现性(reproducibility)对于数据科学和机器学习非常重要,因此我们需要通过管理数据集目录以及数据集成等方面,像数据质量处理,来轻松地重用和协调结构化和非结构化数据,这就是DataFabric所提供的。它还保留了包含机器学习数据集的数据的端到端的起源,因此在生产中使用模型时很容易找出所需的数据转换。
在接下来的文章中,我将给出一个关于如何在这个新框架中进行机器学习的具体例子。
4总结
机器学习并不新鲜,但它有一个新的范式,也许这就是这个领域的未来(这么说可能有点乐观)。在DataFabric内部,提出了本体、语义、层次、知识图谱等新概念;但所有这些都可以改善我们思考和进行机器学习的方式。
在这个范式中,我们通过使用算法来发现DataFabric中隐藏的“洞察力”(insight),这些算法能够发现这些“洞察力”(insight),而无需专门为此编写程序,从而创建模型来解决特定(或多个)问题。
下一篇我们将为大家介绍DataFabric上的深度学习。
本文主要介绍了关于数据意味着什么(知识图谱和机器学习)的相关养殖或种植技术,综合百科栏目还介绍了该行业生产经营方式及经营管理,关注综合百科发展动向,注重系统性、科学性、实用性和先进性,内容全面新颖、重点突出、通俗易懂,全面给您讲解综合百科技术怎么管理的要点,是您综合百科致富的点金石。
以上文章来自互联网,不代表本人立场,如需删除,请注明该网址:http://23.234.50.4:8411/article/79930.html