数据仓库 Archi结构、组件和图表 Concepts

数据仓库 Concepts

数据仓库的基本概念是为公司决策和预测提供单一事实版本。数据仓库是一种信息系统,包含来自单个或多个来源的历史和交换数据。数据仓库 Concepts 简化组织的报告和分析流程。

数据仓库的特点

数据仓库 Concepts 具有以下特点:

  • 面向主题
  • 集成
  • 时变
  • 非易失性

面向主题

数据仓库是面向主题的,因为它提供与主题有关的信息,而不是公司正在进行的运营。这些主题可以是销售、营销、分销等。

数据仓库从不关注正在进行的操作。相反,它强调为 决策。它还通过排除那些无助于支持决策过程的数据,围绕特定主题提供了简单、简洁的视图。

集成

在数据仓库中,集成意味着为来自不同数据库的所有类似数据建立一个通用的度量单位。数据还需要以通用且普遍接受的方式存储在数据仓库中。

数据仓库是通过集成来自大型机、关系数据库、平面文件等不同来源的数据而开发的。此外,它必须保持一致的命名约定、格式和编码。

这种集成有助于有效地分析数据。必须确保命名约定、属性度量、编码结构等方面的一致性。请考虑以下示例:

数据仓库的特点

在上面的例子中,有三个不同的应用程序,分别标记为 A、B 和 C。这些应用程序中存储的信息是性别、日期和余额。但是,每个应用程序的数据存储方式都不同。

  • 在应用程序 A 中,性别字段存储逻辑值,例如 M 或 F
  • 在应用程序B中,性别字段是一个数值,
  • 在应用程序 C 应用程序中,性别字段以字符值的形式存储。
  • 日期和余额也是如此

然而,经过转换和清理过程后,所有这些数据都以通用格式存储在 数据仓库.

时变

与操作系统相比,数据仓库的时间范围相当广泛。数据仓库中收集的数据具有特定的时间段,并提供历史信息。它包含时间元素,无论是显式的还是隐式的。

数据仓库数据显示时间差异的一个地方是记录键的结构。数据仓库中包含的每个主键都应隐式或显式地包含时间元素。例如天、周、月等。

时间差异的另一个方面是,一旦数据插入仓库,就无法更新或更改。

非易失性

数据仓库也是非易失性的,这意味着当新数据输入其中时,以前的数据不会被删除。

数据是只读的,并定期刷新。这也有助于分析历史数据并了解发生了什么以及何时发生。它不需要事务处理、恢复和并发控制机制。

在数据仓库环境中,省略了在操作应用程序环境中执行的删除、更新和插入等活动。数据仓库中仅执行两种类型的数据操作:

  1. 资料载入
  2. 资料存取

以下是应用程序和数据仓库之间的一些主要区别

Opera国内应用 数据仓库
必须编写复杂的程序以确保数据升级过程保持最终产品的高度完整性。 由于没有进行数据更新,因此不会发生此类问题。
数据以规范化形式放置,以确保最小冗余。 数据不是以规范化形式存储的。
需要技术来支持事务、数据恢复、回滚和解决其死锁问题,因为它相当复杂。 它在技术上相对简单。

数据仓库 Archi质地

数据仓库 Archi质地 很复杂,因为它是一个包含来自多个来源的历史和交换数据的信息系统。构建数据仓库层有 3 种方法:单层、两层和三层。数据仓库的 3 层架构解释如下。

单层架构

单层的目的是尽量减少存储的数据量。这个目标是消除数据冗余。这种架构在实践中并不常用。

两层架构

两层架构是数据仓库层之一,它将物理可用源和数据仓库分开。这种架构不可扩展,也不支持大量最终用户。由于网络限制,它还存在连接问题。

三层数据仓库 Archi质地

这是使用最广泛的 Archi数据仓库的结构。

它由顶层、中层和底层组成。

  1. 底层: 数据仓库的数据库位于底层。它通常是关系数据库系统。使用后端工具清理、转换和加载数据到此层。
  2. 中层: 数据仓库中的中间层是使用 ROLAP 或 MOLAP 模型实现的 OLAP 服务器。对于用户来说,此应用层呈现数据库的抽象视图。此层还充当最终用户和数据库之间的中介。
  3. 顶级: 顶层是前端客户端层。顶层是您连接并从数据仓库中获取数据的工具和 API。它可以是查询工具、报告工具、托管查询工具、分析工具和数据挖掘工具。

数据仓库组件

我们将了解数据仓库组件和 Archi数据仓库的结构如下图所示:

数据仓库 Archi质地
数据仓库 Archi质地

数据仓库基于 RDBMS 服务器,它是一个中央信息存储库,周围环绕着一些关键的数据仓库组件,以使整个环境具有功能性、可管理性和可访问性。

数据仓库组件主要有五个:

数据仓库数据库

中央数据库是数据仓库环境的基础。该数据库在 RDBMS 技术。然而,这种实现受到传统 RDBMS 系统针对事务数据库处理而不是数据仓库进行优化这一事实的限制。例如,即席查询、多表连接、聚合会占用大量资源并降低性能。

因此,使用以下列出的数据库替代方法 -

  • 在数据仓库中,关系数据库并行部署以实现可扩展性。并行关系数据库还允许在各种多处理器配置或大规模并行处理器上使用共享内存或无共享模型。
  • 使用新的索引结构来绕过关系表扫描并提高速度。
  • 使用多维数据库 (MDDB) 来克服由于关系数据仓库模型而产生的任何限制。示例:来自 Essbase Oracle.

采购、获取、清理和转换工具 (ETL)

数据采购、转换和迁移工具用于执行所有转换、汇总以及将数据转换为数据仓库中统一格式所需的所有更改。它们也称为提取、转换和加载 (ETL) 工具。

它们的功能包括:

  • 根据监管规定匿名化数据。
  • 消除操作数据库中不需要的数据加载到数据仓库中。
  • 搜索和替换来自不同来源的数据的通用名称和定义。
  • 计算摘要和派生数据
  • 如果缺少数据,请使用默认值填充它们。
  • 对来自多个数据源的重复数据进行去重。

这些提取、转换和加载工具可能会生成 cron 作业、后台作业, Cobol 程序、shell脚本等定期更新数据仓库中的数据。这些工具也有助于维护元数据。

这些 ETL工具 必须应对数据库和数据异构性的挑战。

元数据

元数据这个名字暗示了一些高级技术数据仓库 Concepts。其实很简单,元数据是定义数据仓库的关于数据的数据,用于构建、维护和管理数据仓库。

在数据仓库中 Archi结构方面,元数据起着重要作用,因为它指定了数据仓库数据的来源、用途、值和特征。它还定义了如何更改和处理数据。它与数据仓库紧密相关。

例如,销售数据库中的一行可能包含:

4030 KJ732 299.90

这是一个毫无意义的数据,直到我们查阅元数据告诉我们它是

  • 型号:4030
  • 销售代理编号:KJ732
  • 总销售额 $299.90

因此,元数据是数据转化为知识的必不可少的要素。

元数据有助于回答以下问题

  • 数据仓库包含哪些表、属性和键?
  • 数据从何而来?
  • 数据被重新加载多少次?
  • 清洗后发生了哪些变化?

元数据可以分为以下几类:

  1. 技术元数据:这种元数据包含有关仓库的信息,供数据仓库设计人员和管理员使用。
  2. 业务元数据: 这种元数据包含的详细信息可让最终用户轻松理解存储在数据仓库中的信息。

查询工具

数据仓库的主要目的之一是向企业提供信息以做出战略决策。查询工具允许用户与数据仓库系统进行交互。

这些工具分为四个不同的类别:

  1. 查询和报告工具
  2. 应用程序开发工具
  3. 数据挖掘工具
  4. 联机分析处理工具

1. 查询和​​报告工具

查询和报告工具可进一步分为

  • 报告工具
  • 托管查询工具

报告工具:

报告工具 可进一步分为生产报表工具和桌面报表编写器。

  1. 报告编写器:这种报告工具是专为最终用户进行分析而设计的工具。
  2. 生产报告:此类工具允许组织生成定期运营报告。它还支持大量批处理作业,如打印和计算。一些流行的报告工具是 Brio、Business Objects、 Oracle、PowerSoft、SAS 研究所。

托管查询工具:

此类访问工具通过在用户和数据库之间插入元层,帮助最终用户解决数据库和 SQL 以及数据库结构中的障碍。

2. 应用程序开发工具

有时内置的图形和分析工具不能满足组织的分析需求。在这种情况下,可以使用应用程序开发工具开发自定义报告。

3.数据挖掘工具

数据挖掘是通过挖掘大量数据来发现有意义的新关联、模式和趋势的过程。 数据挖掘工具 用于使该过程自动化。

4. OLAP 工具

这些工具基于多维数据库的概念。它允许用户使用精细而复杂的多维视图来分析数据。

数据仓库总线 Archi质地

数据仓库总线决定了仓库中的数据流。数据仓库中的数据流可分为流入、上流、下流、流出和元流。

在设计数据总线时,需要考虑跨数据集市的共享维度和事实。

数据集市

A 数据集市 是用于将数据传递给用户的访问层。它被视为大型数据仓库的一种选择,因为它需要较少的时间和金钱来构建。然而,数据集市没有标准定义,每个人的定义都不同。

简单来说数据集市是数据仓库的一个分支,数据集市用于对特定用户组创建的数据进行分区。

数据集市可以创建在与数据仓库相同的数据库中,也可以创建在物理上独立的数据库中。

数据仓库 Archi架构最佳实践

设计数据仓库 Archi结构,您需要遵循以下给出的最佳实践:

  • 使用针对信息检索进行优化的数据仓库模型,可以是维度模式、非规范化或混合方法。
  • 在数据仓库中选择适当的设计方法,如自上而下和自下而上的方法
  • 需要确保数据处理快速准确。同时,您应该采取一种将数据整合为单一真实版本的方法。
  • 精心设计数据仓库的数据采集和清理过程。
  • 设计一个元数据架构,允许数据仓库组件之间共享元数据
  • 当信息检索需求接近数据抽象金字塔的底部或需要访问多个操作源时,请考虑实施 ODS 模型。
  • 应该确保数据模型是集成的,而不仅仅是合并的。在这种情况下,你应该考虑 3NF 数据模型。它也是获取 ETL 和数据清理工具的理想选择

结语

  • 数据仓库是一个包含来自单个或多个来源的历史和交换数据的信息系统。这些来源可以是传统数据仓库、云数据仓库或虚拟数据仓库。
  • 数据仓库是面向主题的,因为它提供有关主题而不是组织正在进行的操作的信息。
  • 在数据仓库中,集成意味着为来自不同数据库的所有类似数据建立一个共同的度量单位
  • 数据仓库也是非易失性的,这意味着当新数据输入其中时,以前的数据不会被删除。
  • 数据仓库是时变的,因为数据仓库中的数据具有很长的保质期。
  • 数据仓库主要有5个组件 Archi结构:1)数据库 2)ETL 工具 3)元数据 4)查询工具 5)数据集市
  • 查询工具主要有四类:1. 查询和​​报告工具 2. 应用程序开发工具 3. 数据挖掘工具 4. OLAP 工具
  • 数据采购、转换和迁移工具用于执行所有转换和汇总。
  • 在数据仓库中 Archi结构中,元数据起着重要作用,因为它指定了数据仓库数据的来源、用途、值和特征。