当前位置 : 网站首页 > 新闻中心

2019

09-15


来源:

浏览: 114

作者:

空间数据仓库中维度与度量的建模
博士,主要研究方向:数据库知识发现和大型数据库应用。空间数据仓库中维度与度量的建模石磊1,石云(1。郑州大学计算机系,郑州450052中国科学院软件研究所,北京100080),并在两个方面进行扩展,即在测量中添加空间组件到维度。 1简介创建,使用和维护空间数据仓库的技术与传统数据仓库有很大不同。传统的数据仓库在处理空间数据方面存在很大的局限性。它们需要在结构和功能上得到扩展,以便很好地应用于空间决策分析。由于星/雪结构提供了简单且有组织的操作数量,因此基本框架仍可用于空间数据仓库的建模。相比之下,星形结构更简洁,易于操作OLAP,并且易于浏览。它比雪花结构更适合空间数据仓库建模。因此,本文采用星形结构设计逻辑数据仓库。 。二维建模2.1维度类型可以在空间数据仓库中创建三种类型的维度:非空间维度仅包含非空间数据的维度,其广义值也是非空间维度。空间 - 非空间维度这种类型的维度以原始概念层面的空间数据为特征,但其广义值在更高层次上变为非空间。例如,在保险公司中,地图上的各个保单持有人的分布以空间数据表示,并且这些保单持有人数据可以推广到一些非空间值,例如对保险公司分支的概括。保单持有人的更高层次的泛化价值都成为非空间数据。这种类型的维度与非空间维度起着类似的作用。空间 - 空间维度原始概念层次结构及其所有高级概括数据是空间数据。例如,每个保单持有人及其概括数据的详细分布,例如单元中每个保单持有人的分布,邮政编码区域中的分布以及每个管理区域中的分布都是空间数据。前两个案例说明:对于空间属性,有很多方法可以将它概括为高级概念。概括的高级概念可以是空间描述,诸如表示更大区域的地图,或非空间描述,诸如区域的区域的一般描述。生成2.2维度的方法有三种:专家/用户是根据属性之间的关系还是特定数据值之间的关系来指定的?使用空间数据分析技术(如空间聚类,空间分类或空间相关性分析)自动生成?计算的度量标准用作数据仓库中的一维用途,称为度量折叠维度。例如,每月区域计算机应用程序的溢价可以视为一个维度,并且可以进一步推广到范围值分布或描述值,例如高,中和低保费。 3度量的建模可以在空间数据仓库中建立两种类型的度量:3.1数值度量仅包含数值数据的度量。数值度量可以进一步分为分布式,代数式和整体式。如果可以使用多维数据集分区和分布式聚合计算度量标准,则会对其进行分布,例如count,sum,max。如果度量可以使用分布式度量的代数运算来操作,那么它是代数的,例如平均值,标准偏差,如果一个描述其子聚合的存储空间大小的度量没​​有常量约束,那么它是全局的,例如排名频繁。本文的范围仅限于分布式和代数度量。 3.2空间度量标准空间度量标准包含指向空间对象的指针集合。例如,在概述(或概括)操作中,属于相同优质间隔的区域可以被分组到相同的单元中,使得得到的度量包含指向那些区域的指针的集合。部门维度:经理部门代理经理的时间维度:年份季度保险类型维度:保险类型保险地理维度:城区行政区邮政编码分区单元业务地址分布模型。可以看出,数据仓库包含四个维度:时间维度,部门维度,保险维度和地理维度。其中,时间维度,部门维度和保险类型维度属于非空间维度,地理维度属于空间维度。事实表包括四个指标:溢价,保险金额,赔偿和地理交易,其中保费,保险金额和索赔是数字指标。地理中心是一种空间度量,表示地图上相应区域的空间指针集合。每个维度的概念层次结构如图2所示。它可以由实践中的用户或专家创建,也可以通过数据聚类或数据分析自动生成。 4应用本文采用星形结构进行空间数据仓库的逻辑设计,并在两个方面进行扩展,即在测量和维度中增加空间分量。此外,在空间数据仓库的物理设计中,空间数据立方体模型(也称为空间多维数据库模型)可用于构建空间数据仓库。空间数据立方体包含非空间维度/度量和空间维度/度量。如果空间数据立方体仅包含空间维度而不包含空间度量,则其OLAP操作(如精细切割或概述)与传统数据多维数据集基本相同。然而,空间度量的引入给有效实现多维数据集操作带来了问题。与非空间数据立方体的结构类似,空间数据立方体包含立方体网格。最低级别(basecuboid)表示原始级别上的所有维度(对所有维度进行分组),最高级别(apexpoint)汇总最高抽象级别的所有维度(即聚合中没有分组)。在空间数据立方体中执行精细切割,概览和维度缩减操作会生成不同的长方体,其中长方体中的每个单元格都包含度量值的聚合或空间对象指针的集群。我们知道聚合数值(例如求和,平均等)会产生一个新的数值。但是,将指针聚类到空间对象不一定会生成新的空间对象。如果这些对象的空间指针彼此连接,则它们可以合并为一个大区域。否则,它们只能由一组空间指针表示。每种数字类型的值通常只需要2到8个字节的存储空间,所需的计算时间也很短。然而,空间对象的存储大小为千或兆字节,并且相对于数值。在计算方面,空间对象之间的计算操作(例如合并或重叠)的开销将更加昂贵。空间数据仓库应该能够支持用户在短的响应时间内灵活地执行OLAP操作。由于空间度量的计算成本很大,在空间数据仓库中,需要以物化视图的形式预先计算和存储一些高级立方体,并且响应时间很可能满足用户的需求。计算机应用
分享到: