跳到主要内容

工作表管理

企业使用数据平台的时候经常会碰到以下情况:

  • 数据库的表的字段名都是英文的,利用报表平台导出的数据也是英文的,每次导出都需要去修改字段名。
  • 企业内部每个业务部门对于数据的使用和浏览权限都是不同的,每次都是由技术部门去规范权限,而不是业务部门灵活配置。
  • 业务部门每个人做的操作无法在线共享,只能借助于excel拷贝汇总到一个人处,表是怎样得来的没有一个清晰的路径,出现问题的时候也不能一个个排查,非常麻烦。

对于上面的几种情况,工作表提供了相应的管理能力用于来解决上面提到的几类问题,下面将分别介绍。

数据预览

用户可以在工作列表页选取相应的工作表来进行预览,每一个工作表对应的字段类型,字段名称,字段值,用户都可以在预览页面进行查看,并且根据字段关系进行筛选,筛选方式支持条件过滤和表达式过滤。

数据预览-1.png

筛选一般是用于校验,如果想校验某条或是多条数据是否已经同步到BDP上,可以使用条件筛选或是表达式筛选这两种方式,没有SQL基础的用户可以使用条件过滤来进行数据筛选,有SQL基础的用户可以使用表达式过滤来进行数据筛选。

数据预览-2.png

如果觉得表中字段过多,每次查看都不方便的话,可以使用设置显示字段来设置工作表显示的字段。

数据预览-3.png

关联概况

一张工作表可以用来进行关联,聚合追加合并等操作,那么怎么样看这张表都进行了哪些合表操作呢?工作表的关联概况支持用户查看相关信息。

关联概况-1.png

数据预览-2.png

进行分析的时候,一般汇总成一张数据较全的合表,在仪表盘创建图表,那么这张合表是怎么来的?数据的更新状况又是怎样的?也可以在关联概况的过程视图中进行查看。如果在仪表盘出现数据更新错误的情况,用户可以借助于过程视图中工作表的更新状态进行一级一级的问题排查。

关联概况-3.png

更新记录

更新记录可以查看表的更新情况,如果是合表的话,可以看到基础表的更新情况,基础表都更新后会触发合表的更新,如果合表没有更新或是有问题的话,可以在下方的点击查看异常。

更新记录-1.png

字段设置

从数据库直接同步到BDP后,字段名默认是和数据库名保持一致的,由于数据库的字段名只支持英文,这就非常不方便使用和分析。因此工作表提供了字段设置功能,用户选择想要修改的工作表,点击右上角的编辑,即可修改字段的名称,字段类型以及增加字段描述。

字段设置-1.png

模型结构

对于合表,会增加一个模型结构的选项。在模型结构选项中,用户可以查看这张合表是通过怎样的合表操作生成的,如果需要修改合表方式,点击右上角的编辑页面,即可进入到合表编辑页面,用户可以在里面进行编辑和修改。

模型结构-1.png

工作表文件夹操作

工作表列表页的文件夹目前最多支持二级,文件夹支持重命名,移动至和删除操作。用户把鼠标放到工作表文件夹上,会出现更多的图标。点击图标即可以选择相应的操作。

工作表文件夹操作-1.png

如果需要搜索文件夹可在工作表列表框上方的搜索框里输入文件夹的名字来进行搜索,创建文件夹可以点击列表框上方的添加图标选择创建文件夹来完成操作。

工作表文件夹操作-2.png

工作表操作

工作表支持编辑表名,移动,复制,分配,删除等操作。鼠标移动到工作表上,会出现更多操作的图标,用户点击即可看到支持的几种操作。

工作表操作-1.png

这里着重说一下分配功能,在企业中经常会碰到分享的场景,或是所有的数据都在超级管理员账户下,每个部门的账号的数据表都是要从超级管理员账号下获取。点击分享,会弹出分享对话框,支持分享给用户和组,组的概念在账号下有说明。选择需要分配的账户,点击确定即可将这张工作表分配给勾选的用户,被分配的用户会在自己账号下的工作表列表查看到分配的这张工作表。

工作表操作-2.png

切换工作表类型以及增量合表

企业中对于数据的时效性的需求是不相同的,比如有些数据希望实时能够查看到,有些数据希望隔天能够查看到,针对这几类需求,工作表提供了普通工作表,高性能表和高频更新表三种类型的表格,这里需要提醒一点的是,分享表是不能被分配的人进行这三种类型工作表却换的。

  • 普通工作表:适用于1000万条数据量以下的工作表,数据更新频次最高位1小时。
  • 高性能表:适用于1000万条数据量以上的工作表,支持增量合表,可大幅提升多表关联的运行速度,缩短处理时间。在进行多表关联时,该表只能作为主表,需设置分区字段,数据更新频次最高为1小时。
  • 高频更新表:适用于需要分钟级更新的实时数据监控表,支持数据的追加和清除操作。如果该表被设置为了高频更新表,则该表不能用来进行合表,不支持对数据的修改操作,数据量不超过10万条。

工作表类型.png

工作表类型-2.png

BDP 的增量合表是通过分区字段来实现的,要想实现增量合表,首先要将相关的基础表设置分区字段,然后将工作表类型设置为高性能表。这样在用基础表创建的合表在满足增量合表的条件下,工作表类型会自动切换为高性能表。

当基础表的分区数据变化后,会触发相应的合表更新,而这一次更新过程就是增量的,增量更新可以大大减少合表等待的时间,从而提升效率。

目前多表关联,数据聚合,追加合并,二维转一维,SQL合表都已经支持增量更新,除了SQL合表是在模型里面进行设置以外,其它的只需要修改合表模型里面的主表(类型是基础表,关联模型中左关联的表)的类型即可,将工作表类型由普通工作表转换为高性能表即可,这样通过此表创建的合表是高性能表,或是在合表基础上创建的合表也是高性能表。

另外,实现增量合表还需要满足下面的条件:

  • 关联目前只支持左关联和全关联。
  • 聚合操作要求主表分区字段在维度上,分区粒度要跟主表一致。
  • 追加合并表要求至少有一张高性能表,如果多张的话,要求分区字段在合表的同一列中。