咨询热线

HASHKFK

新闻资讯
您当前的位置: 首页 > 新闻资讯 > OD SPORTS
OD体育新闻 OD SPORTS

OD体育官方网站- OD体育APP下载- 世界杯指定投注平台【漫谈数据仓库】如何优雅地设计数据分层SDWDM层级

时间:2025-08-17 20:59:48
更多
  

  od体育官方网站注册网址,od体育app官网下载,od体育最新登录网址,od体育平台,od体育app,od体育app下载,od体育靠谱吗,od体育,od体育下载,od体育官方网站,od体育官网,od体育投注,od体育下注,od体育买球,od体育世界杯,od体育欧洲杯,od体育赛事,od体育开户,od体育注册,od体育登录,od体育入口

OD体育官方网站- OD体育APP下载- 世界杯指定投注平台【漫谈数据仓库】如何优雅地设计数据分层ODSDWDM层级

  ODS 全称是 Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据 源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方 式而分类的。但是,这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如有一条数据中人的年龄是 300 岁,这种属于异常数据,就需要提前做一些处理)、去重(例如在个人资料表中,同一 ID 却有两条重复数据,在接入的时候需要做 一步去重)、字段命名规范等一系列操作。 数据仓库层(DW),是数据仓库的主体.在这里,从 ODS 层中获得的数据按照主题建立各种数据模型。这一层和维度建模会有比较深的 联系,可以多参考一下前面的几篇文章。 数据产品层(APP),这一层是提供为数据产品使用的结果数据

  清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。 数据血缘追踪:简单来讲可以这样理解,我们最终给业务诚信的是一能直接使用的张业务表,但是它的来源有很多,如果有一张来源 表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。 把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据 的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。 屏蔽原始数据的异常。 屏蔽业务的影响,不必改一次业务就需要重新接入数据。

  概念:又称为接口层(stage),用于存储每天的增量数据和变更数据,如Canal接收的业务变更日志。 数据生成方式:直接从kafka接收源数据,需要业务表每天生成update,delete,inseret数据,只生成insert数据的业务表,数据直接入明 细层 讨论方案:只把canal日志直接入缓冲层,如果其它有拉链数据的业务,也入缓冲层。 日志存储方式:使用impala外表,parquet文件格式,方便需要MR处理的数据读取。 日志删除方式:长久存储,可只存储最近几天的数据。讨论方案:直接长久存储 表schema:一般按天创建分区 库与表命名。库名:buffer,表名:初步考虑格式为:buffer日期业务表名,待定。

  概念:轻度汇总层数据仓库中DWD层和DM层之间的一个过渡层次,是对DWD层的生产数据进行轻度综合和汇总统计(可以把复杂的清 洗,处理包含,如根据PV日志生成的会话数据)。轻度综合层与DWD的主要区别在于二者的应用领域不同,DWD的数据来源于生产型 系统,并未满意一些不可预见的需求而进行沉淀;轻度综合层则面向分析型应用进行细粒度的统计和沉淀 数据生成方式:由明细层按照一定的业务需求生成轻度汇总表。明细层需要复杂清洗的数据和需要MR处理的数据也经过处理后接入到 轻度汇总层。 日志存储方式:内表,parquet文件格式。 日志删除方式:长久存储。 表schema:一般按天创建分区,没有时间概念的按具体业务选择分区字段。 库与表命名。库名:dwb,表名:初步考虑格式为:dwb日期业务表名,待定。 旧数据更新方式:直接覆盖

  DWS:轻度汇总层,从ODS层中对用户的行为做一个初步的汇总,抽象出来一些通用的维度:时间、ip、id,并根据这些维度做一些 统计值,比如用户每个时间段在不同登录ip购买的商品数等。这里做一层轻度的汇总会让计算更加的高效,在此基础上如果计算仅7 天、30天、90天的行为的线%的业务都能通过我们的DWS层计算,而不是ODS。 DWD:这一层主要解决一些数据质量问题和数据的完整度问题。比如用户的资料信息来自于很多不同表,而且经常出现延迟丢数据等 问题,为了方便各个使用方更好的使用数据,我们可以在这一层做一个屏蔽。 DIM:这一层比较单纯,举个例子就明白,比如国家代码和国家名、地理位置、中文名、国旗图片等信息就存在DIM层中。 TMP:每一层的计算都会有很多临时表,专设一个DWTMP层来存储我们数据仓库的临时表。

地址:OD体育官方网站(OD SPORTS)竞技游戏展示工作室有限公司   电话:HASHKFK
传真:0896-98589990
ICP备案编号:
Copyright © 2012-2024 OD体育官方网站(OD SPORTS)竞技游戏展示工作室有限公司 版权所有 非商用版本