阿里巴巴的日志采集体系方案包括两大体系:Aplus.JS是Web端日志采集技术方案;UserTrack是APP端日志采集技术方案 。在采集技术基础之上 , 阿里巴巴用面向各个场景的埋点规范 , 来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的H5和Native日志数据打通等多种业务场景 。同时 , 还建立了一套高性能、高可靠性的数据传输体系 , 完成数据从生产业务端到大数据系统的传输 。在传输方面 , 采用TimeTunnel(TT) , 它既包括数据库的增量数据传输 , 也包括日志数据的传输;TT作为数据传输服务的基础架构 , 既支持实时流式计算 , 也支持各种时间窗口的批量计算 。另外 , 也通过数据同步工具(DataX和同步中心 , 其中同步中心是基于DataX易用性封装的)直连异构数据库(备库)来抽取各种时间窗口的数据 。(注:其中的相关细节将在后续的“日志采集”和“数据同步”章节中详细说明 。)
2.数据计算层
数据只有被整合和计算 , 才能被用于洞察商业规律 , 挖掘潜在信息 , 从而实现大数据价值 , 达到赋能于商业和创造价值的目的 。从采集系统中收集到的大量原始数据 , 将进入数据计算层中被进一步整合与计算 。
面对海量的数据和复杂的计算 , 阿里巴巴的数据计算层包括两大体系:数据存储及计算云平台(离线计算平台MaxCompute和实时计算平台StreamCompute)和数据整合及管理体系(内部称之为“OneData”) 。其中 , MaxCompute是阿里巴巴自主研发的离线大数据平台 , 其丰富的功能和强大的存储及计算能力使得阿里巴巴的大数据有了强大的存储和计算引擎;StreamCompute是阿里巴巴自主研发的流式大数据平台 , 在内部较好地支持了阿里巴巴流式计算需求;OneData是数据整合及管理的方法体系和工具(注:为方便内部工作及沟通 , 在阿里内部将这一统一的方法体系和工具简称为“OneData”) , 阿里巴巴的大数据工程师在这一体系下 , 构建统一、规范、可共享的全域数据体系 , 避免数据的冗余和重复建设 , 规避数据烟囱和不一致性 , 充分发挥阿里巴巴在大数据海量、多样性方面的独特优势 。借助这一统一化数据整合及管理的方法体系 , 我们构建了阿里巴巴的数据公共层 , 并可以帮助相似大数据项目快速落地实现 。
从数据计算频率角度来看 , 阿里数据仓库可以分为离线数据仓库和实时数据仓库 。离线数据仓库主要是指传统的数据仓库概念 , 数据计算频率主要以天(包含小时、周和月)为单位;如T-1 , 则每天凌晨处理上一天的数据 。但是随着业务的发展特别是交易过程的缩短 , 用户对数据产出的实时性要求逐渐提高 , 所以阿里的实时数据仓库应运而生 。“双11”实时数据直播大屏 , 就是实时数据仓库的一种典型应用 。
阿里数据仓库的数据加工链路也是遵循业界的分层理念 , 包括操作数据层(Operational Data Store , ODS)、明细数据层(Data Warehouse Detail , DWD)、汇总数据层(Data Warehouse Summary , DWS)和应用数据层(Application Data Store , ADS) 。通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化 , 并且对整个过程进行有效的元数据管理及数据质量处理 。
在阿里大数据系统中 , 元数据模型整合及应用是一个重要的组成部分 , 主要包含数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等 。元数据应用主要面向数据发现、数据管理等 , 如用于存储、计算和成本管理等 。
- 风信子的图片大全 好看的风信子图片欣赏
- 什么是疥疮结节图片 啥是疥疮结节
- 小学生精选作文 小学作文素材
- 东南缺角图片 东西两向凹缺角
- 斑鸠豆腐树叶图片 斑鸠豆腐叶是什么树
- 直通车图的制作 直通车神图做法
- 虐心的句子配图片 虐心的说说配伤感图片
- 狮子山风水 狮子山风水分析图解
- 风水尺子 风水学的尺子有多少种图解
- 四十八局水法图解 风水48吉向
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
