支架表 发表于 2018-01-28 | 分类于 dw 支架表看起来和雪花模式有些类似。采用支架表的原因是:1、支架表中的维度没有基本维度表中的分析价值大,使用也不是很频繁。2、其次如果有维度在基本维度中有很大的冗余(基本维度记录中都含有重复字段),那么将不常用的放到支架表中可以节省空间。备注:可以使用支架表,但是只可偶尔为之,不要常用。如果您的设计包含 ... 阅读全文 »
阿里onedata 发表于 2018-01-28 | 分类于 dw OneData体系分为:1、数据规范定义体系2、数据模型规范设计3、ETL规范研发以及支撑整个体系从方法到实施的工具体系。 落地实现数据规范定义将此前个性化的数据指标进行规范定义,抽象成:原子指标、时间周期、其他修饰词等三个要素。例如,以往业务方提出的需求是:最近7天的成交。而实际上,这个指标在 ... 阅读全文 »
hiveserver2 jdbc 发表于 2018-01-28 | 分类于 hive 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798 ... 阅读全文 »
hive使用和优化 发表于 2018-01-28 | 分类于 hive Map数12345678910111213141516171819mapred.map.taskes=10;(1)默认map个数default_num = total_size / block_size;(2)期望大小goal_num = mapred.map.casks;(3)设置处理的文件大小s ... 阅读全文 »
flink vs spark 发表于 2018-01-28 | 分类于 flink Spark 微批处理 vs Flink 流计算Apache Flink是一个统一流处理与批处理的框架。由于流水线数据在并行任务之间进行传输(包括数据的洗牌shuffles),flink在运行时支持流处理与批处理。数据被立刻的传输从生产数据的任务到接受数据的任务(在网络传输中被收集在一个缓存中,然后 ... 阅读全文 »
状态计算 发表于 2018-01-28 | 分类于 spark spark流计算的数据是以窗口的形式,源源不断的流过来的。如果每个窗口之间的数据都有联系的话,那么就需要对前一个窗口的数据做状态管理。spark有提供了两种模型来达到这样的功能,一个是updateStateByKey,另一个是mapWithState ,后者属于Spark1.6之后的版本特性,性能是 ... 阅读全文 »
幂等操作 发表于 2018-01-28 | 分类于 spark 最近很多人都在谈论幂等性,好吧,这回我也来聊聊这个话题,光看着俩字,一开始的确有点一头雾水,语文不好嘛,词太专业嘛,对吧 现如今我们的系统大多拆分为分布式SOA,或者微服务,一套系统中包含了多个子系统服务,而一个子系统服务往往会去调用另一个服务,而服务调用服务无非就是使用RPC通信或者rest ... 阅读全文 »
Spark Streaming如何应对 Exactly once 语义(kafka) 发表于 2018-01-28 | 分类于 spark Spark Streaming(以下简写SS)Exactly once语义(以下简写EO) 首先EO表示可以精准控制到某一条记录,但由于SS是基于rdd和batch的,所以SS的EO可以认为是针对一个批次的的精准控制(控制各个批次间是否重复和漏读)。涉及到三部分都保证 exactly once ... 阅读全文 »
Hive小文件合并 发表于 2018-01-26 | 分类于 hive HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。 如果有1千万个文件,就需要消耗大约3G的内存空间。如果是10亿个文件呢,简直不可想象。所以我们要了解一下,hadoop 处理小文件的各种方案,然后选择一种适合的方案来解决本的小文件问题。 此 ... 阅读全文 »
awk 发表于 2018-01-26 | 分类于 shell awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息awk处理过程: 依次对每一行进行处理,然后输出 awk命令形式:awk [-F|-f|-v] ‘BEGIN{} // {command1; command2} ... 阅读全文 »