窗口函数

发表于 2018-02-27 | 分类于 flink

Window聚合事件(如：sum，count，etc)在流上的工作方式与批处理中的不同。例如，我们不能够去统计流中的所有元素，因为流一般是无限的（无界的）。相反，流中的一些aggregate操作,是由Windows控制的，例如：计算过去五分钟或者最后100个元素的总和。Windows可以是由事件驱动 ...

阅读全文 »

笛卡尔积

发表于 2018-02-27 | 分类于 dw

笛卡尔集基本原理两个表如果笛卡尔集运算(1)行数是两个表行数相乘的结果(2)列是两个表合集当Hive设定为严格模式（hive.mapred.mode=strict）时，不允许在HQL语句中出现笛卡尔积，这实际说明了Hive对笛卡尔积支持较弱。因为找不到Join key，Hive只能使用1个re ...

阅读全文 »

shell运维

发表于 2018-02-26

找到一个路径下大于10M的文件1find .xx -size +10M 查找7天前的文件说明：+n 大于 n, -n 小于 n, n 相等于 n.1234567891011121314151617181920212223242526272829303132find / -amin -30 -ls # ...

阅读全文 »

hive取具体某一天为周几的方法及其应用

发表于 2018-02-26 | 分类于 dw

pmod(datediff(etd,'1920-01-01')-3,7)='0'表示某天对应的周几，数值为0~6 IF(pmod(datediff(etd,'1920-01-01')-3,7)='0',7,pmod(datediff(e ...

阅读全文 »

hive-set设置总结

发表于 2018-02-23 | 分类于 hive

直接set命令可以看到所有变量值。set单个参数，可以看见这个参数的值。问题 hive输出格式的配置项是哪个？ hive被各种语言调用如何配置？ hive提交作业是在hive中还是hadoop中？一个查询的最后一个map/reduce任务输出是否被压缩的标志，通过哪个配置项？当用户自定义了UD ...

阅读全文 »

HBASE中，region server挂了之后，如何把这台server上的region转移到另外的region server上呢

发表于 2018-02-22 | 分类于 hbase

无论哪种情况，region server（实指RegionServer进程挂掉，下文同）都无法继续为它的region提供服务了，此时master会删除server目录下代表这台region server的文件，并将这台region server的region分配给其它还活着的同志。我想问，regio ...

阅读全文 »

Spark中的checkpoint作用与用法

发表于 2018-02-22 | 分类于 spark

checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过c ...

阅读全文 »

Spark性能优化指南-基础篇

发表于 2018-02-22 | 分类于 spark

整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则，是高性能Spark作业的基础；数据倾斜调优，主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案；shuffle调优，面向的是对Spark的原理 ...

阅读全文 »

Spark性能优化指南—— 数据倾斜调优

发表于 2018-02-22 | 分类于 spark

数据倾斜调优绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的业务 ...

阅读全文 »

Spark性能优化指南—— shuffle调优

发表于 2018-02-22 | 分类于 spark

大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shu ...

阅读全文 »