窗口函数 发表于 2018-02-27 | 分类于 flink Window聚合事件(如:sum,count,etc)在流上的工作方式与批处理中的不同。例如,我们不能够去统计流中的所有元素,因为流一般是无限的(无界的)。相反,流中的一些aggregate操作,是由Windows控制的,例如:计算过去五分钟或者最后100个元素的总和。Windows可以是由事件驱动 ... 阅读全文 »
笛卡尔积 发表于 2018-02-27 | 分类于 dw 笛卡尔集基本原理两个表如果笛卡尔集运算(1)行数是两个表行数相乘的结果(2)列是两个表合集 当Hive设定为严格模式(hive.mapred.mode=strict)时,不允许在HQL语句中出现笛卡尔积,这实际说明了Hive对笛卡尔积支持较弱。因为找不到Join key,Hive只能使用1个re ... 阅读全文 »
shell运维 发表于 2018-02-26 找到一个路径下大于10M的文件1find .xx -size +10M 查找7天前的文件说明:+n 大于 n, -n 小于 n, n 相等于 n.1234567891011121314151617181920212223242526272829303132find / -amin -30 -ls # ... 阅读全文 »
hive取具体某一天为周几的方法及其应用 发表于 2018-02-26 | 分类于 dw pmod(datediff(etd,'1920-01-01')-3,7)='0'表示某天对应的周几,数值为0~6 IF(pmod(datediff(etd,'1920-01-01')-3,7)='0',7,pmod(datediff(e ... 阅读全文 »
hive-set设置总结 发表于 2018-02-23 | 分类于 hive 直接set命令可以看到所有变量值。set单个参数,可以看见这个参数的值。 问题 hive输出格式的配置项是哪个? hive被各种语言调用如何配置? hive提交作业是在hive中还是hadoop中? 一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项? 当用户自定义了UD ... 阅读全文 »
HBASE中,region server挂了之后,如何把这台server上的region转移到另外的region server上呢 发表于 2018-02-22 | 分类于 hbase 无论哪种情况,region server(实指RegionServer进程挂掉,下文同)都无法继续为它的region提供服务了,此时master会删除server目录下代表这台region server的文件,并将这台region server的region分配给其它还活着的同志。我想问,regio ... 阅读全文 »
Spark中的checkpoint作用与用法 发表于 2018-02-22 | 分类于 spark checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过c ... 阅读全文 »
Spark性能优化指南-基础篇 发表于 2018-02-22 | 分类于 spark 整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对Spark的原理 ... 阅读全文 »
Spark性能优化指南—— 数据倾斜调优 发表于 2018-02-22 | 分类于 spark 数据倾斜调优 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业务 ... 阅读全文 »
Spark性能优化指南—— shuffle调优 发表于 2018-02-22 | 分类于 spark 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shu ... 阅读全文 »