基本概念 发表于 2018-02-19 | 分类于 netty 同步就是如果有多个任务或者事件要发生,这些任务或者事件必须逐个地进行,一个事件或者任务的执行会导致整个流程的暂时等待,这些事件没有办法并发地执行。 异步就是如果有多个任务或者事件发生,这些事件可以并发地执行,一个事件或者任务的执行不会导致整个流程的暂时等待 重点:判断是同步还是异步,就看同时多个任务 ... 阅读全文 »
hive的ACID 发表于 2018-02-19 | 分类于 hive Hive自0.14版本开始支持update和delete,要执行update和delete的表必须支持ACID。但缺省是不支持的,,需要一些附加的配置。如果一个表要实现update和delete功能,该表就必须支持ACID,而支持ACID,就必须满足以下条件:1、表的存储格式必须是ORC(STORE ... 阅读全文 »
spark 算子错误使用 发表于 2018-02-19 | 分类于 spark cache本例中,首先计算出一个baseRDD,然后对其进行cache,后续启动三个子任务基于cache进行后续计算。 对于5分钟小数据量,采用StorageLevel.MEMORY_ONLY,而对于大数据下我们直接采用了StorageLevel.DISK_ONLY。DISK_ONLY_2相较DIS ... 阅读全文 »
spark优化 发表于 2018-02-19 设置合适的资源参数spark程序跑在yarn集群上1234--queue:集群队列--num-executors:executor数量,默认2--executor-memory:executor内存,默认512M--executor-cores:每个executor的并发数,默认1 executor ... 阅读全文 »
hbase读流程代码分析 发表于 2018-02-18 流程总览 从zookeeper中获取meta信息,并通过meta信息找到需要查找的table的startkey所在的region信息 和该region所在的regionserver进行rpc交互获取result region server查询memstore(memstore是是一个按key排序 ... 阅读全文 »
spark参数优化 发表于 2018-02-14 | 分类于 spark spark集群优化 数据本地性如何配置Locality呢?可以统一采用spark.locality.wait来设置,默认3s(例如设置5000ms)。当然可以分别设置spark.locality.wait.process、spark.locality.wait.node、spark.locality ... 阅读全文 »
spark jvm优化 发表于 2018-02-14 | 分类于 spark https://blog.csdn.net/kwu_ganymede/article/details/51299115关于JVM内存的深入知识在这里不赘述,请大家自行对相关知识进行补充。好,说回Spark,运行Spark作业的时候,JVM对会对Spark作业产生什么影响呢?答案很简单,如果数据量过大 ... 阅读全文 »
RDD 发表于 2018-02-14 | 分类于 spark 特点Resillient Distributed Dataset,即弹性分布式数据集RDD的内部属性 通过RDD的内部属性,用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。 1)分区列表:通过分区列表可以找到一个RDD中包含的所有分区及其所在地址。 ... 阅读全文 »
维度建模 发表于 2018-02-14 | 分类于 dw 概念维度表:说明数据,维度是指可指定不同值的对象的描述性属性或特征。例如,地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。维度是现实世界中的对象或者概念。 事实表:其实质就是通过一些指标值和各种维度外键来确定一个事实的。发生在现实 ... 阅读全文 »
spark 二次排序 发表于 2018-02-13 | 分类于 spark 数据:40 2040 1040 3040 530 3030 2030 1030 4050 2050 5050 1050 601234567891011121314151617181920212223242526272829303132333435363738package com.scala.tes ... 阅读全文 »