基本概念

发表于 2018-02-19 | 分类于 netty

同步就是如果有多个任务或者事件要发生，这些任务或者事件必须逐个地进行，一个事件或者任务的执行会导致整个流程的暂时等待，这些事件没有办法并发地执行。异步就是如果有多个任务或者事件发生，这些事件可以并发地执行，一个事件或者任务的执行不会导致整个流程的暂时等待重点：判断是同步还是异步，就看同时多个任务 ...

阅读全文 »

hive的ACID

发表于 2018-02-19 | 分类于 hive

Hive自0.14版本开始支持update和delete，要执行update和delete的表必须支持ACID。但缺省是不支持的，，需要一些附加的配置。如果一个表要实现update和delete功能，该表就必须支持ACID，而支持ACID，就必须满足以下条件：1、表的存储格式必须是ORC（STORE ...

阅读全文 »

spark 算子错误使用

发表于 2018-02-19 | 分类于 spark

cache本例中，首先计算出一个baseRDD，然后对其进行cache，后续启动三个子任务基于cache进行后续计算。对于5分钟小数据量，采用StorageLevel.MEMORY_ONLY，而对于大数据下我们直接采用了StorageLevel.DISK_ONLY。DISK_ONLY_2相较DIS ...

阅读全文 »

spark优化

发表于 2018-02-19

设置合适的资源参数spark程序跑在yarn集群上1234--queue：集群队列--num-executors：executor数量，默认2--executor-memory：executor内存，默认512M--executor-cores：每个executor的并发数，默认1 executor ...

阅读全文 »

hbase读流程代码分析

发表于 2018-02-18

流程总览从zookeeper中获取meta信息，并通过meta信息找到需要查找的table的startkey所在的region信息和该region所在的regionserver进行rpc交互获取result region server查询memstore（memstore是是一个按key排序 ...

阅读全文 »

spark参数优化

发表于 2018-02-14 | 分类于 spark

spark集群优化数据本地性如何配置Locality呢？可以统一采用spark.locality.wait来设置，默认3s（例如设置5000ms）。当然可以分别设置spark.locality.wait.process、spark.locality.wait.node、spark.locality ...

阅读全文 »

spark jvm优化

发表于 2018-02-14 | 分类于 spark

https://blog.csdn.net/kwu_ganymede/article/details/51299115关于JVM内存的深入知识在这里不赘述，请大家自行对相关知识进行补充。好，说回Spark，运行Spark作业的时候，JVM对会对Spark作业产生什么影响呢？答案很简单，如果数据量过大 ...

阅读全文 »

RDD

发表于 2018-02-14 | 分类于 spark

特点Resillient Distributed Dataset，即弹性分布式数据集RDD的内部属性通过RDD的内部属性，用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。 1）分区列表：通过分区列表可以找到一个RDD中包含的所有分区及其所在地址。 ...

阅读全文 »

维度建模

发表于 2018-02-14 | 分类于 dw

概念维度表：说明数据，维度是指可指定不同值的对象的描述性属性或特征。例如，地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。维度是现实世界中的对象或者概念。事实表：其实质就是通过一些指标值和各种维度外键来确定一个事实的。发生在现实 ...

阅读全文 »

spark 二次排序

发表于 2018-02-13 | 分类于 spark

数据：40 2040 1040 3040 530 3030 2030 1030 4050 2050 5050 1050 601234567891011121314151617181920212223242526272829303132333435363738package com.scala.tes ...

阅读全文 »