spark算子

发表于 2018-02-13 | 分类于 spark

sortByKey该函数会对原始RDD中的数据进行Shuffle操作，从而实现排序。这个函数中,传入两个參数,ascending表示是升序还是降序,默认true表示升序.第二个參数是运行排序使用的partition的个数,默认是当前RDD的partition个数. groupByKey、reduce ...

阅读全文 »

hive orcfile

发表于 2018-02-13 | 分类于 hive

rcfile在传统的数据库系统中，主要有三种数据存储方式：水平的行存储结构：行存储模式就是把一整行存在一起，包含所有的列，这是最常见的模式。这种结构能很好的适应动态的查询，比如 select a from tableA 和 select a, b, c, d, e, f, ...

阅读全文 »

hive 排序与分发的各种By

发表于 2018-02-13

排序与分发的各种By与传统关系型数据库最大的区别就是处理数据的能力这种能力最大的体现就是排序与分发的原理order by 是全局排序，只有一个reduce，数据量多时速度慢sort by 是随机分发到一个reduce然后reduce内部排序，一般不会单独使用;，也就是说保证了局部有序（每个re ...

阅读全文 »

beeline

发表于 2018-02-13 | 分类于 hive

1beeline -u "jdbc:hive2://xxxxx;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=datahiveserver2_zk" -n username -p "password" -- ...

阅读全文 »

spark wordcount

发表于 2018-02-12 | 分类于 spark

123456789101112131415161718package com.scala.test.coreimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(arg ...

阅读全文 »

报表查询

发表于 2018-02-12 | 分类于 dw

级联报表查询1234567891011121314151617181920212223A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5C,2015-01,10C,2015-01,20A,2015-02,4A,20 ...

阅读全文 »

hive模型

发表于 2018-02-12 | 分类于 hive

Jobtracker是hadoop1.x中的组件，它的功能相当于：　　Resourcemanager+MRAppMaster TaskTracker 相当于：　　Nodemanager + yarnchild hive里面有两种服务模式一种是cli模式，一种是hiveserver2， ...

阅读全文 »

join

发表于 2018-02-11 | 分类于 mapreduce

测试数据user.txt (用户id,用户名)1 用户12 用户23 用户3 more post.txt (用户id,帖子id,标题)1 1 贴子11 2 贴子22 3 帖子34 4 贴子45 5 贴子55 6 贴子65 7 贴 ...

阅读全文 »

倒排

发表于 2018-02-11 | 分类于 mapreduce

题意hdfs 上有三个文件，内容下上面左面框中所示。右框中为处理完成后的结果文件。倒排索引（Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引 ...

阅读全文 »

二次排序

发表于 2018-02-11 | 分类于 mapreduce

输入文件 sort.txt 内容为 40 20 40 10 40 30 40 5 30 30 30 20 30 10 30 40 50 20 50 50 50 10 50 60 输出文件的内容（从小到大排序）如下 30 10 30 2 ...

阅读全文 »