全排序 发表于 2018-02-11 | 分类于 mapreduce 错误写法123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475packa ... 阅读全文 »
去重 发表于 2018-02-11 | 分类于 mapreduce 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152package com.qr.mr.removeduplicate;import org.apache.had ... 阅读全文 »
共同好友 发表于 2018-02-11 | 分类于 mapreduce 题意给出A-O个人中每个人的好友列表,求出哪些人两两之间有共同好友,以及他们的共同好友都有谁 原始文件:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B ... 阅读全文 »
求解祖孙关系 发表于 2018-02-11 | 分类于 mapreduce 首先是有如下数据,设定左边是右边的儿子,右边是左边的父母 Tom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark ... 阅读全文 »
二度人脉 发表于 2018-02-11 | 分类于 mapreduce 题意Tom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark TerryMark Alma 只是这次是假设一个没 ... 阅读全文 »
wordcount 发表于 2018-02-11 | 分类于 mapreduce 最基本的,需要手动写出。1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768package com ... 阅读全文 »
拉链表 发表于 2018-01-29 | 分类于 dw 1、历史全量表2、每日更新表所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。要确定拉链表的时间粒度,比如说拉链表每天只取一个状态,也就是说如果一天有3个状态变更,我们只取最后一个状态,这种天粒度的表其实已经能解决大部分的问题了;流水表存放的是一个用户的变更记录,比如在一张 ... 阅读全文 »
桥接表 发表于 2018-01-28 | 分类于 dw 采用桥接表有利有弊,桥接表增加了误用模式的可能性,可能会大致不准确的结果,而拒绝桥接表则严重影响了维度解决方案应有的分析能力。所以只有了解它,才能在各种情况下为平衡能力与风险做出正确的抉择。 标准的一对多关系: 多值维度:如果每个订单有多个销售人员。面对多值维度,有两个基本选择:位置设计或桥接 ... 阅读全文 »
hive默认分号提交问题 发表于 2018-01-28 | 分类于 hive 将分号改为\0731234567891011121314151617181920212223CREATE EXTERNAL TABLE `table`( `a` string COMMENT '', `b` string COMMENT '', `c` ... 阅读全文 »