HBase私有云

发表于 2017-02-20 | 分类于 hbase

这里讲给大家一步一步的介绍组成HBase私有云的各个组件，以方便大家理解每个组件的作用。初始集群状态假设我们存在六台实体机，分为master和node两组，每组各三台机器。其中master机器包含：Mesos主实例、Zookeeper实例、Marathon实例、Docker实例而node机器 ...

阅读全文 »

hbase建表须知

发表于 2017-02-20 | 分类于 hbase

建表示例：create ‘namespace:tablename’, {NUMREGIONS => 5, SPLITALGO => ‘HexStringSplit’}, {NAME => ‘f’, COMPRESSION=>’SNAPPY’, VERSIONS => 1 ...

阅读全文 »

hbase现有的备份方案介绍

发表于 2017-02-20 | 分类于 hbase

原文连接：http://blog.cloudera.com/blog/2013/11/approaches-to-backup-and-disaster-recovery-in-hbase/ 下面是部分翻译： title: hbase的备份和容灾 purpose：了解hbase现有的备份方案，以 ...

阅读全文 »

YARN 作业执行流程

发表于 2017-02-19 | 分类于 hadoop

YARN 作业执行流程：用户向 YARN 中提交应用程序，其中包括 MRAppMaster 程序，启动 MRAppMaster 的命令，用户程序等。 ResourceManager 为该程序分配第一个 Container，并与对应的 NodeManager 通讯，要求它在这个 Contain ...

阅读全文 »

yarn资源优化

发表于 2017-02-19 | 分类于 hadoop

在hadoop 2.x中，引入了Yarn架构做资源管理，在每个节点上面运行NodeManager负责节点资源的分配，而slot也不再像1.x那样区分Map slot和Reduce slot。在Yarn上面Container是资源的分配的最小单元。yarn参数配置文件为yarn-site.xml 内存 ...

阅读全文 »

hive的桶

发表于 2017-02-19 | 分类于 hive

对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表（或者分区）组织成桶（Bucket）有两个理由：（1）获得更高的查询处 ...

阅读全文 »

Hfile格式

发表于 2017-02-18 | 分类于 hbase

HBase的数据以KeyValue(Cell)的形式顺序的存储在HFile中，在MemStore的Flush过程中生成HFile，由于MemStore中存储的Cell遵循相同的排列顺序，因而Flush过程是顺序写，我们直到磁盘的顺序写性能很高，因为不需要不停的移动磁盘指针。 HFile参考Bi ...

阅读全文 »

RegionServer的故障恢复

发表于 2017-02-18 | 分类于 hbase

我们知道，RegionServer的相关信息保存在ZK中，在RegionServer启动的时候，会在Zookeeper中创建对应的临时节点。RegionServer通过Socket和Zookeeper建立session会话，RegionServer会周期性地向Zookeeper发送ping消息包，以 ...

阅读全文 »

Region的拆分

发表于 2017-02-18 | 分类于 hbase

Hbase Region的三种拆分策略Hbase Region的拆分策略有比较多，比如除了3种默认过的策略，还有DelimitedKeyPrefixRegionSplitPolicy、KeyPrefixRegionSplitPolicy、DisableSplitPolicy等策略，这里只介绍3种默认 ...

阅读全文 »

HBase读请求分析

发表于 2017-02-18 | 分类于 hbase

本文主要是基于HBase的0.98.8版本的实现。HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的，即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在的HRegi ...

阅读全文 »