HBase私有云 发表于 2017-02-20 | 分类于 hbase 这里讲给大家一步一步的介绍组成HBase私有云的各个组件,以方便大家理解每个组件的作用。 初始集群状态假设我们存在六台实体机,分为master和node两组,每组各三台机器。 其中master机器包含:Mesos主实例、Zookeeper实例、Marathon实例、Docker实例 而node机器 ... 阅读全文 »
hbase建表须知 发表于 2017-02-20 | 分类于 hbase 建表示例:create ‘namespace:tablename’, {NUMREGIONS => 5, SPLITALGO => ‘HexStringSplit’}, {NAME => ‘f’, COMPRESSION=>’SNAPPY’, VERSIONS => 1 ... 阅读全文 »
hbase现有的备份方案介绍 发表于 2017-02-20 | 分类于 hbase 原文连接:http://blog.cloudera.com/blog/2013/11/approaches-to-backup-and-disaster-recovery-in-hbase/ 下面是部分翻译: title: hbase的备份和容灾 purpose:了解hbase现有的备份方案,以 ... 阅读全文 »
YARN 作业执行流程 发表于 2017-02-19 | 分类于 hadoop YARN 作业执行流程: 用户向 YARN 中提交应用程序,其中包括 MRAppMaster 程序,启动 MRAppMaster 的命令, 用户程序等。 ResourceManager 为该程序分配第一个 Container,并与对应的 NodeManager 通讯,要求 它在这个 Contain ... 阅读全文 »
yarn资源优化 发表于 2017-02-19 | 分类于 hadoop 在hadoop 2.x中,引入了Yarn架构做资源管理,在每个节点上面运行NodeManager负责节点资源的分配,而slot也不再像1.x那样区分Map slot和Reduce slot。在Yarn上面Container是资源的分配的最小单元。yarn参数配置文件为yarn-site.xml 内存 ... 阅读全文 »
hive的桶 发表于 2017-02-19 | 分类于 hive 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处 ... 阅读全文 »
Hfile格式 发表于 2017-02-18 | 分类于 hbase HBase的数据以KeyValue(Cell)的形式顺序的存储在HFile中,在MemStore的Flush过程中生成HFile,由于MemStore中存储的Cell遵循相同的排列顺序,因而Flush过程是顺序写,我们直到磁盘的顺序写性能很高,因为不需要不停的移动磁盘指针。 HFile参考Bi ... 阅读全文 »
RegionServer的故障恢复 发表于 2017-02-18 | 分类于 hbase 我们知道,RegionServer的相关信息保存在ZK中,在RegionServer启动的时候,会在Zookeeper中创建对应的临时节点。RegionServer通过Socket和Zookeeper建立session会话,RegionServer会周期性地向Zookeeper发送ping消息包,以 ... 阅读全文 »
Region的拆分 发表于 2017-02-18 | 分类于 hbase Hbase Region的三种拆分策略Hbase Region的拆分策略有比较多,比如除了3种默认过的策略,还有DelimitedKeyPrefixRegionSplitPolicy、KeyPrefixRegionSplitPolicy、DisableSplitPolicy等策略,这里只介绍3种默认 ... 阅读全文 »
HBase读请求分析 发表于 2017-02-18 | 分类于 hbase 本文主要是基于HBase的0.98.8版本的实现。HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的,即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在的HRegi ... 阅读全文 »