HBase到底是列式存储还是行式存储?

逻辑概念上,数据库表是一种二维的数据结构,具有行和列。但在内存、磁盘等物理存储上,数据一般是需要线性顺序组织的。所以为了存储数据库表中的数据,有了两种常见的组织方式:基于行的存储和基于列的存储。 基于行的存储,是将整行数据连续存在一起。在基于行存储的表中,即使只需要读取指定列时,也需要先将对应行的数

HBase中MemStore的刷写触发机制

因为HBase的数据存储使用的是HDFS,而HDFS是不支持随机读写的,所以HBase的数据写入采用LSM算法。LSM算法一般会分内存和磁盘两部分存放数据,在HBase的实现中,内存部分称作MemStore,采用的是跳跃表实现,维护了一个有序的KeyValue集合,磁盘部分有0到多个内部KeyVal

详解HDFS3.x新特性-纠删码

EC介绍 Erasure Coding 简称EC,中文名:纠删码 EC(纠删码)是一种编码技术,在HDFS之前,这种编码技术在廉价磁盘冗余阵列(RAID)中应用最广泛(RAID介绍:大数据预备知识-存储磁盘、磁盘冗余阵列RAID介绍),RAID通过条带化技术实现EC,条带化技术就是一种自动将 I

技术干货!HDFS读写原理和代码简单实现

摘要:本文主要研究了HDFS文件系统的读写流程以及基于MRS在windows客户端下读写HDFS文件的实现。 HDFS(Hadoop分布式文件系统)是Apache Hadoop项目的一个子项目。 HDFS支持海量数据的存储,允许用户把成百上千的计算机组成存储集群,其中的每一台计算机称为一个节点。

数据仓库组件:HBase集群环境搭建和应用案例

本文源码:GitHub || GitEE 一、Hbase简介 1、基础描述 Hadoop原生的特点是解决大规模数据的离线批量处理场景,HDFS具备强大存储能力,但是并没有提供很强的数据查询机制。HBase组件则是基于HDFS文件系统之上提供类似于BigTable服务。 HBase是一种分布式、可扩展

Hadoop之性能测试与调优

Hadoop测试 集群搭建起来,是不是就万事大吉了呢?如果只是用来学习或者做做实验,貌似够了,但生产环境中还不够,因为我们还没有对集群进行测试,是不是能达到我们预期。 1.1写测试 测试写入100个128M的文件 hadoop jar /opt/module/hadoop-3.1.3/share/h

hadoop优化

数据压缩 很多小文件 , 将小文件压缩为一个大文件 , IO效率加快 Bzip2 LZO Snappy 配置文件调优

利用Zookeeper实现Hadoop HA

1.什么是HA? 所谓HA,也就是高可用,放在实际运营中,那就是7*24小时不间断服务。那么实现HA,最关键的地方的就是消除单点故障,那什么是单点故障,就没有可替代的节点,一旦这个节点挂了,那整个服务也跟着瘫痪,直到该节点恢复。 2.Hadoop HA Hadoop为什么需要HA呢?因为存在单点故障

Distcp的那点事

[TOC] 灵魂拷问:你真的了解distcp吗?这里说的就是distcp的那点事 背景 今天在整理笔记的时候,发现了好几篇临时记录都是记录的集群间文件复制需要注意的地方,虽然记录的东西和重点不同,但是核心的东西都是distcp相关的,所以,感觉还是有点必要归总一下,这篇文章的内容主要是一点细节问

点击加载更多