hadoop3 에서 새로 추가된 기능 중 하나가 Disk Balancer 임
근데 당최 공식 문서를 아무리 읽어봐도
기존의 balancer 와의 차이를 모르겠음.
stackoverflow 에 질문도 했는데 (링크) 답 달아주는 사람이 없더라 (...)
"Diskbalancer is a command line tool that distributes data evenly on all disks of a datanode.
This tool is different from Balancer which takes care of cluster-wide data balancing."
"Diskbalancer 는 하나의 데이터 노드의 모든 디스크 상에 있는 데이터를 고르게 분배되도록 만드는 명령어 도구이다. 이 툴은 클러스터 상의 데이터를 고르게 분배해주는(클러스터 전체 데이터의 균형을 관리하는) Balancer 와는 다르다."
"HDFS provides a tool for administrators that analyzes block placement and rebalanaces data across the DataNode."
"HDFS 는 block 위치를 분석하고, 데이터 노드에 걸쳐 저장되어있는 데이터들을 리밸런싱(고르게 분배) 하는 툴을 제공한다."
일단 영어를 해석해보면,
Balancer 는 Cluster 상에 있는 데이터들의 균형을 맞추는 일을 하고,
DiskBalancer 는 Disk 상에 있는 데이터들의 균형을 맞추는 일을 한다.
Balancer 는 DataNode 추가 혹은 데이터 삭제 등에 의한 불균형 상태에서 사용할 수 있고
DiskBalancer 는 Disk 추가/교체 혹은 데이터 삭제 등에 의한 불균형 상태에서 사용할 수 있단다.
이름 앞에 disk 가 붙는 이유가 여기 있구나 싶긴 한데,
구체적으로 Cluster 와 Disk 의 차이를 모르겠다.
알게 되면 업데이트 함.
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
친절한 분들의 도움으로 차이를 알게 되었음.
diskbalancer : 하나의 데이터 노드(in a single datanode)에 여러개의 disks 가 있는 경우, disk 간 데이터 불균형이 일어났을 때 불균형을 해소시켜줌.
balancer : 여러 데이터노드 간(inter nodes in multiple datanodes) 데이터 불균형이 일어났을 때 불균형을 해소시켜줌.
린아저씨 고맙습니다.
Thank you Sandeep Kumar.
'Hadoop' 카테고리의 다른 글
[Parquet] csv, tsv 데이터를 Parquet 으로 변환하는 방법 링크 (0) | 2020.08.26 |
---|---|
[Hadoop] InputSplit 이 Block Boundary 를 넘어 데이터를 읽는 방법 (2) | 2020.08.17 |
[Hadoop] 하둡 스트리밍에 대한 설명 링크 (0) | 2020.07.31 |
[Hadoop] RPC 에 대한 간단한 설명 및 링크 (0) | 2020.07.29 |
[Hadoop] 하둡 완벽 가이드 필기 - HDFS (0) | 2020.07.29 |