내가 이해한 것만 적어둠.
이해 못한 것은 아래 '참고' 링크들에 자세히 나와있음.
하둡 2 | 하둡 3 | |
JAVA 버전 | JAVA 7 이상 지원 | JAVA 8 이상 지원 |
Fault tolerance 대비 요소 | Replication Factor 를 통해 데이터를 3배 복제하여 저장함. 데이터 공간의 낭비가 심함 | Reed-Solomon 알고리즘을 사용하는 Erasure Coding 을 도입. 약 1.5배 정도의 공간만 사용하기 때문에 공간 절약. (https://eyeballs.tistory.com/239) |
HA(High Availability) | 2개의 NameNode, 3개 이상의 JournalNode 로 HA 를 구성. 한 개의 NameNode 장애를 견딜 수 있음. | 1개의 Active NameNode 와 다수의 Standby NameNode, 다수의 JournalNode 로 HA를 구성하는 것이 가능해짐. 한 개 이상(Standby NameNode 개수)의 NameNode 장애를 견딜 수 있음. |
Port Number 변경 (https://www.stefaanlippens.net/hadoop-3-default-ports.html) |
NameNode | |
50407 | 9871 | |
50070 | 9870 | |
8020 | 9820 | |
Secondary NameNode | ||
50091 | 9869 | |
50090 | 9868 | |
DataNode | ||
50020 | 9867 | |
50010 | 9866 | |
50475 | 9865 | |
50075 | 9864 | |
filesystem 추가 지원 | Hadoop-compatible filesystem 으로 Microsoft Azure Data Lake 지원 | |
데이터 불균형(unbalance) 문제 해결. Intra-datanode balancer | 디스크의 추가/교체 등 특수한 상황이 닥치면, DataNode 내에 디스크간 데이터 불균형이 발생. Hadoop ver2 에서는 처리 불가능. | hdfs diskbalancer 명령어를 호출하여 디스크 간 데이터 불균형을 해소 참고 https://eyeballs.tistory.com/268 |
참고
공식 문서
https://hadoop.apache.org/docs/r3.0.0/
하둡 3 버전으로 올라가면서 새롭게 추가된 기능들 설명한 블로그(한글)
https://nabillera.tistory.com/entry/%ED%95%98%EB%91%A1-%EA%B3%B5%EB%B6%80-Apache-Hadoop-300
https://joonyon.tistory.com/52
'Hadoop' 카테고리의 다른 글
[Hadoop3] Web Interface Port 번호 (0) | 2020.07.17 |
---|---|
[Hadoop] 기술 질문 대비 적어두는 것들 (0) | 2020.07.15 |
[Hadoop] 3.x 버전의 Erasure Coding 설명 (4) | 2020.07.14 |
[Hadoop] 네이버의 멀티테넌트 하둡 클러스터 운영 경험기 (0) | 2020.07.14 |
[ZooKeeper] 간단한 설명 및 참고 링크 (0) | 2020.07.14 |