내가 이해한 것만 적어둠.

이해 못한 것은 아래 '참고' 링크들에 자세히 나와있음.

 

  하둡 2 하둡 3
JAVA 버전 JAVA 7 이상 지원  JAVA 8 이상 지원
Fault tolerance 대비 요소 Replication Factor 를 통해 데이터를 3배 복제하여 저장함. 데이터 공간의 낭비가 심함 Reed-Solomon 알고리즘을 사용하는 Erasure Coding 을 도입. 약 1.5배 정도의 공간만 사용하기 때문에 공간 절약.
(https://eyeballs.tistory.com/239)
HA(High Availability) 2개의 NameNode, 3개 이상의 JournalNode 로 HA 를 구성. 한 개의 NameNode 장애를 견딜 수 있음. 1개의 Active NameNode 와 다수의 Standby NameNode, 다수의 JournalNode 로 HA를 구성하는 것이 가능해짐. 한 개 이상(Standby NameNode 개수)의 NameNode 장애를 견딜 수 있음.
Port Number 변경
(https://www.stefaanlippens.net/hadoop-3-default-ports.html)
NameNode
50407 9871
50070 9870
8020 9820
Secondary NameNode
50091 9869
50090 9868
DataNode
50020 9867
50010 9866
50475 9865
50075 9864
filesystem 추가 지원   Hadoop-compatible filesystem 으로 Microsoft Azure Data Lake 지원
데이터 불균형(unbalance) 문제 해결. Intra-datanode balancer 디스크의 추가/교체 등 특수한 상황이 닥치면, DataNode 내에 디스크간 데이터 불균형이 발생. Hadoop ver2 에서는 처리 불가능. hdfs diskbalancer 명령어를 호출하여 디스크 간 데이터 불균형을 해소
참고 https://eyeballs.tistory.com/268

 

 

 

참고

 

공식 문서

https://hadoop.apache.org/docs/r3.0.0/

 

하둡 3 버전으로 올라가면서 새롭게 추가된 기능들 설명한 블로그(한글)

https://nabillera.tistory.com/entry/%ED%95%98%EB%91%A1-%EA%B3%B5%EB%B6%80-Apache-Hadoop-300

https://joonyon.tistory.com/52

https://www.popit.kr/%EC%97%85%EA%B7%B8%EB%A0%88%EC%9D%B4%EB%93%9C%EB%A5%BC-%EB%B6%80%EB%A5%B4%EB%8A%94-hadoop-3-0-%EC%8B%A0%EA%B7%9C-%EA%B8%B0%EB%8A%A5-%EC%82%B4%ED%8E%B4%EB%B3%B4%EA%B8%B0

 

 

 

+ Recent posts