Virtual Box에 Hortonworks Sandbox 설치하기

Environment

  • OS : macOS Mojave 10.14.6 ver
  • RAM : 16GB

1.Virtual Box 설치

  • Virtual Box - OS에 맞는 Virtual Box 다운로드 및 설치

PNG

  • Mac OS 에서 Virtual Box 설치 실패 시 참조
    https://hongku.tistory.com/64


2.HDP(Hortonworks Data Platform) 설치

PNG

다운로드받은 HDP를 실행합니다.


PNG

가져오기를 클릭합니다.


PNG

약간의 시간이 소요됩니다.


PNG

Virutal BoxHDP가 정상적으로 볼러와졌다면 시작 버튼을 클릭합니다.


PNG

이번에도 약간의 시간이 소요됩니다.


PNG

  • Welcome Screen : http://localhost:1080
  • SSH : http://localhost:4200

접속 정보를 확인합니다.


PNG

웹 브라우저에서 Welcome Screen에 접속되면 HDP 설치가 정상적으로 된 것입니다. LAUNCH DASHBOARD 버튼을 누르고 Username, Password에 모두 maria_dev를 입력하여 로그인합니다.


PNG

Ambari 대시보드가 출력됩니다.

3.하둡에 데이터 임포트하기

PNG

  • 하둡에 임포트할 데이터 예제를 Grouplens-Datasets에서 ml-100k.zip 다운로드합니다. 압축 파일 내에 u.datau.item파일을 하둡에 임포트해보겠습니다. u.data는 영화에 대한 평점이 담겨 있는 tab으로 구분된 데이터이며, u.item은 영화 이름 등이 담겨 있는 |(pipe)로 구분된 데이터입니다.


PNG

우측 상단 메뉴 아이콘을 눌러 Hive View을 눌러줍니다.


PNG

Upload Table 탭을 눌러줍니다.


PNG

설정 버튼을 눌러줍니다.


PNG

Field Delimiter를 9번 항목으로 설정해줍니다.


PNG

파일선택을 눌러줍니다.


PNG

u.data파일을 업로드합니다.


PNG

테이블 명과 필드 명을 설정해줍니다.


PNG

같은 방식으로 두 번째 데이터 업로드를 진행합니다. 이번엔 Field Delimiter를 124번 항목으로 설정해줍니다.


PNG

파일선택 버튼을 눌러 u.item파일을 업로드합니다.


PNG

마찬가지로 테이블 명과 필드 명을 설정해줍니다.


4.Hive로 데이터 조회하기

PNG

Query 탭으로 이동해 SQL 쿼리를 작성합니다. 사람들이 평점을 많이 남긴 순으로 영화 리스트를 출력하겠습니다.


PNG

쿼리 결과를 출력합니다. movie_id50인 영화가 가장 많은 리뷰를 가지고 있는 것을 확인했습니다.

SELECT movie_id, count(movie_id) as ratingCount
FROM ratings
GROUP BY movie_id
ORDER BY ratingCount DESC;


PNG

movie_id50인 영화의 제목을 조회한 결과 스타워즈인 것을 확인할 수 있습니다.

SELECT name
FROM movie_names
WHERE movie_id = 50;

태그:

카테고리:

업데이트:

댓글남기기