Legacy - 부트캠프/[부트캠프] 회고

[데이터 엔지니어링 부트캠프]9월 2주차 회고

포리셔 2023. 9. 16. 15:26

좋았던 점

  • AWS와 하둡이 주가 되기는 했지만, 백엔드 서버를 클라우드에 배포하는 것을 실습하기 위해 다양한 툴을 실습/복습한 것이 좋았습니다. AWS EC2 서비스 서빙에는 기존 과정에서 배웠던 스프링 부트를 이용한 서버를 비롯해, 간단한 플라스크 기반 백엔드, 그리고 리액트를 이용한 프론트엔드도 맛보기 수준으로 경험했습니다.

아쉬웠던 점

  • 마치 머신러닝/딥러닝 때가 떠오를 정도로 수업 준비가 미흡한 모습이 보였습니다. 본격적으로 도커를 활용하기 시작하면서 일일이 실습 환경을 구축하지 않더라도 도커파일만 준비하면 가상환경을 만들고 곧장 실습에 들어갈 수 있어야 했는데, 도커파일을 그대로 실행하면 설치하는 프로그램 간의 버전 차이가 나서 실습이 안 되는 것은 예사요, 이제 갓 도커와 하둡 등에 입문한 사용자가 대처하기 어려운 에러를 그대로 방치한 수업자료를 주기 일쑤였습니다. 한 번 문제가 터지면 반나절이 소모되는 데다가 어떤 부분에서 문제가 생겼다고 말해도 강사님이 본인 환경에서는 잘 돌아갔다고 받아쳤기 때문에 저를 포함한 대다수의 수강생들은 구글링을 통해 자체적으로 문제를 해결하고 그때그때 수업 자료를 직접 수정하는 것이 일상이 되었습니다.

배운 점

REST 서버 배포

  • REST 서버를 EC2에 올리는 실습을 위해 또다른 백엔드 프레임워크인 플라스크(Flask)를 이용하는 법을 배웠습니다.
  • 다시 스프링 부트로 돌아와 영화 추천 사이트를 구축하고 AWS에 배포했습니다. 과정 자체는 지난 주에 배웠던 EC2 서비스 신청과 PuTTY 및 FileZilla로 파일 전송 및 원격 접속에 기반을 뒀고, localhost 대신 EC2의 IP 주소로 바꿔서 입력하는 것으로 백엔드 서버의 정상작동을 확인할 수 있었습니다.

    하둡 (Hadoop)

  • 실습을 로컬 환경에서 진행하는 것으로 바꾸면서 윈도우용 도커를 로컬 환경에 설치했습니다.
  • 실습 자료로 주어진 도커파일을 이용해 가상환경을 빌드하고 실행했습니다. 가상환경 실행 이후에는 하둡이 어떤 방식으로 실행되는지를 알아보기 위해 ssh 재시작 → hdfs namenode -format → 하둡 실행 → yarn 실행의 순서대로 실습을 했습니다.
  • 하둡에 파일을 저장하기 위해 하둡이 실행되는 환경 하에서 wget으로 압축 파일을 받고 unzip으로 압축 해제하는 방법을 배웠습니다. 왜 굳이 FileZilla를 안 썼는지는 의문... 이후 hdfs 명령어를 기반으로 디렉터리를 새로 생성하고 파일을 복사 및 데이터 분산 업로드, 분산 저장 장부 저장이 되는 과정을 알아봤습니다.

    하이브 (Hive)

  • 하이브의 기능을 활용하기 위해 구축한 새로운 가상환경에 MySQL을 (리눅스의 방식대로) 설치하고 관리자 계정 설정 및 권한 변경을 진행했습니다.
  • schemaTool을 이용해 하이브를 초기화하고 정보를 조회, 정상 설치가 확인된 후 하이브를 실행했습니다.
  • 실행된 하이브 환경에서 SQL 쿼리와 동일한 요령으로 테이블을 생성하고 정보를 저장했습니다.
  • 하이브를 외부에서도 접속할 수 있게 설정한 뒤(nohup hive --service hiveserver2 &), 디비버(DBeaver)를 윈도우 환경에 설치해 SQL 쿼리를 입력하고 실행하는 실습을 했습니다. 최종적으로는 SQL 쿼리를 디비버에 입력해 기존의 전체 주가 테이블(STOCK)로부터 일별 주가 테이블(HISTORY_DT)을 생성했습니다.

앞으로 바라는 점

  • 수업 중간에 강좌 관련 중간점검 설문조사가 있었고, 그 결과를 바탕으로 개인 상담을 진행했습니다. 파이널 프로젝트나 수강생 간 스터디와 관련된 점을 물어서 답변을 받았는데, 최종적으로 스터디 수요나 팀원간에 사용하고 싶은 특정 기술 스택이 정해지고 나면 인원을 추려서 그때부터 밑작업에 들어가려고 합니다. 시간이 얼마나 걸릴지는 모르겠지만 이번 달 말까지는 윤곽이 드러날 수 있기를 바랍니다.