작은하마

[AWS] GLUE의 2가지 핵심기능 본문

AWS/Glue

[AWS] GLUE의 2가지 핵심기능

꼬몽울 2021. 8. 5. 23:25

오늘 한 회사에 면접을 봤다.

나의 이력을 바탕으로 면접을 진행했고 GLUE에 대한 질문이 나왔다.

"Glue를 사용해서 프로젝트를 했다고 했는데 Glue가 ETL의 기능만 있는것이 아니잖아요? 그렇다면 ETL말고 다른 핵심적인 기능이 무었이 있죠?"

이말을 들은 나를 순간 머릿속이 새하얗게 되어버렸다.

나는 17년 8월에 출시된 Glue를 18년도에 처음 사용한 유저로서 나름 첫 스타트를 같이 했고 나름대로 이 서비스를 사용함에 있어 많은 시행착오를 격었기 때문이다.

문론 지금은 정답을 알고있다.

 

"데이터 카탈로그생성"

이 기능을 사용하면 Athena에서 S3데이터를 쿼리할 수 있고 그 밖의 EMR이나 RedshiftSpectrum과 같은 서비스에서 사용할 수 있기 떄문이다.

특히 EMR에서 실행되는 빅 데이터 애플리케이션용 Apache Hive Metastore를 즉시 대체할 수 있다는 것이 가장 큰 장점이다.

 

면접 당시 어버버되었기 떄문에 제대로된 답변을 하지도 못하고 바로 다음질문이 날아왔다.

 

"그렇다면 Glue의 데이터 카탈로그를 생성하지 않았다면 데이터를 못가져오는것인가요?"

 

정답은 NO.

가져올수 있다.

어떻게? s3로케이션을 지정을 해주면된다.

하지만 그렇게 된다면 스토리지의 추가, 변경이 있을때 일일이 대응을 하지 못하는 단점이 있다.

또한 데이터 카탈로그가 없다면 사용자들은 메타정보를 일일이 찾아가면서 사용해야 할 것이다.

또한 사용자들은 사용한 데이터의 위치를 정확하게 알아야 사용을 할 수 있을것이다.

 

Comments