일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 디비설치
- s3목록
- 공백트림
- Glue의 두 가지 핵심 기능
- AWS
- python
- Glue
- 이직 3개월차
- Binary_gap
- airflow설치
- docker-compose
- cyclerotation
- docker
- 차이
- 맞출수있었는데...
- 프로그래머스
- 답안지표기잘못한느낌...
- 코테
- Codility
- docker airflow
- 1000개 이상
- import from 차이점
- 파이써닉
- 파이서닉
- 코딩테스트
- 공백Trim
- 공백null치환
- GCP mysql
- 데이터카탈로그
- 도커 에어플로
- Today
- Total
목록차이 (2)
작은하마
AWS EMR = Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi 및 Presto와 같은 오픈 소스 도구를 사용하여 방대한 양의 데이터를 처리하기 위한 업계 최고의 클라우드 빅 데이터 플랫폼 AWS GLUE = 분석, 기계 학습 및 애플리케이션 개발을 위해 데이터를 쉽게 탐색, 준비, 그리고 조합할 수 있도록 지원하는 서버리스 데이터 통합 서비스 데이터 엔지니어의 직무를 하다보니 두가지의 서비스를 사용해봤다. EMR에 Airflow를 설치하여 mysql => s3, s3 => s3 를 처리했고 Glue를 사용하여 S3 => Redshift 를 처리했다. 둘다 같은 업무를 했기 떄문에 왜? AWS에서 다수의 빅데이터 서비스를 내놓았을까..

최근 면접에서 "Athena와 Redshift Spectrum 차이가 무엇입니까?" 에 대한 질문이 들어와서 적잖히 당황한적이 있었다. 문론 나는 Athena도 Redshift Spectrum(Spectrum)도 둘다 개발을 할 때 유용하게 사용한것들이다. 일단 나의 경우로는 Athena는 서버리스 데이터쿼리 방식으로 따로 클러스터가 존재하지않고 Specturm은 레드시프트의 클러스터리소스를 사용한다 또한, 둘 다 Glue의 데이터 카탈로그를 사용하여 S3의 데이터를 읽어오게 되는데 여기서 차이는 Athena는 다른 리전에 있는 S3에 접근이 가능하지만 Spectrum은 동일 리전에 존재해야하는것? 아래는 더 정확한 성능 비교를 한 도표이다. 이 표를 보고 내가 놀랬던 것은 비용. Athena만 S3 데..