일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 코테
- 도커 에어플로
- 파이서닉
- import from 차이점
- 차이
- 답안지표기잘못한느낌...
- 디비설치
- Glue
- 데이터카탈로그
- Binary_gap
- GCP mysql
- 공백null치환
- 프로그래머스
- AWS
- docker-compose
- docker airflow
- 1000개 이상
- 이직 3개월차
- airflow설치
- 파이써닉
- 공백트림
- Codility
- s3목록
- docker
- 코딩테스트
- Glue의 두 가지 핵심 기능
- python
- cyclerotation
- 맞출수있었는데...
- 공백Trim
- Today
- Total
목록Glue (3)
작은하마
AWS EMR = Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi 및 Presto와 같은 오픈 소스 도구를 사용하여 방대한 양의 데이터를 처리하기 위한 업계 최고의 클라우드 빅 데이터 플랫폼 AWS GLUE = 분석, 기계 학습 및 애플리케이션 개발을 위해 데이터를 쉽게 탐색, 준비, 그리고 조합할 수 있도록 지원하는 서버리스 데이터 통합 서비스 데이터 엔지니어의 직무를 하다보니 두가지의 서비스를 사용해봤다. EMR에 Airflow를 설치하여 mysql => s3, s3 => s3 를 처리했고 Glue를 사용하여 S3 => Redshift 를 처리했다. 둘다 같은 업무를 했기 떄문에 왜? AWS에서 다수의 빅데이터 서비스를 내놓았을까..
오늘 한 회사에 면접을 봤다. 나의 이력을 바탕으로 면접을 진행했고 GLUE에 대한 질문이 나왔다. "Glue를 사용해서 프로젝트를 했다고 했는데 Glue가 ETL의 기능만 있는것이 아니잖아요? 그렇다면 ETL말고 다른 핵심적인 기능이 무었이 있죠?" 이말을 들은 나를 순간 머릿속이 새하얗게 되어버렸다. 나는 17년 8월에 출시된 Glue를 18년도에 처음 사용한 유저로서 나름 첫 스타트를 같이 했고 나름대로 이 서비스를 사용함에 있어 많은 시행착오를 격었기 때문이다. 문론 지금은 정답을 알고있다. "데이터 카탈로그생성" 이 기능을 사용하면 Athena에서 S3데이터를 쿼리할 수 있고 그 밖의 EMR이나 RedshiftSpectrum과 같은 서비스에서 사용할 수 있기 떄문이다. 특히 EMR에서 실행되는 ..

Glue에서 수많은 잡을 만들어서 일배치를 하고있는데 매일 저녁, 새벽 이 배치가 잘 끝났는지 아니면 오류가나서 중지된건지 매일 일일이 들어가서 보기가 너무너무 귀찮아 Slack으로 배치 결과를 보내기로했다. 원래는 오류가 나면 CloudWatch에서 SNS로 이메일로 오류를 전송해주거나 따로 JOB아래에 SNS로 결과를 이메일로 전달해주는 코드로 확인하곤 했는데 이번에는 Slack이라는 좋은 협업툴이 있어 이쪽으로 전송을 하게되었다. 빨간 박스에 있는 Job에서 각각의 log파일을 파싱하여 중단을 할지 뒷단의 MT Job을 진행시킬지 결정한다. result=s3.list_objects_v2(Bucket=bucket, Prefix=key_path) for item in result['Contents']:..