1 AWS Glue
- AWS Glue는 서버리스 데이터 통합 서비스로, 애널리틱스 사용자가 여러 데이터 소스로부터 데이터를 통합할 수 있도록 합니다.
- 이 서비스는 애널리틱스, 머신러닝, 애플리케이션 개발을 위해 데이터를 사용할 수 있게 해줍니다.
2 주요 기능
2.1 데이터 발견 및 카탈로그 관리
- AWS Glue는 70개 이상의 다양한 데이터 소스에 연결하고 중앙 집중식 데이터 카탈로그에서 데이터를 관리할 수 있게 해줍니다.
- AWS Glue 크롤러를 사용하여 스키마 정보를 자동으로 추론하고 이를 Glue 데이터 카탈로그에 통합할 수 있습니다.
- 데이터베이스와 테이블에 대한 스키마와 권한을 관리할 수 있습니다.
- 다양한 온프레미스 및 AWS 데이터 소스에 연결하여 데이터 레이크를 구축할 수 있습니다.
2.2 데이터 변환, 준비 및 정제
- 시각적인 작업 캔버스 인터페이스를 통해 데이터 변환 작업을 정의하고 자동으로 코드를 생성할 수 있습니다.
- 간단한 작업 스케줄링을 통해 복잡한 ETL 파이프라인을 구축할 수 있습니다.
- 스트리밍 데이터를 실시간으로 정제하고 변환하여 몇 초 만에 분석이 가능하게 합니다.
- 머신러닝을 활용한 중복 제거 및 데이터 정제 기능을 제공하여 비전문가도 쉽게 데이터를 정제할 수 있습니다.
- 내장된 작업 노트북을 통해 최소한의 설정으로 서버리스 노트북을 제공하여 빠르게 시작할 수 있습니다.
- AWS Glue 인터랙티브 세션을 통해 데이터를 탐색하고 준비하며, IDE나 노트북을 사용하여 데이터를 상호작용적으로 처리할 수 있습니다.
- 민감한 데이터를 정의하고 탐지하며 처리하는 기능을 제공합니다.