본문으로 건너뛰기

Lake-Formation

1 AWS Lake Formation

  • AWS Lake Formation은 분석 목적으로 모든 데이터를 중앙에서 관리할 수 있는 데이터 레이크를 구축하는 완전 관리형 서비스입니다.
  • 이 서비스를 통해 몇 일 내로 데이터 레이크를 쉽게 설정할 수 있습니다.

2 주요 기능

2.1 데이터 레이크 설정 및 관리

  • AWS Lake Formation은 데이터 레이크를 쉽게 설정하고 관리할 수 있게 해줍니다.
  • 데이터를 발견하고 정제하며 변환하여 데이터 레이크에 적재할 수 있습니다.
  • 복잡한 수작업 단계를 자동화하여 데이터 수집, 정제, 이동, 카탈로깅 등의 과정을 처리합니다.
  • 머신러닝 변환(ML Transforms)을 사용하여 중복 데이터를 제거할 수 있습니다.

2.2 다양한 데이터 형식 통합

  • 구조화된 데이터와 비구조화된 데이터를 데이터 레이크에 결합할 수 있습니다.
  • 초기 설정에서 제공되는 소스 블루프린트를 사용하여 S3, RDS, 관계형 및 NoSQL 데이터베이스와 같은 다양한 소스에서 데이터를 쉽게 통합할 수 있습니다.
  • 이를 통해 여러 소스에서 데이터를 손쉽게 통합할 수 있습니다.

2.3 세분화된 접근 제어

  • 애플리케이션에 대해 세분화된 접근 제어를 제공합니다.
  • 행 및 열 수준에서 접근 권한을 설정할 수 있어 보안성을 높일 수 있습니다.
  • 이를 통해 민감한 데이터에 대한 접근을 보다 철저히 관리할 수 있습니다.

2.4 AWS Glue 기반

  • AWS Lake Formation은 AWS Glue 위에 구축되어 있습니다.
  • AWS Glue의 ETL(Extract, Transform, Load) 기능을 활용하여 데이터를 변환하고 적재하는 과정을 간소화합니다.
  • 데이터 카탈로그, 크롤러, ETL 작업 등 Glue의 다양한 기능을 활용할 수 있습니다.

2.5 자동화된 데이터 처리

  • 많은 복잡한 수작업 단계를 자동화하여 운영 효율성을 높입니다.
  • 데이터 수집, 정제, 이동, 카탈로깅 등의 과정을 자동으로 처리합니다.

2.6 Blueprints

  • AWS Lake Formation은 다양한 데이터 소스에서 데이터를 수집하고 변환하기 위한 기본적인 블루프린트를 제공합니다.
  • 소스 블루프린트를 사용하면 S3, RDS, 관계형 및 NoSQL 데이터베이스 등에서 데이터를 쉽게 인제스트할 수 있습니다.
  • 블루프린트를 사용하면 데이터 수집과 변환 과정을 간소화하고 자동화할 수 있습니다.
  • 기본 제공 블루프린트:
    • Amazon S3 블루프린트: S3 버킷에서 데이터를 수집하고 변환할 수 있습니다.
    • Amazon RDS 블루프린트: RDS 인스턴스에서 데이터를 수집하고 변환할 수 있습니다.
    • 관계형 데이터베이스 블루프린트: 다양한 관계형 데이터베이스에서 데이터를 수집할 수 있습니다.
    • NoSQL 데이터베이스 블루프린트: NoSQL 데이터베이스에서 데이터를 수집할 수 있습니다.

3 사용 사례

3.1 데이터 레이크 구축

  • AWS Lake Formation을 사용하여 중앙 집중식 데이터 레이크를 신속하게 구축할 수 있습니다.
  • 이를 통해 데이터를 쉽게 검색하고 분석할 수 있습니다.

3.2 데이터 통합 및 분석

  • 다양한 데이터 소스를 통합하여 일관된 데이터 분석 환경을 제공합니다.
  • 데이터를 정제하고 변환하여 분석에 최적화된 형태로 만들 수 있습니다.

3.3 보안 및 규정 준수

  • 세분화된 접근 제어를 통해 데이터 보안을 강화할 수 있습니다.
  • 민감한 데이터에 대한 접근을 철저히 관리하여 규정 준수를 지원합니다.

4 AWS Lake Formation 아키텍처

  • AWS Lake Formation은 다양한 데이터 소스(Amazon S3, RDS, Aurora, 온프레미스 데이터베이스)에서 데이터를 수집합니다.
  • 수집된 데이터는 AWS Lake Formation을 통해 인제스트됩니다.
  • AWS Lake Formation은 소스 크롤러, ETL 및 데이터 준비, 데이터 카탈로그, 보안 설정, 접근 제어와 같은 다양한 기능을 제공합니다.
  • 데이터 레이크는 S3에 저장되며, Athena, Redshift, EMR과 같은 서비스와 연동하여 데이터를 분석할 수 있습니다.
  • 최종 사용자는 이러한 데이터를 활용하여 다양한 분석 작업을 수행할 수 있습니다.

참고 자료