본문으로 건너뛰기

Polly

1 Amazon Polly

  • Amazon Polly는 텍스트를 자연스럽고 생동감 있는 음성으로 변환하는 서비스입니다.
  • 다양한 언어와 음성을 지원하여 여러 글로벌 사용자를 위한 음성 애플리케이션을 쉽게 개발할 수 있습니다.
  • 머신러닝을 활용하여 높은 품질의 음성 합성을 제공합니다.

2 주요 기능

2.1 다양한 언어 및 음성 지원

  • Amazon Polly는 다양한 언어와 음성을 지원합니다.
  • 남성 및 여성 음성을 선택할 수 있으며, 각 언어마다 여러 음성 옵션을 제공합니다.
  • 30개 이상의 언어와 60개 이상의 음성을 지원합니다.

2.2 텍스트-음성 변환 (TTS)

  • 텍스트를 자연스럽고 생동감 있는 음성으로 변환할 수 있습니다.
  • 뉴스, 소설, 기술 문서 등 다양한 종류의 텍스트를 음성으로 변환하여 사용자가 청취할 수 있습니다.
  • 실시간 스트리밍과 배치 작업 모두 지원합니다.

2.3 사용자 정의 음성 사전 (Lexicon)

  • 특정 단어의 발음을 사용자 정의할 수 있습니다.
  • 예를 들어, 'St3ph4ne'을 'Stephane'으로, 'AWS'를 'Amazon Web Services'로 발음하도록 설정할 수 있습니다.
  • 사용자 정의 음성 사전을 업로드하고 SynthesizeSpeech 작업에서 사용할 수 있습니다.

2.4 Speech Synthesis Markup Language (SSML) 지원

  • SSML을 사용하여 음성의 억양, 속도, 볼륨 등을 조정할 수 있습니다.
  • 텍스트에 SSML 태그를 추가하여 음성 합성을 세밀하게 제어할 수 있습니다.
  • 특정 단어나 구를 강조하거나, 음성 발음을 사용하거나, 숨소리와 속삭임을 포함할 수 있습니다.
  • 뉴스 스타일의 음성을 사용할 수 있습니다.

2.5 자동 언어 감지

  • 입력 텍스트의 언어를 자동으로 감지하고 해당 언어로 음성을 생성할 수 있습니다.
  • 다국어 콘텐츠를 효율적으로 처리할 수 있습니다.

2.6 음성 스트리밍

  • 실시간으로 텍스트를 음성으로 변환하여 스트리밍할 수 있습니다.
  • 웹 애플리케이션, 모바일 앱, IoT 기기 등 다양한 플랫폼에서 실시간 음성 출력을 사용할 수 있습니다.

2.7 Polly Newscaster

  • 뉴스와 같은 정보 전달에 적합한 음성을 생성할 수 있습니다.
  • 뉴스 기사, 안내 방송 등 전문적인 톤의 음성을 제공하여 정보를 효과적으로 전달할 수 있습니다.

3 사용 사례

3.1 접근성 향상

  • 시각 장애인이나 난독증 환자와 같은 사용자들이 콘텐츠에 접근할 수 있도록 돕습니다.
  • 웹사이트, 전자책, 애플리케이션 등에 음성 출력을 추가하여 접근성을 높일 수 있습니다.

3.2 고객 지원 자동화

  • 고객 서비스 챗봇이나 가상 비서에 자연스러운 음성을 추가하여 사용자 경험을 향상시킬 수 있습니다.
  • FAQ 응답, 안내 메시지 등을 음성으로 제공하여 고객 만족도를 높일 수 있습니다.

3.3 미디어 및 엔터테인먼트

  • 오디오북, 팟캐스트, 비디오 내레이션 등 다양한 미디어 콘텐츠에 음성을 추가할 수 있습니다.
  • 자동 음성 생성을 통해 콘텐츠 제작 비용과 시간을 절감할 수 있습니다.

3.4 교육 및 학습

  • 교육 자료를 음성으로 변환하여 학습자에게 제공합니다.
  • 언어 학습 애플리케이션, 온라인 강의 등에서 음성 출력을 활용하여 학습 효과를 높일 수 있습니다.

3.5 사물인터넷 (IoT)

  • 스마트 홈 기기, 자동차 내비게이션 시스템 등 IoT 기기에 음성 출력을 추가할 수 있습니다.
  • 사용자와의 상호작용을 자연스럽고 효율적으로 만들어줍니다.

4 장점

4.1 높은 품질의 자연스러운 음성

  • Amazon Polly는 최신 딥러닝 기술을 활용하여 자연스럽고 생동감 있는 음성을 제공합니다.
  • 다양한 사용 사례에 맞춰 고품질 음성을 생성할 수 있습니다.

4.2 확장성 및 유연성

  • 대량의 텍스트를 동시에 처리할 수 있는 확장성을 제공합니다.
  • API를 통해 다양한 애플리케이션에 쉽게 통합할 수 있습니다.

4.3 비용 효율성

  • 사용한 만큼만 비용을 지불하는 유연한 요금제를 제공합니다.
  • 대량 처리 시에도 경제적인 비용으로 서비스를 이용할 수 있습니다.

4.4 SSML 지원

  • SSML을 사용하여 음성 합성을 세밀하게 제어할 수 있습니다.
  • 억양, 속도, 볼륨 등을 조정하여 사용자 맞춤형 음성을 생성할 수 있습니다.

5 AWS의 다양한 머신러닝 서비스

  1. Amazon SageMaker
    • 용도: 머신러닝 모델을 구축, 훈련, 배포할 수 있는 통합 환경을 제공.
    • 특징: 데이터 레이블링, 모델 훈련, 튜닝, 배포 도구 포함.
  2. Amazon Comprehend
    • 용도: 텍스트 분석 및 이해를 위한 자연어 처리(NLP) 서비스.
    • 특징: 감정, 핵심 구절, 엔티티, 언어 등의 통찰을 추출.
  3. Amazon Rekognition
    • 용도: 이미지 및 비디오 분석.
    • 특징: 객체 감지, 얼굴 인식, 이미지 내 텍스트 인식, 콘텐츠 검열.
  4. Amazon Polly
    • 용도: 텍스트를 자연스러운 음성으로 변환하는 서비스.
    • 특징: 다양한 언어와 목소리를 지원하여 텍스트를 음성으로 변환.
  5. Amazon Transcribe
    • 용도: 음성을 텍스트로 변환하는 자동 음성 인식 서비스.
    • 특징: 다양한 음성 파일의 내용을 텍스트로 변환하여 기록.
  6. Amazon Translate
    • 용도: 언어 간 텍스트 번역 서비스.
    • 특징: 실시간 언어 번역을 제공하며 다국어 콘텐츠 제작 지원.
  7. Amazon Forecast
    • 용도: 시간 시계열 데이터를 기반으로 예측 생성.
    • 특징: 데이터 패턴을 분석하여 수요 예측, 재고 관리 등에서 활용.
  8. Amazon Personalize
    • 용도: 개인화된 추천 시스템 구축.
    • 특징: 사용자 행동 데이터를 기반으로 맞춤형 콘텐츠 추천