General Information

[Google] 구글의 Text-To-Speech (TTS) 서비스

PLAI 2023. 3. 5. 15:18

구글에서도 TTS 서비스를 제공한다.

아래와 같이 Python package를 이용하여 무료로 소리를 생성할 수 있다 (Google colab에서 실행 테스트).

# ! pip install gtts
from gtts import gTTS
from IPython.display import Audio
tts = gTTS(text='Hello world!', lang='en')
tts.save('test.mp3')
sound_file = 'test.mp3'
Audio(sound_file, autoplay=True)

 

그런데 위 방식 말고 다른 방식으로 조금 더 세밀하게 옵션을 조절하여 사용할 수 있었다. 사용을 하려면 구글 클라우드 플랫폼에 가입을 진행해야 한다.

https://console.cloud.google.com/speech/text-to-speech

 

Google 클라우드 플랫폼

로그인 Google 클라우드 플랫폼으로 이동

accounts.google.com

Text-to-Speech 등의 서비스를 API 형태로 다양한 방식으로 사용해볼 수 있는데, 간단하게는 위 사이트(구글 클라우드 콘솔)에서 편하게 텍스트로부터 음성 파일을 생성할 수 있었다 ("프로그래매틱 방식으로 API에 액세스하지 않으려면 Google Cloud CLI의 도구 또는 Google Cloud Console을 사용하여 일부 동일한 기능에 액세스할 수 있습니다." [1] 라고 한다).

UI가 잘 되어있어서 사용하기 편리했다. 300달러와 함께 90일 간의 무료 평가판 기간을 제공해준다.

 

목소리를 선택할 때 Standard와 WaveNet이 구분되는데 WaveNet 모델은 실제 인간이 말한 원시 오디오 샘플을 사용하여 학습되었기 때문에 Standard보다 더 따뜻한 느낌을 줄 수 있다고 한다 (프리미엄 음성). 예를 들어, ko-KR-Wavenet-A와 ko-KR-Standard-A 모두 비슷한 느낌을 주지만 전자가 더 인간과 비슷하다고 한다. 또한 Neural2는 합성 음성 생성의 최신 버전이고, Studio는 나레이션, 뉴스 읽기 등 긴 형식의 텍스트에 사용하도록 특별히 설계되었다고 한다 [3].

 

가격표는 아래와 같다.

https://cloud.google.com/text-to-speech/pricing?hl=ko

 

전체 음성 리스트는 아래에서 들어볼 수 있다. 한국어의 경우에 ko-KR-Wavenet-B (여성), ko-KR-Wavenet-C (남성)는 차분한 느낌, ko-KR-Wavenet-A(여성), ko-KR-Wavenet-D(남성)는 발랄한 느낌이었다. 개인적으로는 ko-KR-Neural2-C (한국 남성)와 en-US-Neural2-D (미국 남성)가 마음에 들었다.

https://cloud.google.com/text-to-speech/docs/voices?hl=ko 

 

지원되는 음성 및 언어  |  Cloud Text-to-Speech 문서  |  Google Cloud

Text-to-Speech는 다음과 같은 음성을 제공합니다. 이 목록에는 Neural2, Studio, Standard, WaveNet 음성이 포함됩니다. Studio, Neural2, WaveNet 음성은 가격이 다른 고품질 음성입니다. 목록에 'Neural2', 'Studio' 또는

cloud.google.com

 

유튜브 채널도 놀러오세요 😊 좋아요·구독 감사합니다 🥹

 

참조

  1. https://cloud.google.com/apis/docs/client-libraries-explained?hl=ko
  2. https://cloud.google.com/text-to-speech/docs/basics?hl=ko
  3. https://cloud.google.com/text-to-speech/docs/wavenet?hl=ko#studio_voices_preview
반응형