[02월 28일] Google TTS API 사용기
구글 tts api 사용기
사용하기 전에 일단은 텍스트만 추출해서 모아놓은 json 파일 통합이 필요했다.
일단은 해당 텍스트의 사이즈, text 내용만 json에 통합을 시켰고, tts api를 통해서 음성으로 변환을 해보았다.
👉 Google TTS API 성능 확인하기
일단은 페이지 전체가 아닌 한 문장씩 음성으로 변환을 하였고, 해당 텍스트를 음성으로 옮겼다. 성능은 좋아! 역시!
46페이지 pdf를 음성으로 한 줄 씩 변환하는데는 총 3분 18초가 걸렸다.
pdfminer
통합 json 수정
json 구조
페이지: [{"full-text": ""}, {"size": int, "line-text": ""}]
이런 느낌인데, 사실 full-text
, size
, line-text
를 같은 딕셔너리에 넣고 싶었는데,,,, 다른 패키지를 사용하다보니까 사실상 불가? 뭔가 합치면 될 것 같은데 이 부분에 대해서는 좀더 찾아봐야될 것 같다.
To-Do
🔲 이미지 추출 -> Vision API를 통해서 캡션까지 json에 저장하기
🔲 json을 통해서 로컬 이미지를 어떻게 전달하는지 찾아보기
🔲 python 코드를 gcp에 어떻게 올리는지 “제발좀” 알아보기
🔲 mp3 파일도 json을 통해서 어떻게 전달이 되는지 확인하기
🔲 서버에 올리기(희망사항)
댓글남기기