최대 1 분 소요

구글 tts api 사용기

사용하기 전에 일단은 텍스트만 추출해서 모아놓은 json 파일 통합이 필요했다.
일단은 해당 텍스트의 사이즈, text 내용만 json에 통합을 시켰고, tts api를 통해서 음성으로 변환을 해보았다.
👉 Google TTS API 성능 확인하기

일단은 페이지 전체가 아닌 한 문장씩 음성으로 변환을 하였고, 해당 텍스트를 음성으로 옮겼다. 성능은 좋아! 역시!

46페이지 pdf를 음성으로 한 줄 씩 변환하는데는 총 3분 18초가 걸렸다.

pdfminer

pdfminer 구조 알기

통합 json 수정

json 구조

페이지: [{"full-text": ""}, {"size": int, "line-text": ""}]


download1


이런 느낌인데, 사실 full-text, size, line-text 를 같은 딕셔너리에 넣고 싶었는데,,,, 다른 패키지를 사용하다보니까 사실상 불가? 뭔가 합치면 될 것 같은데 이 부분에 대해서는 좀더 찾아봐야될 것 같다.

To-Do

🔲 이미지 추출 -> Vision API를 통해서 캡션까지 json에 저장하기
🔲 json을 통해서 로컬 이미지를 어떻게 전달하는지 찾아보기
🔲 python 코드를 gcp에 어떻게 올리는지 “제발좀” 알아보기
🔲 mp3 파일도 json을 통해서 어떻게 전달이 되는지 확인하기
🔲 서버에 올리기(희망사항)

댓글남기기