[03월 15일] 이미지 추출 & 캡션 달기(2) & GCP url 생성
nlpconnect/vit-gpt2-image-captioning 사용기
- copy 코드를 사용해보니 임포트 시간이 엄청 오래 걸림,,
- git clone을 통해서 코드 돌려보기,, -> 일단은 clone 자체도 엄청 오래 걸린당,,,,
이미지 추출 정확도 높이기
근데 os.pdf 말고 데마분 pdf를 했는데 얘는 추출이 잘 됐다…
pdf 파일 일반화 → 에러 있나 확인 + 리펙토링
- \n으로 분리를 해서 ‘’ 문자열도 생기는데 여기서 fontSize를 구하는 데, 글자가 없어서 에러가 발생했음
에러 발생
- 원인 1: 알고리즘 입문(페이지 전체가 그냥 다 이미지로 분류됨 -> text가 추출되지 X)
Traceback (most recent call last): File "c:\STUDY\2023-High-Light-SolutionChallenge\extract.py", line 124, in <module> get_detailed(extract_data) File "c:\STUDY\2023-High-Light-SolutionChallenge\extract.py", line 93, in get_detailed concat_text = each_page[0]["text"] IndexError: list index out of range
내일 ToDo
⬛ All 검정 이미지 지우는 방법?
⬛ audio 파일 생성 시 영어가 있으면 en으로 한국어가 있으면 ko로 할 수 있는 방법 찾아보기
⬛ 🌟일단 url 생성 먼저,,, 알아보기
⬛ python 코드 GCP에 올리기
댓글남기기