[02월 21일] Extract Paragraph
Extracting headers and paragraphs from pdf
GCP에 Python 코드 업로드
일단은 ML코드 보다는 패키지를 사용한 알고리즘 코드이므로 서버에서 알고리즘을 통해 나온 결과를 json으로 전달될 수 있도록 하는게 좋을 것 같다.
그리고 각각 패키지 및 Vision API에서 나올 수 있는, 정확도 좋은 결과가 각각 다르므로 이를 모두 통합시켜서 json 파일로 만드는 것도 중요한 것 같다.
- Vision API: bounding box의 위치(x, y 좌표)
- Extract-Text-Image: 이미지, 표, 텍스트 추출(텍스트는 Vision API도 괜츈)
- PDF-Structure: 텍스트의 크기를 알 수 있다(단: 한 단어 단위로 잘라냄)
오늘 밤 TODO
- PDF-Structure: 코드 수정 -> 한 줄당 태깅 설정을 할 수 있는지
- 한 줄당 태깅이 되지 않았던 이유는 pdf 상에서 애초에 줄바꿈이 있었기 때문이다.
- PDF-Structure: 줄바꿈이 없는 줄도 띄어쓰기가 되는 경우가 있다. 왜?
- Extract-Text-Image: 쓸데 없는 이미지 추출 방지할 수 있는지
- Extract-Text-Image, PDF-Structure, Vision API 정보 통합 및 json 정리
- GCP 코드 업로드는 내일 하기!
댓글남기기