[02월 21일] Extract Paragraph

February 21, 2023 최대 1 분 소요

Extracting headers and paragraphs from pdf

GCP에 Python 코드 업로드

일단은 ML코드 보다는 패키지를 사용한 알고리즘 코드이므로 서버에서 알고리즘을 통해 나온 결과를 json으로 전달될 수 있도록 하는게 좋을 것 같다.
그리고 각각 패키지 및 Vision API에서 나올 수 있는, 정확도 좋은 결과가 각각 다르므로 이를 모두 통합시켜서 json 파일로 만드는 것도 중요한 것 같다.

Vision API: bounding box의 위치(x, y 좌표)
Extract-Text-Image: 이미지, 표, 텍스트 추출(텍스트는 Vision API도 괜츈)
PDF-Structure: 텍스트의 크기를 알 수 있다(단: 한 단어 단위로 잘라냄)

오늘 밤 TODO

PDF-Structure: 코드 수정 -> 한 줄당 태깅 설정을 할 수 있는지
- 한 줄당 태깅이 되지 않았던 이유는 pdf 상에서 애초에 줄바꿈이 있었기 때문이다.
PDF-Structure: 줄바꿈이 없는 줄도 띄어쓰기가 되는 경우가 있다. 왜?
Extract-Text-Image: 쓸데 없는 이미지 추출 방지할 수 있는지
Extract-Text-Image, PDF-Structure, Vision API 정보 통합 및 json 정리
GCP 코드 업로드는 내일 하기!

Twitter Facebook LinkedIn

Sohn SooKyoung

[02월 21일] Extract Paragraph

Extracting headers and paragraphs from pdf

GCP에 Python 코드 업로드

오늘 밤 TODO

공유하기

댓글남기기

참고

Mujoco Tutorial 02/28

[졸업 프로젝트] 시각장애인을 위한 LaTeX 수식 음성 변환 기능 구현

[통계분석실습] 빅데이터 기반 프로야구 인기도 지표 분석 및 구단별 인기 기여 정도 파악

[Chap 5] EM 알고리즘