[02월 22일] pdf에서 글자 추출 수정 및 json 파일 만들기
pdf에서 추출한 글자를 글자 크기 + 한 문장씩 이렇게 하고 싶어서 기존에 사용하던 패키지(fitz) 말고 다른 패키지(pdfminer.high_level)를 사용해서 진행했다.
그리고 서버로 전달을 할 때, json 형태로 전달을 해야될 것 같아서 json 파일로 정리를 했다.
json 파일에 들어간 정보
- page 번호
- text
- 글자 size
여기서 추후 이미지 정보와 표 정보만 들어가면 될 것 같다.
깃허브에서 issue를 만들고 여기에 대해서 브랜치를 만들고 issue에서 만들었던 todo들을 지워가는 형식으로 깃허브를 사용하고 있다.
이렇게 깃허브를 통해서 협업을 해본 적은 처음이라서 신기했다!
댓글남기기