[01월 31일] 2번째 피드백 + 윈터컵 제출 폼 내용 정하기
단점
- 글씨의 영역을 누르는 게 어려울 것 같습니다.
- 이미지에 대해 설명해 주는 것은 이미 적혀있는 설명을 읽어주는 것인가요? 아니면 앱 자체에서 이미지 캡션을 만들어주나요?
- 단점은 아니고, 북마크 같은게 있으면 좋을 것 같아요 (예시: 리디북스의 형광펜과 북마크)그리고 애플 어플 중 Notability처럼 태그를 나누어 섹션별로 모아볼 수 있으면 좋을 것같아요!
- iOS와 Android OS 자체에서 저시력자, 시각장애인들을 위해 터치 시 글을 읽어주는 기능을 제공하고 있습니다. (자료 뿐만 아니라 유튜브, 네이버, 인스타그램 같은 앱 내부 텍스트까지요..!)
- 휴대폰은 아무래도 텍스트를 선택하기 어려울 것 같습니다.
해결책
- 텍스트파일로 보여주는 기능도 있는 것은 어떨까요? 확대는 원하는 만큼 가능하도록 하면 좋을 것 같습니다.
- pdf가 핸드폰에서 깨짐없이 보기 더 좋을 것 같아요!
- 텍스트로 변환해서 큰 화면으로 보여주면 어떨까요?- 스마트폰이 작아 잘못 터치하는 경우가 많을 것 같습니다! 어디를 터치할지 모르는 저시력자도 있을 수 있으니 다 읽어주는 건 어떨까요
- 강의 자료는 pdf인 경우가 대부분이라서 pdf에 집중하는게 좋을 것 같습니다
- 굳이 터치를 하지 않아도 처음부터 끝까지, 또는 어느 구간만 자료를 오디오북처럼 읽을 수 있는 기능이 있으면 좋을 것 같아요! 저시력자로서 스마트폰이나 태블릿을 계속 가까이 바라보며 공부하는게 일반인보다 훨씬 안 좋더라고요.. 그것 때문에 자료를 읽어주는 앱을 찾아봤는데 마땅찮은게 없었습니다. (기능도 별로인데 모두 유료였어요.)
- 휴대폰에서 텍스트를 선택하기 편하게 아예 강의 자료를 텍스트 버튼으로 되어있는 화면으로 구성해주는 것도 좋을 것 같습니다. 예를 들어 문장 한 줄을 큰 버튼 안에 넣어서 리스트나 스택 형태로 나타넵니다.
서비스 세부 디자인 아이디어
- 터치되면 마우스 커서처럼 커서 띄우기(화면을 터치하고 있으면 손가락을 따라서 움직이는 커서?)
- 터치가 되면 글씨 확대 기능
- 북마크 기능 어떻게?
대략적 진행 과정
대략적으로
- pdf-to-jpg
- Google Vision API를 통해서 텍스트 추출 : 모델 API 배포 방법
- 머신러닝을 사용하여 PDF를 오디오북으로 변환하는 방법
영상에서는 PDF를 Vision API를 통해서 텍스트를 추출한 다음에 Auto ML Tables 통해서 쓰레기 텍스트를 추출했다고 했다. 또한 Auto ML Tables를 사용해서 헤더인지 텍스트인지를 구분하였다. 여기서 직접 데이터셋을 만들어서 글씨 크기에 따라서 무엇을 나타내고 있는지를 하나하나 지정했다고 했다. 그 다음 Text-to-Speech를 이용해서 오디오 형식으로 만들었다.
ML
- pdf -> jpg -> 강의안 내의 이미지 추출
- pdf -> vision api -> tts 테스트까지
- 모델을 어떻게 합칠지
- 모델의 output은 어떤 식으로 해야되는지
댓글남기기