학과소식학생프로젝트

학생프로젝트


이미지에서 추출한 텍스트에 사전 기능 넣기 (장*서)

조회 189

소프트웨어융합대학 2023-06-29 15:26

첨부파일

이미지에서 추출한 텍스트에 사전 기능 넣기 (장*서)

내용

추진 배경

과제나 프로젝트를 진행할 때, 자료조사를 진행하다 보면 영어 논문을 참고할 경우가 많다. 영어 논문이다 보니 해석도 잘 안되고 어려운 단어도 많이 포함하고 있어 불편함이 많았다. 이를 해소하기 위해 이번 프로젝트를 진행하였다.

목표 및 내용

- 이 프로젝트의 주요 과정은 ‘영어 논문에 OCR 적용 -> 적용된 텍스트에 언어 사전 기능 적용’이다. 해당 과정에서 필요한 기능들은 OCR과 언어 사전 기능이다. OCR은 파이썬 내장 라이브러리 ‘pytesseract’를 언어 사전 기능은 파이썬 내장 라이브러리 ‘PyDictionary’와 번역하기 위해서 네이버 오픈 API인 파파고 번역을 신청하여 등록하고 사용 중이다.

- 사전 기능을 적용했을 때, 해당 단어의 모든 사전 내용이 나온다. 그러나 해당 단어가 포함된 문맥에 어떤 뜻이 맞는지 판단하기 어려운 상황이 발생할 때, 이를 해결하기 위한 방법으로 해당 단어가 문맥에서 동사나 형용사, 부사 등 어떠한 품사인지 구별하고 해당 품사에 맞는 사전 내용만 나오게 하였다.

- 영어 논문을 OCR 하기 위해 파이썬 내장 라이브러리인 ‘pytesseract’를 사용하였으나, 문자 인식률이 나쁜 문제가 있었다. 해당 문제를 해결하기 위하여 ‘pytesseract’에 기울기 수정, 흑백 처리, 글씨체 변경, 글씨 크기 변경 등 여러 내용을 학습시켜서 문자 인식률을 높였다.

  • 수행결과
  • ‘번역 기능 적용’이 눌러져 있을 경우 OCR 한 텍스트에서 특정 텍스트를 드래그할 경우 해당 텍스트의 번역 결과를 두 번째 프레임에 표시한다. 마찬가지로 ‘사전 기능 적용’이 눌러져 있을 경우 사전 기능 결과가 두 번째 프레임에 표시된다. 다른 텍스트를 드래그하여 번역이나 사전 기능을 적용시키려 할 경우 기존 결과는 사라지게 설정하였다.