학과소식학생프로젝트

학생프로젝트


사용자 맞춤 사진 해석 및 소리 매칭 시스템 (김*백)

조회 194

소프트웨어융합대학 2024-08-13 16:13

사용자 맞춤 사진 해석 및 소리 매칭 시스템 (김*백)

내용

추진 배경

시각장애인들은 시각적 정보에 접근하는 데 큰 어려움을 겪습니다. 특히, 개인적인 추억이 담긴 사진을 볼 수 없다는 점에서 많은 불편함을 겪습니다. 가족 사진이나 중요한 순간들을 다시 느끼기 위해 주변 사람들의 도움이 필요하지만, 이로 인해 독립성이 제한될 수 있습니다. 이러한 문제를 해결하고자 AI 기술을 활용하여 시각장애인들이 혼자서도 사진에 대한 정보를 쉽게 얻을 수 있는 시스템을 개발하게 되었습니다.

목표 및 내용

  • 시각장애인들을 위한 추억 사진 정보 접근성 향상 시스템을 개발하는 것을 목표로 한다.
  • 사진 내 객체 인식과 사진 설명 제공, 사진에 맞는 사운드 매칭 기술을 통합함으로써,

시각적 정보의 음성 변환을 가능하게 하여 시각장애인의 정보 접근성과 참여를 극대화 하는 것을 추가 목표로 한다.

  • 수행결과
  • YOLOv5 커스텀 모델을 통해 가족 사진에서 객체를 정확하게 인식하고 추출한 후, OCR 기술을 활용하여 사진의 날짜 정보를 추출하는 데 성공했습니다. 인식된 객체와 날짜 정보를 바탕으로 GPT-4o를 사용하여 사진과 어울리는 사진 설명문을 생성하고, 이를 TTS 기술로 변환하여 시각장애인들이 음성으로 들을 수 있게 했습니다. 또한 다중 모달 모델을 통해 사진의 배경과 맞는 사운드를 매칭해주는 시스템을 구현하였습니다.