학과소식학생프로젝트

학생프로젝트


OCR 기반 유해 텍스트 자동 필터링 크롬 확장 서비스(김*비)

조회 8

소프트웨어융합대학 2025-06-26 11:22

OCR 기반 유해 텍스트 자동 필터링 크롬 확장 서비스(김*비)

OCR 기반 유해 텍스트 자동 필터링 크롬 확장 서비스(김*비)

내용

추진 배경

□ 아동·청소년의 숏폼 콘텐츠 이용률이 높아지는 가운데 동영상 플랫폼의 미리보기 이미지에 자극적인 유해 텍스트가 증가하고 있음.
□ 이러한 텍스트는 무비판적 수용과 편견 학습, 모방 혐오로 이어질 수 있어 사회적으로 문제가 되고 있음.
□ 플랫폼 운영자뿐 아니라 사용자 단에서 유해 콘텐츠를 걸러낼 수 있는 기술적 장치의 필요성이 제기됨.

목표 및 내용

□ 동영상 미리보기 이미지에 포함된 텍스트를 OCR로 추출하고 AI 기반 분석을 통해 유해성을 판별한 뒤 필터링함.
□ PP-OCRv5로 텍스트를 추출하고 KcELECTRA 기반 문맥 분석 모델을 활용해 유해, 중립, 정상 여부를 분류함.
□ 필터링 기준은 연령별 등급으로 나누며 판단된 결과는 크롬 확장 프로그램을 통해 해당 썸네일 DOM에서 제거하거나 대체함.
□ 유해 단어뿐 아니라 중립 단어가 혐오 문맥에서 쓰인 경우까지 판단 가능하도록 문맥 중심 판단 방식을 설계함.
□ 실시간 처리 성능을 고려해 모델 배치 최적화 및 이미지 전처리도 반영함.

  • 수행결과

□ 크롬 확장 프로그램을 통해 동영상 썸네일 이미지를 실시간 감지하고 서버로 전송하는 기능을 구현함.
□ FastAPI 기반 백엔드 서버에서 OCR과 텍스트 유해도 판단 기능을 제공함.
□ 유해 텍스트가 포함된 이미지가 탐지되면 DOM 상에서 해당 썸네일을 제거하도록 클라이언트에서 처리함.
□ OCR 정확도 향상과 문맥 오분류 방지를 위해 전처리 및 데이터 증강, 중립 단어 기준 재설계 작업을 수행함.
□ 기업 피드백을 반영해 중립 단어 기준 및 필터링 판단 기준을 개선함.