학과소식학생프로젝트

학생프로젝트


koBERT 기반 텍스트 분류 API (김*민)

조회 213

소프트웨어융합대학 2024-08-13 16:39

첨부파일
koBERT 기반 텍스트 분류 API (김*민)

내용

추진 배경

사이버 모욕 범죄가 지속적으로 늘어나고 있습니다. 인터넷 상에서 익명성을 이용하여 욕설을 하고 관리자는 그것을 모두 잡기에는 너무 많은 인력과 비용이 들어갑니다 따라서 해당 프로젝트를 실행하게 되었습니다.

목표 및 내용

기존의 개발 프레임워크에 있는 단어 필터링 시스템은 문장에서 단어를 검사하여 해당 단어를 *로 바꾸는 시스템입니다. 이는 단어를 조금만 변경해도 *로 바꾸는 것이 불가능했습니다. 하지만 LLM기반으로 문장을 분류하여 학습시키면 해당 비속어를 변경해도 찾을 수 있습니다.

  • 수행결과
  • 프로젝트 결과로 문장을 5개의 분류로 구분하게 됐습니다. 클린, 욕설, 세대갈등, 비하, 회화화등으로 분류하게 되었습니다. 이는 필요한 경우에 따라 문장의 분류를 사용자에게 보여줄 수도 있고 숨길 수도 있습니다. 해당 LLM은 API로 만들어서 언제 어디서든 문장을 송신하면 해당 문장과 분류를 수신합니다. 커뮤니티의 관리자들이 조금 더 쉽게 사용할 수 있습니다.