학과소식학생프로젝트

학생프로젝트


TfidVectorizer와 DBSCAN을 활용한 파일 구조화 (안*욱)

조회 158

소프트웨어융합대학 2024-08-24 13:17

첨부파일

TfidVectorizer와 DBSCAN을 활용한 파일 구조화 (안*욱)

내용

추진 배경

디지털 환경에서 파일의 양이 증가함에 따라 사용자가 원하는 파일을 찾기 위해 많은 시간을 소비하게 됨.

불규칙하게 저장된 파일 혹은 중복 파일이 많아지면서 파일 검색과 관리의 어려움이 발생.

목표 및 내용

파일 이름의 텍스트 데이터를 벡터화 하고, 파일 이름 데이터를 클러스터링하여 구조화 함.

  • 수행결과

TfidfVectorizer 모델을 통해 텍스트 데이터에 대한 벡터화를 진행 하고, DBSCAN으로 군집화 진행.

특정 군집으로 포함되지 않은 데이터에 대한 처리 방법으로 재군집화 및 기존 군집과 결합.

최적의 eps 값을 찾기 위하여 k-NN 그래프를 사용하여 엘보 포인트 탐색.

군집 평가지표 중 하나인 실루엣 계수를 도출하여 평가.