소프트웨어학과 주메뉴
전체메뉴
조회 158
소프트웨어융합대학 2024-08-24 13:17
구분 | 내용 |
추진 배경 | 디지털 환경에서 파일의 양이 증가함에 따라 사용자가 원하는 파일을 찾기 위해 많은 시간을 소비하게 됨. 불규칙하게 저장된 파일 혹은 중복 파일이 많아지면서 파일 검색과 관리의 어려움이 발생. |
목표 및 내용 | 파일 이름의 텍스트 데이터를 벡터화 하고, 파일 이름 데이터를 클러스터링하여 구조화 함. |
| TfidfVectorizer 모델을 통해 텍스트 데이터에 대한 벡터화를 진행 하고, DBSCAN으로 군집화 진행. 특정 군집으로 포함되지 않은 데이터에 대한 처리 방법으로 재군집화 및 기존 군집과 결합. 최적의 eps 값을 찾기 위하여 k-NN 그래프를 사용하여 엘보 포인트 탐색. 군집 평가지표 중 하나인 실루엣 계수를 도출하여 평가. |