학과소식학생프로젝트

학생프로젝트


더 현실적인 모의 데이터 셍성 모델 (김*현)

조회 176

소프트웨어융합대학 2024-08-24 12:58

첨부파일
더 현실적인 모의 데이터 셍성 모델 (김*현)

내용

추진 배경

기존에 소프트웨어 분야에 사용되고 있던 데이터 생성 라이브러리(Faker.js 등)는

실제 데이터 (real data)와 유사하지 않은, 논리적으로 불가능한 데이터를 생성하는 경우가

잦습니다. 이러한 문제를 신경망을 통한 데이터 생성을 통해 해결해보고자 합니다.

목표 및 내용

AutoEncoder 기반의 데이터 생성 모델 Variational AutoEncoder와 Conditional Variational

AutoEncoder를 사용하여 데이터의 표현과 의존 관계를 학습하고 데이터를 증강 및 생성에

사용하여 성능을 평가합니다.

  • 수행결과

왼쪽은 원본 데이터와 의사 난수 기반의 생성 데이터, 생성 모델을 통해 생성한 데이터의

유사성(통계적 거리)를 시각화 한 그래프, 오른쪽은 각 생성 데이터에 포함된 중복 데이터의

수입니다.

생성 모델을 통해 생성된 데이터가 의사 난수 기반 생성 데이터보다 더 적은 중복 데이터를

생성하는 모습입니다. 반면, 의사 난수 기반의 데이터와 유사한 수준의 원본 데이터 유사성을

보이는 것으로 보아 원본 데이터와 유사한 품질, 특성의 데이터를 생성하지 못 하는 것으로

보입니다.