본문 바로가기
개발기록/머신러닝

[머신러닝] 데이터 특징요소 분류 및 특징요소 추출

by spectrum20 2024. 11. 17.
반응형

데이터 특징요소 종류

1. 데이터 진폭 (에너지)

  • Maximum : 최댓값
  • Minimum : 최솟값
  • Mean : 평균값
  • RMS (Root Mean Square) 

 

2. 데이터 분포

  • Variance : 분산
  • Skewness (왜도, 비대칭도) : 분포의 좌우 쏠림 형태를 수치화
  • Kurtosis (첨도) : 본포의 뾰족한 형태를 수치화
평균이 같고 분산이 다른 그래프
왜도 / 첨도 (https://wikidocs.net/202390)

 

3. 데이터 그래프 파형

  • Shape Factor : 파형의 전반적인 모양
  • Crest Factor : 파형의 날카로움 정도 비율
  • Impulse Factor : 임펄스성 신호의 비율




 

핵심 특징요소 도출 방법론 

1. 특징 선택 (Feature Selection)

▶ Filter 기법
: 통계 테스트 결과로 상위 특징 선택

  • T test : 두 집단의 평균이 같은지 판별
        유의수준(p value)가 1%보다 낮은 특징 찾기 → 두 집단이 다르다 
  • F test : 두 모집단의 산포를 모를 때, 분산이 같은지 판별
  • mRMR (Minium-Redundancy Maxium-Relevance) : 최소 중복성 최대 관련성
        중복데이터를 제거하고, 예측값과의 상관성을 최대화하여 오버피팅을 방지

 Wrapper 기법
: 모델 학습 기반, 특징의 중요도 평가

  • Forward Selection : 공집합에서 성능 향상이 없을 때까지 변수 추가
  • Backward Elimination : 전체 집합에서 가장 덜 중요한 변수부터 제거하면서 모델 성능 향상이 없을 때까지 반복
  • Recursive Feature Elimination : 모델을 계속해서 생성하면서 가장 좋거나 나쁜 성능을 내는 모델을 따로 보관, 모든 변수가 없어질 때까지 반복

 

2. 차원 축소 (Dimensional Reduction)

 PCA (Principal component Analysis, 주성분 분석)
: 분산을 최대한 보존하는 방향으로 서로 직교하는 새 기저를 찾아, 저차원 공간으로 변환하는 기법

 LDA (Linear Discriminant Analysis, 선형판별분석)
: 집단을 잘 구분할 수 있는 기저를 찾아 변환하는 기법

 
 
 
 
 
머신러닝 : 특칭 추츨 작업을 사람이 함
딥러닝 : 특징 추출 작업을 GPU가 함 (더 많은 데이터 필요)
 

반응형

댓글