데이터에 대한 탐색적 데이터 분석 – 데이터 분석을 위한 단계

데이터에 대한 탐색적 데이터 분석- 데이터 분석을 하기 위해서는 EDA(탐색적 데이터 분석)를 참조하여 진행해야 한다. EDA에서는 다음과 같은 7단계로 데이터를 분석하고 이해하고 탐구한다.

데이터 분석
데이터 분석

아래 내용은 EDA가 발표된 이후 꾸준히 발전해 왔다. 상황에 맞추어 항목을 조금씩 수정하며 기술적요소를 잘 활용하고 있는 것이다. 단순한 통계를 이용한 방법이 빅데이터 및 AI를 활용한 방법으로 진화하고 있기 때문이다.

1. 데이터에 대한 탐색적 데이터 분석 – 기술 분석

  • 평균, 중앙값, 표준 편차, 최소값, 최대값 등 각 열의 기본 통계를 검토
  • 데이터 분포에 대한 일반적인 아이디어를 얻는다.
  • 파이썬에서 데이터프레임의 요약통계량을 조회하는 “df.describe()”로 나오는 기본적인 결과에서 제공됩니다.
    참, 숫자 데이터에만 해당합니다.
df.describe()
df.describe()

2. 데이터 정리 (데이터 정제)

  • 데이터에서 이해되지 않는 매우 높거나 낮은 값과 같이 데이터에서 누락된 값(결측치)이나 이상치를 확인
  • 결측치나 이상치의 처리 방법을 결정
  • 유형
    • 결측치 경우: 결측치가 있는 행이나 열을 제거, 다른값으로 수정(평균, 최대값 등)
    • 이상치: 이상치를 다른 값으로 대체(평균치, 중앙값, 최대값, 대표값 등으로)
    • 이상치 확인하는 방법 – IQR 활용, 그래프로는 박스플롯을 활
이상치 확인하기 - IQR
이상치 확인하기 – IQR

3. 범주형 변수 분석

  • ‘등급’, ‘부서’, ‘직위’, ‘근무 유형’과 같은 범주형 변수에 대해 빈도 분석을 수행
  • 각 범주에 몇 명의 직원 또는 몇 개의 물건 등 이 있는지 확인
  • 범주 데이터 확인

4.수치 변수 분석

: 히스토그램, 상자그림 등의 차트는 ‘급여’, ‘성과등급’, ‘결근지수’ 등과 같은 수치변수의 분포를 이해하는 데 유용합니다.

5.변수 간의 관계

  • 다양한 변수가 서로 어떻게 상호 작용하는지 탐색
  • 예 – 급여 수준과 성과 평가 사이 관계, 부서와 결근 지수 사이와의 관계 등을 조사할 수 있음
  • 서로 영향이 있을 것이라고 판단되는 변수를 탐색

6. 데이터에 대한 탐색적 데이터 분석 -시간적 분석

  • 데이터에 시간 항목이 있을 경우 급여 인상이나 직원 평가 변화 등 시간 경과에 따른 추세를 분석
  • 시간 진행에 따른 승급-사원, 주임, 대리, 과장, 차장 등 / 연봉의 증가치

7. 고급 분석

  • 필요한 경우 유사한 특성을 가진 직원 그룹을 식별하기 위한 클러스터 분석
  • 직원 성과에 영향을 미치는 주요 요인을 이해하기 위한 요인 분석 등
  • 보다 복잡한 분석을 통해 더 깊이 탐구.
  • 빅데이터 분석 기법, 머신러닝 기법 등을 적용
  • 네트워크 분석을 활용하면 데이터의 속성 간 연계성이 보입니다.

위의 분석은 해당 업종의 전문 지식을 가진 전문가의 도움이 필요하다. 데이터 중 범주 데이터에 대한 이해, 속성에 대한 이해 그리고 속성관 관계의 이해를 위해서도 필요한 것이다.

— 위 글은 Medium에 소개된 panData의 “Revolutionizing Data Analysis”의 일부입니다.
데이터분석 방법인 EDA에 대한 절차를 7가지로 소개한 부분이 있어서 발췌 하였습니다. —

>> 같이 보기

(끝)

1 thought on “데이터에 대한 탐색적 데이터 분석 – 데이터 분석을 위한 단계”

댓글 남기기