먼가 작고 귀여운 코드..
[ Python ] 데이터 분석, 데이터 분석 방법(확증적 분석, 탐색적 분석) 본문
240522수
데이터 분석이란?
데이터를 이용해 크고 복잡한 현상에서 유의미한 패턴을 찾고 그로부터 의사결정에 필요한 통찰을 얻는 행위이다.
여기서 패턴은 경향(Trend)일 수도 있고 계절성(Seanality)일 수도 있다.
떄에 따라서 이상값(Outlier)도 주요한 관찰 대상이 된다.
데이터 분석의 이유?
데이터 분석만으로 문제를 해결하거나 새로운 서비스를 제공할 수는 없지만,
분석 결과로 밝혀진 패턴과 그로 인한 통찰을 이용하면 합리적인 의사결정이 가능해지기 때문에 데이터 분석을 한다.
데이터 분석 방법
데이터 분석을 위한 방법으로는 크게 두 가지가 있다.
확증적 데이터 분석(CDA)과 탬색적 데이터 분석(EDA) 두 종류이다.
- 가설을 세운 후에 이를 데이터를 통해 검증해 본다. ► CDA
- 데이터를 우선 살펴보면서 인사이트를 도출해 낸다. ►EDA
1. 확증적 데이터 분석(CDA:Confirmatory Data Analysis)-엄격하고 체계적인 방법으로 가설 검증
사전에 정의된 가설을 검증하기 위해 데이터를 분석하는 방법이다.
사전에 정의되 가설을 검증하기 위해 체계적으로 데이터를 수집하고 분석하는 과정을 거친다.
추론 통계를 주로 사용해 설문 조사, 논문에 대하 내용을 입증하는데 많이 사용한다.
📍 예시 1 📍
경찰 순찰 강화의 범죄 예방 효과를 가설로 설정하고, 관련 데이터를 수집한 뒤,
경찰 순찰 강화 전후의 범죄 발생빈도의 상관관계를 파악해 가설을 검증하는 방식
[ 가설 설정 ]
- 경찰 순찰을 강화하면 범죄예방 효과가 있다
[ 데이터 수집 ]
경찰 순찰 강화 전후의 범죄 발생 데이터
- 지역별 경찰 순찰 기록
- 경찰청 공개 범죄 발생 데이터
[ 통계 분석 ]
- 순찰 강화 지역과 범죄 발생 빈도의 상관관계
- 순찰 강화 전후의 범죄 발생 변화율 변화 분석
[ 가설 검증 ]
- 분석 결과를 통해 가설을 채택하거나 기각
📍 예시 2 📍
가로등 설치의 야간 범죄 감소를 가설로 설정하고, 관련 데이터를 수집한 뒤,
가로등 설치 전후의 야간 범죄 발생빈도의 상관관계를 파악해 가설을 검증하는 방식
[ 가설 설정 ]
- 가로등 설치 시 시 야간 범죄 감소 효과가 있다
[ 데이터 수집 ]
가로등 설치 전후의 야간 범죄 발생 데이터
- 지자체 가로등 설치 기록
- 경찰청 공개 범죄 발생 데이터
[ 통계 분석 ]
- 가로등 설치 지역과 범죄 발생 빈도의 상관관계
- 가로등 설치 전후의 월별 야간 범죄율 변화 분석
[ 가설 검증 ]
- 분석 결과를 통해 가설을 채택하거나 기각
✅ 결론
위 두 예시는 공공데이터를 활용해 사전 가설을 검증하는 확증성 분석의 예시이다.
데이터를 통해 특정 정책이나 조치의 효과를 객적으로 평가할 수 있다.
2. 탐색적 데이터 분석(EDA : Exploratory Data Analysis) - 데이터 패턴에서 인사이트 발견
데이터 시각화 기법을 통해 데이터의 특징과 구주로부터 통찰을 얻는 귀납적 분석기법이다.
선입견 없이 유연한게 데이터를 탐색하는 과정을 거친다.
기술 통계 기법을 주로 사용하며, 비교적 최근에 많이 사용하는 분석 방법이다.
📍 예시 1 📍
대중교통 이용 패턴 분석
[ 데이터 수집 ]
- 서울의 지역별, 시간대별 버스와 지하철 이용 건수 데이터 확보
[ 시각화/탐색 ]
- 시각화 : 시간과 지역의 변화에 따른 대중교통 이용량을 다양한 관점으로 시각화
- 탐색 : 출퇴근 시간, 주말과 주중, 특정 이벤트(예. 축제, 대규모 행사) 시기 등의 변화를 탐색
[ 패턴 도출 ]
- 시각화 자료로부터 지역별, 시간대별 일정한 패턴이 있음을 발견
[ 가설 검증 ]
- 시기와 지역별로 대중교통 이용량을 예측하고 대중교통 증편 시 활용
📍 예시 2 📍
피싱 이메일 발생 패턴 분석
[ 데이터 수집 ]
- 시간대별, 주간별, 월별 피싱 이메일 발생 건수 데이터 확보
[ 시각화/탐색 ]
- 시각화 : 시간대별, 주간별, 월별 피싱 이메일 발생 건수를 다양한 방법으로 시각화
- 탐색 : 특정 시간대, 요일, 월별로 피싱 이메일 발생량 변화를 탐색
[ 패턴 도출 ]
- 시각화 자료로부터 시간대별, 시기별 일정한 패턴이 있음을 발견
[ 가설 검증 ]
- 피싱 이메일 발송 건수가 높아지는 시간대, 시기에 피싱 이메일 경고 및 예방 캠페인 강화 등에 활용
✅ 결론
위 두 예시는 탐색적 데이터 분석을 통해 공공데이터의 패턴을 시각화하고 인사이트를 도출해
다양한 분야엥 활용하는 사례를 보여준다.
확증적 데이터 분석과 탐색적 데이터 분석 비교
두 가지 데이터 분석 기법은 상호 장단점이 다르므로, 데이터 분석의 목적과 상황에 맞게 사용해야 한다.
구분 | 확증적 데이터 분석(CDA) | 탐색적 데이터 분석(EDA) |
특징 | 이미 검증된 이론을 바탕으로 명확한 가설을 검증하는 데 적합 | 데이터에서 새로운 패턴과 인사이트를 발견하고 새로운 가설을 세우는 데 유용 |
장점 | 검증된 이론과 모형을 갖추고 있음 | 분석과정에서 유연하게 가설을 설 정할 수 있음 |
단점 | 선입견이 개입되어 예상치 못한 결과의 사전 탐지가 어려울 수 있음 | 명확한 분석 목표가 없으면 방황 할 가능성이 높음 |