꾸준히 성장하기

[D+14] 교육 | 판다스(Pandas) 데이터프레임 집계와 변경(이산화 포함) 본문

KT 에이블스쿨 5기/교육

[D+14] 교육 | 판다스(Pandas) 데이터프레임 집계와 변경(이산화 포함)

data.dohii 2024. 3. 5. 21:57

우리가 마주치는 원시 데이터(Raw Data)는 깨끗하게 정제되어 있지 않으며, 이를 분석 가능한 형태로 변환하는 과정은 필수적입니다.

오늘은 데이터프레임을 효과적으로 집계하고 변경하는 방법에 대해 알아보려고 합니다.


1. 라이브러리 불러오기

데이터 분석을 위한 첫 단계는 필요한 도구를 준비하는 것입니다. 

마치 컴퓨터를 사용하기 위해 전원 코드를 꽂는 것처럼, 데이터 프레임 작업을 시작하기 전에는 필수 라이브러리를 불러와야 합니다.

데이터를 불러온 후에는, tip.head()를 사용해 데이터가 제대로 불러와졌는지 확인합니다.

 

2. 데이터 집계하기

데이터를 분석할 때는 종종 전체 합계나 특정 조건에 따른 합계를 구해야 합니다. 

이런 집계 작업은 데이터의 대략적인 이해를 돕고, 분석 방향을 설정하는 데 중요한 역할을 합니다.

 

1) 전체 합계 구하기

 

2) 조건별 합계 구하기

 

3. 데이터 변경하기

1) 열 이름 변경

집계된 결과를 보다 명확하게 표현하기 위해 열 이름을 변경할 수 있습니다. 

이는 데이터의 가독성을 향상시키고, 후속 분석 단계에서의 혼란을 방지합니다.

 

2) 열 추가

 

3) 열 삭제

 

4. 범주값 변경

데이터를 분석할 때 .map() 또는 .replace() 활용하여 특정 열의 값을 변경할 수 있습니다.

예를 들어, 성별을 나타내는 열의 값이 'Male', 'Female'에서 1, 0으로 변경되어야 할 때 사용합니다.

 

5. 이산화

연속적인 값을 범주화하는 과정은 데이터를 분석하기 쉽게 만들어 줍니다. 이산화는 이러한 목적을 위해 cut()과 qcut() 메소드를 사용할 수 있습니다.

 

1) .cut() 사용: 크기를 기준으로 나누고 싶을 때

 

2) .qcut() 사용: 개수를 기준으로 구간을 나누고 싶을 때

 


이처럼 집계와 변경 작업을 통해 데이터를 분석에 적합한 형태로 만드는 과정은 분석의 효율성과 정확성을 높이는 데 중요한 역할을 합니다.

이러한 기술을 숙지하고 활용함으로써, 원시 데이터로부터 유의미한 인사이트를 도출해보자구요🔥

 

반응형