일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- KT에이블스쿨5기
- DX컨설턴트
- 넘파이
- 데이터프레임
- 프로젝트
- 아키텍처
- 짧은생각
- KT에이블스쿨
- 인프라
- 파이썬
- 파이썬기초
- IT인프라
- 데이터분석기초
- 데이터
- 자기개발
- 교육
- deeplearning
- 구조
- 미니프로젝트
- 머신러닝
- 판다스
- 데이터다루기
- 데이터분석
- MachineLearning
- 데이터다듬기
- 데이터분석가
- It
- 정보화
- 딥러닝
- 오답노트
- Today
- Total
꾸준히 성장하기
[D+63] 미니프로젝트 | 4차 미니 프로젝트(2) 후기 본문
안녕하세요! 어제와 오늘 AICE ASSOCIATE 문제 3세트를 풀어보았는데요.
이에 대한 오답노트를 적어보려고 합니다.
전체 문제가 적혀있지는 않고, 제가 헷갈리는 내용을 위주로 정리해보았습니다.
1. 데이터 결측치 처리
1) 특정 컬럼('컬럼A')을 삭제하고 결과를 df1에 저장하는 방법
df1 = df.drop(columns=['컬럼명'])
2) df1의 모든 컬럼에서 '_' 값을 null로 변경하는 방법을 적용해 df2에 저장
df2 = df1.replace('_', np.nan)
3) '컬럼B'의 null 값을 그 컬럼의 최빈값으로 대체하는 방법을 사용하여 df4를 수정
df4.replace({'컬럼명' : {np.nan : df4['컬럼명'].mode()}}, inplace=True)
2. 라벨 인코딩과 원-핫 인코딩
1) '컬럼C'에 대하여 라벨 인코딩을 수행하고, 이를 df5에 저장
le = LabelEncoder()
df5['컬럼명'] = le.fit_transform(cat_cols['컬럼'])
2) df5의 나머지 문자형 컬럼에 대해서 원-핫 인코딩을 적용하여 df6을 생성
df6 = pd.get_dummies(data=df5, columns=['컬럼명1', '컬럼명2', '컬럼3'], drop_first=True)
3. X, Y 데이터 분리
1) 데이터를 특성(X)과 타겟(Y)으로 분리한 후, 8:2 비율로 학습 및 테스트 데이터셋을 나누
target = '컬럼명'
x = df6.drop(target, axis=1)
y = df6[target]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, stratify= y, random_state=42)
4. 데이터 정규분포화 및 표준화
1) 학습 데이터셋에는 정규분포화를 적용하고, 테스트 데이터셋에는 표준화를 수행
sc = StandardScaler()
x_train = sc.fit_transform(x_train)
x_test = sc.transform(x_test)
이 과정을 통해 데이터 분석의 기초를 다지고, 실수에서 배우는 중요성을 깨달았습니다.
다음 프로젝트에서는 이러한 기초를 바탕으로 더욱 정교한 데이터 분석을 수행할 수 있기를 기대합니다🙌
'KT 에이블스쿨 5기 > 프로젝트' 카테고리의 다른 글
[D+66] 미니프로젝트 | 5차 미니 프로젝트(2) 후기 (0) | 2024.04.26 |
---|---|
[D+64] 미니프로젝트 | 5차 미니 프로젝트(1) 후기 (0) | 2024.04.24 |
[D+62] 미니프로젝트 | 4차 미니 프로젝트(1) 후기 (0) | 2024.04.22 |
[D+49] 미니프로젝트 | 3차 미니 프로젝트(2) 후기 (0) | 2024.04.09 |
[D+45] 미니프로젝트 | 3차 미니 프로젝트(1) 후기 (0) | 2024.04.05 |