[D+63] 미니프로젝트 | 4차 미니 프로젝트(2) 후기

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

꾸준히 성장하기

[D+63] 미니프로젝트 | 4차 미니 프로젝트(2) 후기 본문

KT 에이블스쿨 5기/프로젝트

[D+63] 미니프로젝트 | 4차 미니 프로젝트(2) 후기

data.dohii 2024. 4. 23. 18:23

안녕하세요! 어제와 오늘 AICE ASSOCIATE 문제 3세트를 풀어보았는데요.

이에 대한 오답노트를 적어보려고 합니다.

전체 문제가 적혀있지는 않고, 제가 헷갈리는 내용을 위주로 정리해보았습니다.

1. 데이터 결측치 처리

1) 특정 컬럼('컬럼A')을 삭제하고 결과를 df1에 저장하는 방법

df1 = df.drop(columns=['컬럼명'])

2) df1의 모든 컬럼에서 '_' 값을 null로 변경하는 방법을 적용해 df2에 저장

df2 = df1.replace('_', np.nan)

3) '컬럼B'의 null 값을 그 컬럼의 최빈값으로 대체하는 방법을 사용하여 df4를 수정

df4.replace({'컬럼명' : {np.nan : df4['컬럼명'].mode()}}, inplace=True)

2. 라벨 인코딩과 원-핫 인코딩

1) '컬럼C'에 대하여 라벨 인코딩을 수행하고, 이를 df5에 저장

le = LabelEncoder()

df5['컬럼명'] = le.fit_transform(cat_cols['컬럼'])

2) df5의 나머지 문자형 컬럼에 대해서 원-핫 인코딩을 적용하여 df6을 생성

df6 = pd.get_dummies(data=df5, columns=['컬럼명1', '컬럼명2', '컬럼3'], drop_first=True)

3. X, Y 데이터 분리

1) 데이터를 특성(X)과 타겟(Y)으로 분리한 후, 8:2 비율로 학습 및 테스트 데이터셋을 나누

target = '컬럼명'

x = df6.drop(target, axis=1)

y = df6[target]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, stratify= y, random_state=42)

4. 데이터 정규분포화 및 표준화

1) 학습 데이터셋에는 정규분포화를 적용하고, 테스트 데이터셋에는 표준화를 수행

sc = StandardScaler()

x_train = sc.fit_transform(x_train)

x_test = sc.transform(x_test)

이 과정을 통해 데이터 분석의 기초를 다지고, 실수에서 배우는 중요성을 깨달았습니다.

다음 프로젝트에서는 이러한 기초를 바탕으로 더욱 정교한 데이터 분석을 수행할 수 있기를 기대합니다🙌

'KT 에이블스쿨 5기 > 프로젝트' 카테고리의 다른 글

[D+66] 미니프로젝트 \| 5차 미니 프로젝트(2) 후기 (0)	2024.04.26
[D+64] 미니프로젝트 \| 5차 미니 프로젝트(1) 후기 (0)	2024.04.24
[D+62] 미니프로젝트 \| 4차 미니 프로젝트(1) 후기 (0)	2024.04.22
[D+49] 미니프로젝트 \| 3차 미니 프로젝트(2) 후기 (0)	2024.04.09
[D+45] 미니프로젝트 \| 3차 미니 프로젝트(1) 후기 (0)	2024.04.05

'KT 에이블스쿨 5기/프로젝트' Related Articles

꾸준히 성장하기

[D+63] 미니프로젝트 | 4차 미니 프로젝트(2) 후기 본문

[D+63] 미니프로젝트 | 4차 미니 프로젝트(2) 후기

'KT 에이블스쿨 5기 > 프로젝트' 카테고리의 다른 글

티스토리툴바