디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] bigdata 기사 학습자들 추가 필독(파이썬)앱에서 작성

ㅇㅇ(203.229) 2025.06.12 15:47:36
조회 228 추천 1 댓글 0
														

 


시험 3일전엔 꼭 새로 업데이트된 예제문제들 풀고가라
그리고 학습도 github 에서 raw 데이터 csv 파일 로딩해서
코드 짜놓고 돌린 뒤 시험장 들어가라

꼭! dir 내장함수는 학습하고가라 openbook 시스템이다. dir 쓸 줄 알아야 책펴가면서 시험 응시하는 느낌으로 문제풀수 있다.



*기출문제 코드는 꼭 다 외워가는게 좋다.
*시험 전날에 최근 시험 코드와 예제문제 코드는 다 외워나야 시험장에서 안틀린다.


dir 패키지 활용
import pandas as pd
dir(pd)
print(dir(pd))
print(help(pd.merge))
print(help(pd.pivot_table))
print(help(pd.__blank___)
#blank=>디어{dir}피디메소드

import numpy as np
dir(np)
print(dir(np))
print(help(np.array))
print(help(np.zeros))
print(help(np.__blank___)
#blank=>디어{dir}엔피메소드

import sklearn.preprocessing as sp
dir(sp)
print(dir(sp))
print(help(sp.MinMaxScaler))
print(help(sp.__blank___)
#blank=>디어{dir}에스피메소드

import sklearn.ensemble as se
dir(se)
print(dir(se))
print(help(se.RandomForestClassifier))
print(help(se.RandomForestRegressor))
print(help(se.__blank___)
#blank=>디어{dir}에스이메소드


※아래 실기환경 예제문제 코드는 싹다외워야된다.
1 유형

import pandas as pd
import numpy as np

df = pd.read_csv("data/employee_performance.csv")

print(df.info())

# 1) 고객만족도가 없는 직원의 경우, 평균 고객만족도로 결측치를 채운다.
df['고객만족도'] = df['고객만족도'].fillna(df['고객만족도'].mean())

print(df.info())

# 2) 근속연수가 없는 직원의 경우, 해당 직원을 삭제한다.
df = df.dropna(subset=['근속연수'])

print(df.info())

# 3) 고객의 직원만족도의 4분위 중 3사분위수 값을 계산한다.
answer3 = df['고객만족도'].quantile(0.75)
print(answer3)

# 4) 부서별로 평균연봉을 구하고, 두 번째로 평균연봉이 높은 부서의 평균연봉을 계산한다.
df_g = df.groupby('부서')['연봉'].mean().reset_index().sort_values(by=['연봉'], ascending=False)
print(df_g)

answer4 = df_g['연봉'].to_list()[1]
print(answer4)

print(np.floor(answer3), np.floor(answer4))





2 유형

import pandas as pd
import numpy as np

train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")

print(train.info())
print(test.info())

train['환불금액'] = train['환불금액'].fillna(0)
test['환불금액'] = test['환불금액'].fillna(0)

a = train['주구매지점'].unique()
b = test['주구매지점'].unique()
c = train['주구매상품'].unique()
d = test['주구매상품'].unique()

a_only = list(set(a) - set(b))
b_only = list(set(b) - set(a))
c_only = list(set(c) - set(d))
d_only = list(set(d) - set(c))

print("a", a_only)
print("b", b_only)
print("c", c_only)
print("d", d_only)

train_test = pd.concat([train, test], axis=0)

print(train_test.shape)
print(train_test.info())

product = pd.get_dummies(train_test['주구매상품'], drop_first=True)
store = pd.get_dummies(train_test['주구매지점'], drop_first=True)
train_test = train_test.drop(columns=['주구매상품', '주구매지점'])
train_test = pd.concat([train_test, product, store], axis=1)

train = train_test[train_test['회원ID'] < 3500].copy()
test = train_test[train_test['회원ID'] >= 3500].copy()

cols = train_test.columns.tolist()
cols.remove('회원ID')
cols.remove('총구매액')

print(cols)

from xgboost import XGBRegressor

model = XGBRegressor(random_state=1234, max_depth=5, n_estimators=30)
model.fit(train[cols], train['총구매액'])

pred = model.predict(test[cols])
print(pred)

from sklearn.metrics import mean_squared_error

mse = mean_squared_error(test['총구매액'], pred)
rmse = np.sqrt(mse)
print("rmse", rmse)

test['pred'] = pred
test['pred'].to_csv('result.csv', index=False, header=True)

result = pd.read_csv('result.csv')
print(result)



3 유형

import pandas as pd
import numpy as np

df = pd.read_csv("data/bcc.csv")

# 1
group1 = df[df['Classification'] == 1]['Resistin']
group2 = df[df['Classification'] == 2]['Resistin']

n1 = len(group1)
n2 = len(group2)

log_group1 = np.log(group1)
log_group2 = np.log(group2)

log_var1 = log_group1.var()
log_var2 = log_group2.var()

print(n1, n2) # 52, 64

f_value = 0
if n1 < n2 : f_value = log_var2 / log_var1
else: f_value = log_var1 / log_var2

print("f_value :", round(f_value, 3))

# 2
pooled_var = ((n1 - 1) * log_var1 + (n2 - 1) * log_var2) / (n1 + n2 - 2)
print("pooled_var :", round(pooled_var, 3))

# 3
from scipy.stats import t

# 평균 차이
mean_diff = log_group1.mean() - log_group2.mean()

# 표준 오차
se = np.sqrt(pooled_var * (1 / n1 + 1 / n2))

# t 통계량
t_stat = mean_diff / se

# 자유도
df_t = n1 + n2 - 2

# 양측 검정 p값
p_value = t.sf(np.abs(t_stat), df=df_t) * 2
print("p_value :", round(p_value, 3))



추천 비추천

1

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
- 설문 주류 모델하면 매출 폭등시킬 것 같은 아이돌 스타는? 운영자 26/01/05 - -
119825 일반 카톡 아직도 안온사람? [3] ㅇㅇ(61.109) 25.12.24 279 0
119824 일반 이번 sqld3회차 어떘음 [6] ㅁㅁㅁ(223.194) 25.12.24 261 0
119822 일반 개발자 진로 관련해서 질문 있습니다 [2] ㅇㅇ(125.178) 25.12.24 179 0
119820 일반 [현직자 얘기] 아니, 빅분기 필요함 비전공자(211.217) 25.12.24 230 1
119819 일반 개발자는 빅분기 필요없음 [13] 학벌안좋은취준생갤로그로 이동합니다. 25.12.24 660 0
119818 📪후기 전공자 정처기 후기 [9] clutch갤로그로 이동합니다. 25.12.24 720 1
119817 일반 나에게는 말이야!! 아직 3번의 기회가 잇지... 비전공자(211.217) 25.12.24 164 0
119816 일반 지금 친구들이랑 얘기하는거 있는데 [9] 곰팡갤로그로 이동합니다. 25.12.24 287 0
119815 일반 이번 회차 난이도 [2] ㅇㅇ(14.39) 25.12.24 303 0
119814 일반 보통 정처기 다음에 무슨 기사 도전함? [5] ㅇㅇ(59.6) 25.12.24 374 0
119813 일반 25년 1회 실기가 ㄹㅇ goat긴 했다 [2] 성유나갤로그로 이동합니다. 25.12.24 435 0
119811 일반 1트 55점이면 다음엔 합격하겟지? ㅇㅇ(110.10) 25.12.24 158 0
119810 일반 전기기사 발사대로 썼다 ㅇㅇ갤로그로 이동합니다. 25.12.24 213 0
119808 일반 일단 합격해서 기분좋으면 개추 [1] ㅇㅇ(222.110) 25.12.24 267 11
119805 일반 헬데 2년차 본사에서 불러줘서 다행이지 ㅇㅇ(211.38) 25.12.24 169 1
119804 일반 정처기 의미없다 ㅇㅇ(58.78) 25.12.24 290 4
119802 일반 정처기 딱 이거 아니냐? 취뽀아자아자링딩동갤로그로 이동합니다. 25.12.24 301 0
119801 일반 정처기 있다고 취업에 큰 이득은 없음 [2] 성유나갤로그로 이동합니다. 25.12.24 478 1
119799 일반 이번에 떨어진 애들 특 [6] ㅇㅇ(211.38) 25.12.24 468 0
119798 일반 다음 실기까지 sqld나 해볼까 ㅇㅇ(110.10) 25.12.24 103 0
119796 일반 발표 카운트 세던 애는 합격함? [1] ㅇㅇ(211.38) 25.12.24 126 0
119795 일반 그래도 나 필기 없이 시험칠수 있는거지? [4] 용궁선녀갤로그로 이동합니다. 25.12.24 259 0
119794 일반 이번에 못딴애들 다음 시험까지 빈칸문제도 공부해두삼 [2] ㅇㅇ(59.10) 25.12.24 233 0
119793 일반 나도 쌀피자 각이냐? [2] 용궁선녀갤로그로 이동합니다. 25.12.24 382 0
119792 일반 합격률 30퍼 예상하는 애들은 현실감각이 없구나 [2] ㅇㅇ(59.10) 25.12.24 409 0
119791 일반 마지막에 문제 답 고쳐서 55점. ㅋㅋㄱㅋㅋㅋ [9] ㅇㅇ(110.10) 25.12.24 587 0
119790 일반 정처기 난이도 올려야제 ㅇㅇ(115.93) 25.12.24 119 1
119789 일반 이번에 존나쉬웠어서 내년 1회차는 개빡으로낼듯? [1] ㅇㅇ(59.6) 25.12.24 235 1
119788 일반 내년 정처기 1회 실기 1번 문제 유출 ㄷㄷ [2] ㅇㅇ(59.10) 25.12.24 432 5
119786 일반 필기실기 둘다 원트인데;; [6] 취뽀아자아자링딩동갤로그로 이동합니다. 25.12.24 560 0
119784 일반 정처기 딴거 인스타 스토리 올리는 거 짜치겟지? [9] ㅁㅁㅁ(223.194) 25.12.24 354 1
119783 일반 개발자 할거면 adsp 랑 sqld 2개 vs 빅분기 뭐가 낫냐.. [2] ㅇㅇ(210.97) 25.12.24 321 0
119782 일반 아 패키지, 아 otp, 아 테이블 시발 [12] ㅇㅇ(210.97) 25.12.24 438 0
119781 일반 형들 문관데 컴활1급 vs 정처기 [13] ㅇㅇ(122.43) 25.12.24 337 1
119780 일반 이번에 떨어졌으면 멘탈 나갔읉듯 ㅇㅇ(58.78) 25.12.24 179 0
119779 일반 CPPG 개ㅈ밥 자격증 [4] alskFF갤로그로 이동합니다. 25.12.24 262 0
119778 일반 진지하게 정처기따는거랑 백준 골드 문제 3시간안에 3개푸는것중에 [10] ㅇㅇ(121.177) 25.12.24 344 0
119775 일반 개발자로 취업할때 정처기는 전혀 필요없는데 [5] ㅇㅇ(121.177) 25.12.24 407 0
119774 일반 26년 수제비 파이널 언제 나오냐 ㅇㅇ(121.141) 25.12.24 72 0
119773 일반 정처기 실기 77점으로 뜨거운 합격 [5] ㅇㅇ(210.178) 25.12.24 514 1
119772 일반 시발 정처기 따면 뭐하노 일자리가 없는데 [7] ㅇㅇ(39.118) 25.12.24 406 1
119771 일반 띄쓰좀 작작해라 ㅇㅇ(175.122) 25.12.24 87 0
119769 일반 30대 중반 무경력 X현직 1트 합격^^ [8] ㅇㅇ(221.165) 25.12.24 519 4
119768 일반 근데 이번에 부분점수 후하게 준건가 [2] ㅇㅇ(125.129) 25.12.24 324 0
119767 일반 이번에 떨어지면 언제 시험보냐 [2] ㅇㅇ(14.7) 25.12.24 232 0
119766 일반 가채점이랑 점수 달라서 떨어진 놈들은 ㅇㅇ(61.109) 25.12.24 218 0
119764 일반 빅분기는 ㄹㅇ 내년에 ADP급으로 개정해야됨 ㅇㅇ(175.122) 25.12.24 179 0
119763 일반 뭘 틀렸을까 [1] ㅇㅇ(211.241) 25.12.24 222 0
119761 일반 기사시험 내년엔 어렵게 나와도 될거 같으면 개추 ㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 25.12.24 128 3
119760 일반 개악질 3가지 유형 [9] 구름(125.133) 25.12.24 408 3
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2