소개 — 이 글은 제가 GPT와 나눈 대화를 바탕으로 빅데이터 분석기사 3과목(고급분석 포함)의 핵심 개념들을 모아 정리한 것입니다. 회귀분석, 분류·클러스터링, 차원축소, 딥러닝 기초, 연관분석, 베이즈 정리 등 주요 토픽과 기출형 예상문제를 함께 포함하고 있으니 시험 준비와 복습에 활용하세요.
목차
- 1. 회귀분석 쉽게 설명
- 2. 지니지수와 엔트로피 지수
- 3. 인공신경망과 활성함수
- 4. 인공신경망 과적합 방지와 규제 (Lasso, Ridge)
- 5. 서포트벡터머신 (SVM)
- 6. 연관분석
- 7. 군집분석 (계층적 vs 비계층적, 거리 측도)
- 8. 고급분석기법 요약
- 9. t-SNE란?
- 10. 분할표: Odds Ratio & Risk Ratio (예제)
- 11. 회귀분석의 분산분석(ANOVA)
- 12. 단순회귀: 회귀계수 계산과 자유도(예시)
- 13. 데이터 분석의 구성요소
- 14. 차원 축소: 선형 vs 비선형 기법
- 15. 계층적 군집분석과 비계층적 군집분석 차이 (기준별)
- 16. 베이즈 정리
- 마무리
1. 회귀분석 쉽게 설명
회귀분석(Regression)은 변수들 간의 관계를 수학적으로 표현하는 방법입니다. 주로 독립변수(X)가 종속변수(Y)에 어떤 영향을 주는지를 모델링하여 예측하거나 해석하는 데 사용합니다.
기본 구조 (단순선형회귀)
모형: Y = β₀ + β₁ X + ε
- β₀: 절편 (X=0일 때의 예상 Y)
- β₁: 기울기 (X가 1 단위 증가할 때 Y의 평균 변화)
- ε: 오차항
종류
- 단순선형회귀(Simple Linear Regression)
- X가 1개, Y가 1개
- 공부시간 → 시험점수
- 다중선형회귀(Multiple Linear Regression)
- X가 여러 개, Y가 1개
- 공부시간, 수업참여도, 잠자는 시간 → 시험점수
- 로지스틱 회귀(Logistic Regression)
- Y가 **범주형(예/아니오, 합격/불합격 등)**일 때 사용
- 환자가 병에 걸릴 확률(Yes/No), 고객이 이탈할 확률(0/1)
분석 절차(시험 포인트)
- R² (결정계수): 0~1 사이 값, 1에 가까울수록 설명력이 좋다.
- 다중공선성(Multicollinearity): 독립변수들끼리 너무 강하게 상관되어 있으면 문제 발생 (VIF로 확인).
- 잔차분석: 오차가 정규성, 독립성, 등분산성을 만족해야 한다.
- 과적합(Overfitting): 변수가 너무 많으면 훈련 데이터에는 잘 맞지만 새로운 데이터 예측 성능이 떨어짐.
한 줄 요약 (시험 대비 암기 팁)
- 회귀분석 = 원인(X) → 결과(Y) 관계를 수식으로 모델링
- 검정 = β=0인지 아닌지 확인
- 성능평가 = R²와 잔차분석
- 로지스틱 회귀 = 범주형 Y 예측
2. 지니지수와 엔트로피 지수
두 개념 모두 의사결정나무(Decision Tree)에서 분할 기준으로 사용하는 불순도(impurity) 지표입니다.
지니지수 (Gini Index)
Gini = 1 - Σ p_i^2
- p_i: 클래스 i의 비율
- 값 범위: 0 ~ 0.5 (이진분류에서)
- 값이 0이면 완전 순수(한 클래스만 존재)
엔트로피 (Entropy)
Entropy = - Σ p_i log2(p_i)
- 값 범위: 0 ~ 1 (이진분류에서)
- 값이 클수록 더 섞여 있다는 뜻
- 정보이론 기반. 정보이득(Information Gain) = 분할 전 엔트로피 - 분할 후 엔트로피
시험 포인트:
- 지니지수와 엔트로피는 모두 "불순도(Impurity)"를 측정하는 지표다.
- 값이 0이면 완전히 순수, 값이 클수록 섞여 있다.
- 지니지수는 계산이 빠르고 단순, 엔트로피는 정보이론 기반이라 직관적 의미가 풍부하다.
빅데이터 분석기사 시험 스타일에 맞춰서 지니지수와 엔트로피 관련 객관식 문제를 몇 개 만들어드릴게요.
문제 1
다음 중 **지니지수(Gini Index)**에 대한 설명으로 옳은 것은?
① 값의 범위는 0 ~ 1이며, 값이 1일수록 완전히 순수하다.
② 계산식은 −∑pi log2(pi)- \sum p_i \log_2(p_i) 형태로 나타낸다.
③ CART 의사결정나무에서 주로 사용되는 불순도 지표이다.
④ 두 클래스의 비율이 50:50일 때 지니지수 값은 0이다.
👉 정답: ③
(①은 엔트로피 설명, ②는 엔트로피 공식, ④는 잘못됨 → 50:50이면 최대 불순도 0.5)
문제 2
**엔트로피(Entropy)**에 대한 설명으로 옳지 않은 것은?
① 엔트로피 값이 0일 때는 데이터가 완전히 순수하다.
② 엔트로피는 정보이론(Information Theory)에서 유래한 개념이다.
③ 두 클래스가 50:50으로 섞였을 때 엔트로피는 1로 최대값을 가진다.
④ 엔트로피 계산은 지니지수보다 단순하고 계산량이 적다.
👉 정답: ④
(엔트로피는 로그 계산을 포함하므로 지니지수보다 계산량이 많음)
문제 3
어떤 노드에 클래스 분포가 [합격 80%, 불합격 20%]라고 하자.
이때 지니지수를 계산하면 얼마인가?
① 0.16
② 0.32
③ 0.48
④ 0.64
👉 정답: ②
Gini=1−(0.82+0.22)=1−(0.64+0.04)=0.32Gini = 1 - (0.8^2 + 0.2^2) = 1 - (0.64+0.04) = 0.32
문제 4
다음 중 의사결정나무 분할 기준에 대한 설명으로 옳지 않은 것은?
① 엔트로피를 이용할 경우, 정보이득(Information Gain)을 최대화하는 방향으로 분할한다.
② 지니지수와 엔트로피 모두 값이 낮을수록 불순도가 크다는 의미이다.
③ CART 알고리즘에서는 주로 지니지수를 사용한다.
④ ID3, C4.5 알고리즘에서는 엔트로피를 활용한다.
👉 정답: ②
(불순도가 낮다는 건 → 더 "순수"하다는 의미임. 값이 작을수록 좋음)
3. 인공신경망과 활성함수
은닉층의 활성함수는 신경망에 비선형성을 부여하여 복잡한 패턴을 학습하게 합니다. 활성함수 없이는 신경망이 선형 회귀와 동일해집니다.
대표 활성함수
- Sigmoid: f(x)=1/(1+e^{-x}), 출력 범위 (0,1). 확률 해석 가능. 단점: 기울기 소실(vanishing gradient)
- tanh: 출력 범위 (-1,1). Sigmoid보다 중앙화되어 안정적이나 기울기 소실 문제 있음
- ReLU: f(x)=max(0,x). 계산이 간단, 기울기 소실 완화. 단점: 죽은 뉴런(dead neuron)
- Leaky ReLU: 음수 영역에서 작은 기울기 남김
- Softmax: 출력층에서 다중클래스 확률로 사용
시험 포인트:
- 은닉층에서 비선형 활성함수를 써야 한다는 점
- Sigmoid, tanh → 기울기 소실 문제 있음
- ReLU → 현재 가장 대표적인 활성함수, 빠르고 잘 동작
- Softmax는 은닉층이 아니라 **출력층(다중 분류)**에서 사용
예상 문제 (기출 스타일)
문제 1
인공신경망에서 은닉층 활성함수로 가장 널리 사용되는 함수는?
① Sigmoid
② ReLU
③ Softmax
④ 선형함수
👉 정답: ② ReLU
문제 2
다음 중 Sigmoid 함수에 대한 설명으로 옳지 않은 것은?
① 출력 값이 0과 1 사이에 존재한다.
② 깊은 신경망에서는 기울기 소실 문제가 발생할 수 있다.
③ 음수 입력값도 반영 가능하다.
④ 분류 문제에서 확률적 해석이 가능하다.
👉 정답: ③
(Sigmoid는 입력이 아무리 음수라도 출력이 0~1 범위임 → 음수 출력은 불가능)
문제 3
다중 클래스 분류 문제에서 출력층 활성함수로 주로 사용하는 것은?
① Sigmoid
② tanh
③ ReLU
④ Softmax
👉 정답: ④ Softmax
문제 4
다음 설명이 옳은 것을 모두 고르시오.
ㄱ. tanh 함수는 출력 범위가 (-1, 1)이다.
ㄴ. ReLU 함수는 입력이 음수일 경우 항상 0을 출력한다.
ㄷ. Softmax는 은닉층에서 비선형성을 주기 위해 사용된다.
① ㄱ
② ㄱ, ㄴ
③ ㄱ, ㄷ
④ ㄴ, ㄷ
👉 정답: ②
(Softmax는 은닉층이 아니라 출력층에서 사용)
4. 인공신경망 과적합 방지와 규제 (Lasso, Ridge)
과적합 방지 방법은 데이터, 모델, 규제 측면으로 나뉩니다.
과적합 방지 주요 기법
- 데이터 증강(Data Augmentation)
- 교차검증(Cross Validation)
- 모델 단순화 (층/노드 축소)
- 드롭아웃(Dropout)
- 배치 정규화(Batch Normalization)
- 규제(Regularization): L1(Lasso), L2(Ridge)
릿지(Ridge, L2) vs 라쏘(Lasso, L1)
- Ridge (L2): 손실 + λ Σ w_j^2. 가중치를 작게 만들지만 0으로 만들지 않음. 유클리드 거리(Euclidean) 기반.
- Lasso (L1): 손실 + λ Σ |w_j|. 일부 가중치를 0으로 만들어 변수 선택 효과 발생. 맨해튼 거리(Manhattan) 기반.
- Elastic Net: L1 + L2 혼합.
시험 포인트:
- 릿지(Ridge) = L2 규제 = 유클리드 거리 기반
- 라쏘(Lasso) = L1 규제 = 맨해튼 거리 기반
- 라쏘는 변수 선택 기능(가중치를 0으로 만듦)이 있다는 점 자주 출제
- 릿지는 모든 변수를 조금씩 유지한다는 특징 자주 출제
예상 문제 (객관식)
문제 1
다음 중 인공신경망의 과적합 방지 기법이 아닌 것은?
① 드롭아웃(Dropout)
② 배치 정규화(Batch Normalization)
③ 데이터 증강(Data Augmentation)
④ 학습률(Learning Rate) 증가
👉 정답: ④ (학습률 조정은 최적화와 관련, 직접적인 과적합 방지 방법 아님)
문제 2
릿지 회귀(Ridge Regression)에 대한 설명으로 옳은 것은?
① 가중치의 절댓값 합에 패널티를 부여한다.
② 일부 가중치를 0으로 만들어 변수 선택 기능을 제공한다.
③ L2 규제를 적용하며 유클리드 거리 개념을 기반으로 한다.
④ 모델에서 불필요한 변수를 제거하는 데 유리하다.
👉 정답: ③
문제 3
라쏘 회귀(Lasso Regression)의 특징으로 옳지 않은 것은?
① L1 규제를 사용한다.
② 가중치 절댓값 합에 패널티를 준다.
③ 모든 가중치를 줄이는 대신 0으로 만들지는 않는다.
④ 변수 선택 기능이 있다.
👉 정답: ③ (0으로 만드는 것이 라쏘의 핵심)
문제 4
다음 설명 중 알맞게 연결된 것은?
ㄱ. 릿지 규제 – L2 규제 – 유클리드 거리
ㄴ. 라쏘 규제 – L1 규제 – 맨해튼 거리
ㄷ. 라쏘 규제 – 변수 선택 가능
ㄹ. 릿지 규제 – 변수 선택 가능
① ㄱ, ㄴ
② ㄱ, ㄷ
③ ㄱ, ㄴ, ㄷ
④ ㄱ, ㄴ, ㄹ
👉 정답: ③
5. 서포트벡터머신 (SVM)
SVM은 초평면(hyperplane)을 찾는 분류 알고리즘으로, 마진(margin)을 최대화하는 것이 핵심입니다.
- 서포트 벡터: 초평면에 가장 가까운 포인트들
- 하드 마진: 완전 분리(이상치 민감)
- 소프트 마진: 일부 오분류 허용(일반화 향상)
- 커널 트릭: 비선형 문제를 고차원으로 매핑(Linear, Polynomial, RBF 등)
시험 포인트:
- SVM은 마진 최대화 알고리즘이다.
- 서포트 벡터는 초평면을 결정하는 데이터다.
- 커널 함수를 사용하면 비선형 문제도 해결할 수 있다.
- 소프트 마진 → 일반화 성능 강화
- 회귀 문제에서는 **SVR(Support Vector Regression)**으로 확장
예상 문제 (객관식)
문제 1
서포트 벡터 머신(SVM)에 대한 설명으로 옳지 않은 것은?
① 초평면(Hyperplane)을 찾아 데이터를 분류한다.
② 결정 경계와 가장 가까운 데이터 포인트를 서포트 벡터라 한다.
③ 마진을 최대화하는 것이 목표이다.
④ 커널 함수를 사용하면 항상 선형 분류 문제로만 적용된다.
👉 정답: ④ (커널은 비선형 문제를 해결하기 위해 사용)
문제 2
서포트 벡터 머신에서 **마진(Margin)**에 대한 설명으로 옳은 것은?
① 마진은 항상 0이 되어야 좋은 초평면이다.
② 마진은 초평면과 서포트 벡터 사이의 거리이다.
③ 마진이 좁을수록 일반화 성능이 좋아진다.
④ 마진은 데이터의 차원 수와 무관하다.
👉 정답: ②
문제 3
SVM에서 커널 기법(Kernel Trick)을 사용하는 주된 목적은?
① 계산 속도를 높이기 위함
② 비선형 문제를 고차원 공간에서 선형 분리 가능하게 하기 위함
③ 서포트 벡터 수를 줄이기 위함
④ 마진을 좁히기 위함
👉 정답: ②
문제 4
서포트 벡터 머신(SVM)에 대한 설명으로 알맞은 것을 모두 고르시오.
ㄱ. 초평면을 기준으로 분류한다.
ㄴ. 마진을 최대화한다.
ㄷ. 일부 오분류를 허용하는 방법을 소프트 마진이라 한다.
ㄹ. SVM은 회귀 문제에는 사용할 수 없다.
① ㄱ, ㄴ
② ㄱ, ㄴ, ㄷ
③ ㄱ, ㄷ, ㄹ
④ ㄱ, ㄴ, ㄷ, ㄹ
👉 정답: ② (ㄹ은 틀림 → 회귀도 가능, SVR 있음)
6. 연관분석
연관분석(Association Analysis)은 항목 간 규칙(X → Y)을 찾는 기법, 즉 장바구니 분석(Market Basket Analysis)에 주로 사용됩니다.
주요 지표
- Support (지지도): 전체 거래 중 X와 Y가 함께 나타난 비율
- Confidence (신뢰도): X가 있을 때 Y가 함께 발생할 확률
- Lift (향상도): Confidence / Support(Y). Lift > 1이면 양의 연관.
대표 알고리즘
- Apriori
- FP-Growth
빅데이터 분석기사 시험 포인트
- 연관분석 = 장바구니 분석
- 지지도, 신뢰도, 향상도 개념과 계산식
- Lift > 1일 때 의미
- Apriori, FP-Growth 알고리즘 특징
예상 문제 (객관식)
문제 1
연관분석(Association Analysis)에 대한 설명으로 옳지 않은 것은?
① 장바구니 분석(Market Basket Analysis)에서 자주 사용된다.
② 지지도, 신뢰도, 향상도는 연관 규칙 평가 지표이다.
③ 향상도가 1보다 크면 X와 Y는 독립이다.
④ Apriori 알고리즘은 연관 규칙 탐색에 사용된다.
👉 정답: ③ (향상도가 1이면 독립, 1보다 크면 양의 상관관계)
문제 2
어떤 데이터셋에서 {빵} → {우유}의 지지도가 0.2이고 신뢰도가 0.5라고 하자.
이 의미로 옳은 것은?
① 전체 거래 중 20%에서 빵과 우유가 함께 구매되었다.
② 빵을 산 사람 중 20%가 우유도 구매했다.
③ 빵을 산 사람 중 50%가 우유도 구매했다.
④ 전체 거래 중 50%에서 빵과 우유가 함께 구매되었다.
👉 정답: ①, ③
문제 3
연관분석에서 향상도(Lift)가 1보다 작은 경우 의미로 옳은 것은?
① X와 Y는 독립이다.
② X가 발생할 때 Y가 발생할 확률이 오히려 줄어든다.
③ X가 발생할 때 Y가 발생할 확률이 증가한다.
④ X와 Y는 강한 양의 연관성을 가진다.
👉 정답: ②
문제 4
다음 중 연관분석 알고리즘에 대한 설명으로 옳은 것은?
① Apriori 알고리즘은 빈발항목집합을 찾는 데 사용된다.
② FP-Growth 알고리즘은 모든 가능한 항목 집합을 무작위로 탐색한다.
③ 연관분석은 주로 회귀분석과 함께 사용된다.
④ Lift는 항상 1보다 크다.
👉 정답: ①
문제 5
(연관분석) 장바구니 분석에서 A → B 규칙의 신뢰도(Confidence) 의미는?
① 전체 거래 중 A와 B가 동시에 등장할 확률
② A가 등장했을 때 B가 등장할 확률
③ A와 B가 독립일 때 나타나는 확률
④ A가 등장하지 않을 확률
→ 정답: ②
7. 군집분석 (계층적 vs 비계층적, 거리 측도)
군집분석은 비지도학습으로, 유사도를 기준으로 데이터를 그룹화합니다.
계층적 군집분석 (Hierarchical)
- 덴드로그램으로 시각화
- 병합적(Agglomerative) 또는 분할적(Divisive)
- 장점: 군집 수 몰라도 가능, 구조 파악 용이
- 단점: 계산량 많음(대규모 부적합)
비계층적 군집분석 (Non-hierarchical)
- K-means 대표 (사전 k 지정 필요)
- 장점: 대규모 데이터에 적합, 빠름
- 단점: k 결정 필요, 초기값 민감
거리 측도
- 유클리드 거리 (Euclidean)
- 맨해튼 거리 (Manhattan)
- 마하라노비스 거리 (Mahalanobis)
- 코사인 유사도 (Cosine similarity) — 문서 데이터에 주로 사용
예상 문제 (5문제)
문제 1
군집분석에 대한 설명으로 옳지 않은 것은?
① 군집분석은 비지도학습 기법이다.
② 같은 군집 내 데이터는 서로 유사성이 높다.
③ 계층적 군집분석은 덴드로그램으로 표현할 수 있다.
④ 군집분석은 반드시 종속변수를 필요로 한다.
👉 정답: ④ (군집분석은 종속변수 없음 → 비지도학습)
문제 2
다음 중 비계층적 군집분석 방법으로 가장 널리 사용되는 것은?
① K-평균 알고리즘
② 덴드로그램 분석
③ 병합적 방법
④ 분할적 방법
👉 정답: ① K-평균 알고리즘
문제 3
계층적 군집분석에서 "병합적(Agglomerative)" 방법에 대한 설명으로 옳은 것은?
① 전체 데이터를 하나의 군집으로 시작하여 점차 분리한다.
② 데이터 수가 많아질수록 계산이 단순해진다.
③ 각 데이터를 개별 군집으로 시작하여 가까운 것부터 합쳐 나간다.
④ 군집 수를 반드시 사전에 지정해야 한다.
👉 정답: ③
문제 4
군집분석에서 거리 측도로 가장 일반적으로 사용되는 것은?
① 마하라노비스 거리
② 맨해튼 거리
③ 코사인 유사도
④ 유클리드 거리
👉 정답: ④ 유클리드 거리
문제 5
문서 데이터와 같이 벡터의 크기보다 방향적 유사성이 중요한 경우 주로 사용하는 거리 측정 방법은?
① 유클리드 거리
② 맨해튼 거리
③ 코사인 유사도
④ 마하라노비스 거리
👉 정답: ③ 코사인 유사도
8. 고급분석기법 요약
고급분석기법 범주: 지도학습(회귀/분류), 비지도학습(군집/연관/차원축소), 딥러닝, 최적화(경사하강법 등), 강화학습(개념 수준).
| 구분 | 기법 | 주요 알고리즘/방법 | 특징 |
|---|---|---|---|
| 지도학습 | 회귀 · 분류 | 선형/로지스틱 회귀, SVM, 랜덤포레스트, ANN | 레이블 기반, 예측/분류 |
| 비지도학습 | 군집 · 연관 · 차원축소 | K-means, Apriori, PCA, t-SNE | 패턴 탐색, 구조 파악 |
| 딥러닝 | 신경망 | MLP, CNN, RNN | 복잡한 비선형 모델링 (이미지, 시계열) |
| 최적화 | 학습법 | GD, SGD, Adam | 손실 최소화 |
시험 대비 포인트
- 지도학습 vs 비지도학습 구분
- 군집분석·연관분석·차원 축소 알고리즘 원리
- SVM, 신경망, 규제(Lasso/L1, Ridge/L2) 특징
- 지니지수·엔트로피와 같이 의사결정나무 분할 기준
- 과적합 방지 방법
- 거리 측도 (유클리드, 맨해튼, 코사인, 마하라노비스)
- 고급분석기법 구조도(아래 참고)
고급분석기법
│
├─ 지도학습 (Supervised Learning)
│ ├─ 회귀분석 (Regression)
│ │ ├─ 선형회귀
│ │ └─ 로지스틱 회귀
│ └─ 분류 (Classification)
│ ├─ 의사결정나무 / 랜덤포레스트
│ ├─ 서포트 벡터 머신 (SVM)
│ └─ 인공신경망 (ANN)
│
├─ 비지도학습 (Unsupervised Learning)
│ ├─ 군집분석 (Clustering: K-means, 계층적)
│ ├─ 연관분석 (Association Rule)
│ └─ 차원 축소 (PCA, t-SNE)
│
├─ 딥러닝 (Deep Learning)
│ ├─ 다층 퍼셉트론 (MLP)
│ ├─ 합성곱 신경망 (CNN)
│ └─ 순환 신경망 (RNN)
│
└─ 최적화 기법 (Optimization)
├─ 경사하강법 (Gradient Descent)
└─ 확률적 경사하강법 (SGD)
예상 문제 예시 (객관식)
문제 1
고급 분석 기법 중 지도학습에 해당하지 않는 것은?
① 로지스틱 회귀
② 서포트 벡터 머신
③ 군집분석
④ 랜덤포레스트
👉 정답: ③ 군집분석 (비지도학습)
문제 2
연관분석에서 향상도(Lift)의 의미로 가장 올바른 것은?
① A와 B가 독립일 때보다 얼마나 강하게 연관되는지 측정
② A가 발생했을 때 B가 발생할 확률
③ 전체 거래 중 A와 B가 동시에 발생한 확률
④ 군집의 응집도를 나타내는 지표
👉 정답: ①
문제 3
다음 중 과적합 방지 방법이 아닌 것은?
① 조기종료(Early Stopping)
② Dropout
③ 라쏘 규제
④ 평균제곱오차 최소화
👉 정답: ④ (MSE는 손실 함수, 방지 방법 아님)
문제 4
군집분석에서 문서 데이터와 같은 벡터 간 방향 유사성을 측정할 때 가장 적합한 방법은?
① 유클리드 거리
② 맨해튼 거리
③ 코사인 유사도
④ 마하라노비스 거리
👉 정답: ③
문제 5
다음 중 차원 축소 기법에 해당하는 것은?
① PCA
② SVM
③ 랜덤포레스트
④ 로지스틱 회귀
👉 정답: ① PCA
9. t-SNE란?
t-SNE는 고차원 데이터의 국소 이웃(local neighbor) 관계를 보존하면서 2D/3D 시각화를 위해 고안된 비선형 차원축소 기법입니다.
핵심 아이디어
- 고차원에서의 유사도를 확률로 표현 (가우시안)
- 저차원에서는 t-분포(자유도 1)를 사용하여 유사도를 정의
- Kullback-Leibler divergence를 최소화하는 방향으로 임베딩 진행
하이퍼파라미터 & 팁
- perplexity: 보통 5~50
- learning rate: 보통 200~1000 기본값 사용
- n_iter: 최소 1000 이상 권장
- PCA로 선축소 후 t-SNE 적용 추천 (속도/안정성 개선)
주의점
- 전역구조(클러스터 간 거리/크기) 해석 주의
- 랜덤성/하이퍼파라미터 의존성 존재
- 새로운 데이터 즉시 투영 불가(비모수적)
예상 문제(객관식, 5문항)
문제 1
t-SNE에서 저차원 유사도를 정의할 때 사용하는 분포는?
① 정규분포 ② 지수분포 ③ t-분포(자유도 1) ④ 균등분포
→ 정답: ③
문제 2
t-SNE의 perplexity에 대한 올바른 설명은?
① 학습률과 동일한 의미다.
② 효과적인 이웃 수를 조절하는 하이퍼파라미터다.
③ 반복 횟수의 상한을 뜻한다.
④ 초기화 방법을 선택한다.
→ 정답: ②
문제 3
다음 중 t-SNE 결과 해석 시 부적절한 것은?
① 가까운 점끼리 뭉친 패턴을 이웃 구조의 단서로 본다.
② 클러스터 사이의 절대 거리와 면적을 군집 간 유사도 척도로 해석한다.
③ 시드/하이퍼파라미터 변화에 따른 일관성 확인을 한다.
④ PCA로 선축소 후 t-SNE를 적용한다.
→ 정답: ②
문제 4
다음 중 t-SNE의 목표함수에 가장 가까운 것은?
① KL(Q∥P)\mathrm{KL}(Q\|P) 최소화
② KL(P∥Q)\mathrm{KL}(P\|Q) 최소화
③ MSE 최소화
④ 군집 내 분산 최소화
→ 정답: ②
문제 5
다음 중 t-SNE와 가장 어울리는 사용 목적은?
① 선형 회귀 계수 추정
② 대규모 고차원 데이터의 2D 시각화
③ 실시간 예측용 임베딩 변환(신규 포인트 투영)
④ 군집 개수 자동 결정
→ 정답: ②
10. 분할표: Odds Ratio & Risk Ratio (예제)
분할표(Contingency table)를 통한 RR(상대위험도)와 OR(교차비) 계산 예제 2개와 풀이입니다.
문제 1
흡연 여부와 폐질환 발생 조사 결과:
| 폐질환 발생(Yes) | 폐질환 없음(No) | 합계 | |
|---|---|---|---|
| 흡연 | 40 | 60 | 100 |
| 비흡연 | 10 | 90 | 100 |
| 합계 | 50 | 150 | 200 |
풀이
- Risk(흡연)=40/100=0.40, Risk(비흡연)=10/100=0.10 → RR=0.40/0.10=4.0
- Odds(흡연)=40/60, Odds(비흡연)=10/90 → OR=(40/60)/(10/90)=6.0
문제 2
신약 투여와 치료 성공 결과:
| 성공(Yes) | 실패(No) | 합계 | |
|---|---|---|---|
| 신약 투여 | 80 | 20 | 100 |
| 미투여 | 60 | 40 | 100 |
| 합계 | 140 | 60 | 200 |
풀이
- Risk(투여)=80/100=0.80, Risk(미투여)=60/100=0.60 → RR=0.80/0.60=1.33
- Odds(투여)=80/20=4.0, Odds(미투여)=60/40=1.5 → OR=4.0/1.5≈2.67
핵심 정리
- Risk Ratio (RR): 실제 확률(위험도) 비율. → 코호트 연구에 적합.
- Odds Ratio (OR): 사건 발생 Odds 비율. → 사례-대조 연구 등에서 활용.
- RR은 직관적(위험 몇 배), OR은 수학적 성질이 좋아 회귀모형에서 사용.
11. 회귀분석의 분산분석(ANOVA)
회귀모형의 적합성(유의성)을 검정하기 위해 ANOVA표를 사용합니다. 총제곱합(SST) = 회귀(SSR) + 오차(SSE).
| 요인 | 제곱합(SS) | 자유도(df) | 평균제곱(MS) | F |
|---|---|---|---|---|
| 회귀(Regression) | SSR | k | MSR=SSR/k | F = MSR / MSE |
| 오차(Error) | SSE | n-k-1 | MSE=SSE/(n-k-1) | |
| 전체(Total) | SST | n-1 |
시험 포인트: F 통계량은 MSR/MSE, 귀무가설 H0는 모든 회귀계수(β₁,..,βk)=0 이다.
예상 문제 (5문항)
문제 1. (객관식)
회귀분석의 분산분석(ANOVA)에서 **총제곱합(SST)**에 대한 올바른 설명은?
① 회귀제곱합(SSR)과 오차제곱합(SSE)의 합이다.
② 종속변수의 변동 중 독립변수로 설명되지 않는 부분이다.
③ 자유도는 항상 n−k−1n-k-1로 계산된다.
④ 회귀모형의 유의성을 검정하는 데 사용되는 통계량이다.
👉 정답: ①
문제 2. (주관식)
다중회귀분석에서 오차항의 자유도(df)는 어떻게 계산되는가?
👉 정답: n−k−1n-k-1 (표본 수 – 독립변수 수 – 1)
문제 3. (객관식)
다음 중 회귀분석 ANOVA에서 F-통계량을 올바르게 나타낸 식은?
① F=SSESSRF = \frac{SSE}{SSR}
② F=MSRMSEF = \frac{MSR}{MSE}
③ F=SSTSSEF = \frac{SST}{SSE}
④ F=SSRSSTF = \frac{SSR}{SST}
👉 정답: ②
문제 4. (객관식)
단순회귀분석에서 다음 값이 주어졌을 때 F값을 구하시오.
- SSR = 200, SSE = 100, n = 20
① 19.0
② 36.0
③ 38.0
④ 40.0
👉 풀이
- 자유도(df_reg)=1, df_err=18
- MSR = SSR/1 = 200
- MSE = SSE/18 = 100/18 ≈ 5.56
- F = 200 / 5.56 ≈ 36.0
👉 정답: ②
문제 5. (객관식)
회귀분석의 분산분석표에서 **F-검정의 귀무가설(H₀)**은 무엇인가?
① 모든 회귀계수는 0이 아니다.
② 모든 회귀계수는 동일하다.
③ 모든 회귀계수는 0이다.
④ 잔차항의 분산은 0이다.
👉 정답: ③ (β₁=β₂=...=βk=0)
12. 단순회귀: 회귀계수 계산과 자유도(예시)
단순선형회귀 모형 Y = β₀ + β₁ X + ε에서 β₁은 다음 식으로 구합니다:
β₁ = Σ (X_i - X̄)(Y_i - Ȳ) / Σ (X_i - X̄)^2
예시 데이터
| X(공부시간) | Y(시험점수) |
|---|---|
| 1 | 2 |
| 2 | 3 |
| 3 | 5 |
| 4 | 4 |
| 5 | 6 |
계산 요약
- 평균: X̄=3, Ȳ=4
- 분자 Σ(X_i - X̄)(Y_i - Ȳ) = 9
- 분모 Σ(X_i - X̄)^2 = 10
- β₁ = 9/10 = 0.9, β₀ = Ȳ - β₁ X̄ = 4 - 0.9*3 = 1.3
- 회귀식: Ŷ = 1.3 + 0.9 X
자유도(ANOVA 관련): 단순회귀에서 회귀의 자유도(df_reg)=1인 이유는 설명변수(독립변수)가 1개이기 때문입니다. (df_err = n - k - 1 = n - 2)
13. 데이터 분석의 구성요소(2과목)
데이터 분석의 전형적 절차:
- 문제 정의 (Problem Definition)
- 데이터 수집 (Data Collection)
- 데이터 전처리 (Data Preprocessing)
- 탐색적 데이터 분석 (EDA)
- 모델링 및 분석 (Modeling)
- 모델 평가 및 해석 (Evaluation)
- 결과 활용 및 의사결정 (Deployment)
14. 차원 축소: 선형 vs 비선형 기법
차원 축소는 고차원 데이터를 저차원으로 줄여 계산 효율, 시각화, 잡음 제거 등의 목적을 달성합니다.
선형 차원 축소
- PCA: 분산을 최대화하는 축을 찾음 (고유값 분해)
- LDA: 클래스 간 분리(분산비)를 최대화 (분류 목적)
- Metric MDS: 거리행렬을 저차원에서 보존
비선형 차원 축소
- Kernel PCA: 커널을 이용해 비선형 매핑 후 PCA
- t-SNE: 이웃 구조 보존, 시각화에 강함
- Isomap: 지오데식 거리 기반
- Non-metric MDS: 거리의 순위 보존
예상문제 (기출 변형)
문제 1
다음 중 선형 차원 축소 기법에 해당하지 않는 것은?
① PCA
② LDA
③ Metric MDS
④ t-SNE
👉 정답: ④
문제 2
클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하여 차원을 축소하는 기법은?
① PCA
② LDA
③ Isomap
④ Kernel PCA
👉 정답: ②
문제 3
고차원 데이터의 지역적 이웃 관계를 보존하면서 2D 시각화에 자주 활용되는 차원 축소 기법은?
① PCA
② t-SNE
③ LDA
④ Metric MDS
👉 정답: ②
문제 4
Isomap 기법은 어떤 거리 개념을 이용하여 차원을 축소하는가?
① 유클리드 거리
② 지오데식 거리
③ 맨해튼 거리
④ 코사인 유사도
👉 정답: ②
문제 5
차원 축소 기법 중 커널 함수를 이용하여 선형 기법을 확장한 방식은?
① Kernel PCA
② LDA
③ Non-metric MDS
④ Isomap
👉 정답: ①
15. 계층적 군집분석과 비계층적 군집분석 차이 (기준별)
요약(비교 기준):
| 기준 | 계층적 | 비계층적 |
|---|---|---|
| 방식 | 덴드로그램 / 병합적 or 분할적 | K-means 등 (k 사전 지정) |
| 장점 | 군집 수 몰라도 됨, 구조 시각화 | 대규모 데이터 적합, 빠름 |
| 단점 | 계산량 큼, 되돌리기 어렵다 | k 지정 필요, 초기값 민감 |
| 적합 | 소규모 데이터 | 대규모 데이터 |
16. 베이즈 정리
베이즈 정리는 조건부 확률을 업데이트하는 핵심 공식입니다.
P(A|B) = P(B|A) * P(A) / P(B)
용어:
- P(A): 사전확률 (Prior)
- P(B|A): 우도(Likelihood)
- P(B): 증거(Evidence)
- P(A|B): 사후확률 (Posterior)
예시 (의학검사)
- 유병률 P(D)=0.01
- 민감도 P(+|D)=0.99
- 위양성률 P(+|NoD)=0.05
- P(D|+)= (0.99*0.01) / (0.99*0.01 + 0.05*0.99) ≈ 0.167
예상문제 (기출 기반)
문제 1
베이즈 정리에 대한 설명으로 옳지 않은 것은?
① 사전확률은 새로운 증거를 반영하기 전의 확률이다.
② 사후확률은 증거(B)가 발생한 후 사건(A)의 확률을 의미한다.
③ 베이즈 정리는 조건부 확률을 구하는 공식이다.
④ 우도(Likelihood)는 사건 A의 발생 확률을 의미한다.
👉 정답: ④ (우도는 P(B∣A)P(B|A), 즉 A가 주어졌을 때 B의 확률)
문제 2
어떤 암의 발병 확률은 2%이다. 암 환자가 양성 판정을 받을 확률은 95%, 암이 없는 환자가 양성 판정을 받을 확률은 10%이다.
검사 결과가 양성일 때 실제 암일 확률은?
① 15%
② 20%
③ 25%
④ 30%
👉 풀이:
P(Disease∣Positive)=0.95⋅0.02(0.95⋅0.02)+(0.10⋅0.98)=0.0190.117≈0.162≈16.2%P(Disease|Positive) = \frac{0.95 \cdot 0.02}{(0.95 \cdot 0.02) + (0.10 \cdot 0.98)} = \frac{0.019}{0.117} \approx 0.162 \approx 16.2\%
정답: ① 15% (가장 근접)
문제 3
다음 중 베이즈 정리의 활용 예로 적절하지 않은 것은?
① 스팸 메일 필터링
② 환자 진단 검사 결과 해석
③ 머신러닝에서 확률적 분류 모델
④ 데이터 전처리 과정에서 이상치 제거
👉 정답: ④ (이상치 제거는 EDA/전처리 과정이지 베이즈 정리 직접 활용 아님)
마무리
이 글은 제가 GPT와 나눈 대화를 바탕으로 빅데이터 분석기사 3과목의 핵심 내용을 추가 및 수정하여 정리한 것입니다. 개념, 수식, 실전 팁, 기출 스타일 문제 등을 포함했으니 복습용·정리용으로 활용하시기 좋습니다. 급하게 3과목 전체의 헷갈리는 개념을 이해하거나 빠르게 문제를 풀어보실 때 도움이 되실 것이라 생각됩니다. 좋은 결과 있으시길 응원합니다^^
'자격증' 카테고리의 다른 글
| 빅분기 실기 Statsmodels의 model.summary() 해석 (0) | 2025.11.25 |
|---|---|
| 귀무가설 대립 가설 쉽게 이해하기(빅데이터 분석기사 실기) (0) | 2025.11.24 |
| 빅데이터 분석기사 필기 후기 (1) | 2025.09.09 |
| 빅데이터분석기사 시험 준비 완벽 가이드(feat. 독합합격전략) 📚 (6) | 2025.08.04 |
| 정보처리기사 시험 준비 완벽 가이드 📚 (38) | 2025.07.25 |