자격증

[빅데이터 분석기사 3과목 정리] 핵심 이론 & 기출 예상문제 총정리

goatlife 2025. 9. 9. 21:48

 

소개 — 이 글은 제가 GPT와 나눈 대화를 바탕으로 빅데이터 분석기사 3과목(고급분석 포함)의 핵심 개념들을 모아 정리한 것입니다. 회귀분석, 분류·클러스터링, 차원축소, 딥러닝 기초, 연관분석, 베이즈 정리 등 주요 토픽과 기출형 예상문제를 함께 포함하고 있으니 시험 준비와 복습에 활용하세요.


목차


1. 회귀분석 쉽게 설명 

회귀분석(Regression)은 변수들 간의 관계를 수학적으로 표현하는 방법입니다. 주로 독립변수(X)가 종속변수(Y)에 어떤 영향을 주는지를 모델링하여 예측하거나 해석하는 데 사용합니다.

기본 구조 (단순선형회귀)

모형: Y = β₀ + β₁ X + ε

  • β₀: 절편 (X=0일 때의 예상 Y)
  • β₁: 기울기 (X가 1 단위 증가할 때 Y의 평균 변화)
  • ε: 오차항

종류

  • 단순선형회귀(Simple Linear Regression)
    • X가 1개, Y가 1개
    • 공부시간 → 시험점수
  • 다중선형회귀(Multiple Linear Regression)
    • X가 여러 개, Y가 1개
    • 공부시간, 수업참여도, 잠자는 시간 → 시험점수
  • 로지스틱 회귀(Logistic Regression)
    • Y가 **범주형(예/아니오, 합격/불합격 등)**일 때 사용
    • 환자가 병에 걸릴 확률(Yes/No), 고객이 이탈할 확률(0/1)

분석 절차(시험 포인트)

  • R² (결정계수): 0~1 사이 값, 1에 가까울수록 설명력이 좋다.
  • 다중공선성(Multicollinearity): 독립변수들끼리 너무 강하게 상관되어 있으면 문제 발생 (VIF로 확인).
  • 잔차분석: 오차가 정규성, 독립성, 등분산성을 만족해야 한다.
  • 과적합(Overfitting): 변수가 너무 많으면 훈련 데이터에는 잘 맞지만 새로운 데이터 예측 성능이 떨어짐.

한 줄 요약 (시험 대비 암기 팁)

  • 회귀분석 = 원인(X) → 결과(Y) 관계를 수식으로 모델링
  • 검정 = β=0인지 아닌지 확인
  • 성능평가 = R²와 잔차분석
  • 로지스틱 회귀 = 범주형 Y 예측

 


2. 지니지수와 엔트로피 지수

두 개념 모두 의사결정나무(Decision Tree)에서 분할 기준으로 사용하는 불순도(impurity) 지표입니다.

지니지수 (Gini Index)

Gini = 1 - Σ p_i^2
  • p_i: 클래스 i의 비율
  • 값 범위: 0 ~ 0.5 (이진분류에서)
  • 값이 0이면 완전 순수(한 클래스만 존재)

엔트로피 (Entropy)

Entropy = - Σ p_i log2(p_i)
  • 값 범위: 0 ~ 1 (이진분류에서)
  • 값이 클수록 더 섞여 있다는 뜻
  • 정보이론 기반. 정보이득(Information Gain) = 분할 전 엔트로피 - 분할 후 엔트로피

시험 포인트:

  • 지니지수와 엔트로피는 모두 "불순도(Impurity)"를 측정하는 지표다.
  • 값이 0이면 완전히 순수, 값이 클수록 섞여 있다.
  • 지니지수는 계산이 빠르고 단순, 엔트로피는 정보이론 기반이라 직관적 의미가 풍부하다.

빅데이터 분석기사 시험 스타일에 맞춰서 지니지수와 엔트로피 관련 객관식 문제를 몇 개 만들어드릴게요.

문제 1

다음 중 **지니지수(Gini Index)**에 대한 설명으로 옳은 것은?

① 값의 범위는 0 ~ 1이며, 값이 1일수록 완전히 순수하다.
② 계산식은 −∑pi log⁡2(pi)- \sum p_i \log_2(p_i) 형태로 나타낸다.
③ CART 의사결정나무에서 주로 사용되는 불순도 지표이다.
④ 두 클래스의 비율이 50:50일 때 지니지수 값은 0이다.

👉 정답: ③
(①은 엔트로피 설명, ②는 엔트로피 공식, ④는 잘못됨 → 50:50이면 최대 불순도 0.5)


문제 2

**엔트로피(Entropy)**에 대한 설명으로 옳지 않은 것은?

① 엔트로피 값이 0일 때는 데이터가 완전히 순수하다.
② 엔트로피는 정보이론(Information Theory)에서 유래한 개념이다.
③ 두 클래스가 50:50으로 섞였을 때 엔트로피는 1로 최대값을 가진다.
④ 엔트로피 계산은 지니지수보다 단순하고 계산량이 적다.

👉 정답: ④
(엔트로피는 로그 계산을 포함하므로 지니지수보다 계산량이 많음)


문제 3

어떤 노드에 클래스 분포가 [합격 80%, 불합격 20%]라고 하자.
이때 지니지수를 계산하면 얼마인가?

① 0.16
② 0.32
③ 0.48
④ 0.64

👉 정답: ②

Gini=1−(0.82+0.22)=1−(0.64+0.04)=0.32Gini = 1 - (0.8^2 + 0.2^2) = 1 - (0.64+0.04) = 0.32


문제 4

다음 중 의사결정나무 분할 기준에 대한 설명으로 옳지 않은 것은?

① 엔트로피를 이용할 경우, 정보이득(Information Gain)을 최대화하는 방향으로 분할한다.
② 지니지수와 엔트로피 모두 값이 낮을수록 불순도가 크다는 의미이다.
③ CART 알고리즘에서는 주로 지니지수를 사용한다.
④ ID3, C4.5 알고리즘에서는 엔트로피를 활용한다.

👉 정답: ②
(불순도가 낮다는 건 → 더 "순수"하다는 의미임. 값이 작을수록 좋음)


 

 


3. 인공신경망과 활성함수

은닉층의 활성함수는 신경망에 비선형성을 부여하여 복잡한 패턴을 학습하게 합니다. 활성함수 없이는 신경망이 선형 회귀와 동일해집니다.

대표 활성함수

  • Sigmoid: f(x)=1/(1+e^{-x}), 출력 범위 (0,1). 확률 해석 가능. 단점: 기울기 소실(vanishing gradient)
  • tanh: 출력 범위 (-1,1). Sigmoid보다 중앙화되어 안정적이나 기울기 소실 문제 있음
  • ReLU: f(x)=max(0,x). 계산이 간단, 기울기 소실 완화. 단점: 죽은 뉴런(dead neuron)
  • Leaky ReLU: 음수 영역에서 작은 기울기 남김
  • Softmax: 출력층에서 다중클래스 확률로 사용

시험 포인트:

  • 은닉층에서 비선형 활성함수를 써야 한다는 점
  • Sigmoid, tanh → 기울기 소실 문제 있음
  • ReLU → 현재 가장 대표적인 활성함수, 빠르고 잘 동작
  • Softmax는 은닉층이 아니라 **출력층(다중 분류)**에서 사용

예상 문제 (기출 스타일)

문제 1

인공신경망에서 은닉층 활성함수로 가장 널리 사용되는 함수는?

① Sigmoid
② ReLU
③ Softmax
④ 선형함수

👉 정답: ② ReLU


문제 2

다음 중 Sigmoid 함수에 대한 설명으로 옳지 않은 것은?

① 출력 값이 0과 1 사이에 존재한다.
② 깊은 신경망에서는 기울기 소실 문제가 발생할 수 있다.
③ 음수 입력값도 반영 가능하다.
④ 분류 문제에서 확률적 해석이 가능하다.

👉 정답: ③
(Sigmoid는 입력이 아무리 음수라도 출력이 0~1 범위임 → 음수 출력은 불가능)


문제 3

다중 클래스 분류 문제에서 출력층 활성함수로 주로 사용하는 것은?

① Sigmoid
② tanh
③ ReLU
④ Softmax

👉 정답: ④ Softmax


문제 4

다음 설명이 옳은 것을 모두 고르시오.

ㄱ. tanh 함수는 출력 범위가 (-1, 1)이다.
ㄴ. ReLU 함수는 입력이 음수일 경우 항상 0을 출력한다.
ㄷ. Softmax는 은닉층에서 비선형성을 주기 위해 사용된다.

① ㄱ
② ㄱ, ㄴ
③ ㄱ, ㄷ
④ ㄴ, ㄷ

👉 정답: ②
(Softmax는 은닉층이 아니라 출력층에서 사용)

 


4. 인공신경망 과적합 방지와 규제 (Lasso, Ridge)

과적합 방지 방법은 데이터, 모델, 규제 측면으로 나뉩니다.

과적합 방지 주요 기법

  • 데이터 증강(Data Augmentation)
  • 교차검증(Cross Validation)
  • 모델 단순화 (층/노드 축소)
  • 드롭아웃(Dropout)
  • 배치 정규화(Batch Normalization)
  • 규제(Regularization): L1(Lasso), L2(Ridge)

릿지(Ridge, L2) vs 라쏘(Lasso, L1)

  • Ridge (L2): 손실 + λ Σ w_j^2. 가중치를 작게 만들지만 0으로 만들지 않음. 유클리드 거리(Euclidean) 기반.
  • Lasso (L1): 손실 + λ Σ |w_j|. 일부 가중치를 0으로 만들어 변수 선택 효과 발생. 맨해튼 거리(Manhattan) 기반.
  • Elastic Net: L1 + L2 혼합.

시험 포인트:

  • 릿지(Ridge) = L2 규제 = 유클리드 거리 기반
  • 라쏘(Lasso) = L1 규제 = 맨해튼 거리 기반
  • 라쏘는 변수 선택 기능(가중치를 0으로 만듦)이 있다는 점 자주 출제
  • 릿지는 모든 변수를 조금씩 유지한다는 특징 자주 출제

예상 문제 (객관식)

문제 1

다음 중 인공신경망의 과적합 방지 기법이 아닌 것은?

① 드롭아웃(Dropout)
② 배치 정규화(Batch Normalization)
③ 데이터 증강(Data Augmentation)
④ 학습률(Learning Rate) 증가

👉 정답: ④ (학습률 조정은 최적화와 관련, 직접적인 과적합 방지 방법 아님)


문제 2

릿지 회귀(Ridge Regression)에 대한 설명으로 옳은 것은?

① 가중치의 절댓값 합에 패널티를 부여한다.
② 일부 가중치를 0으로 만들어 변수 선택 기능을 제공한다.
③ L2 규제를 적용하며 유클리드 거리 개념을 기반으로 한다.
④ 모델에서 불필요한 변수를 제거하는 데 유리하다.

👉 정답: ③


문제 3

라쏘 회귀(Lasso Regression)의 특징으로 옳지 않은 것은?

① L1 규제를 사용한다.
② 가중치 절댓값 합에 패널티를 준다.
③ 모든 가중치를 줄이는 대신 0으로 만들지는 않는다.
④ 변수 선택 기능이 있다.

👉 정답: ③ (0으로 만드는 것이 라쏘의 핵심)


문제 4

다음 설명 중 알맞게 연결된 것은?

ㄱ. 릿지 규제 – L2 규제 – 유클리드 거리
ㄴ. 라쏘 규제 – L1 규제 – 맨해튼 거리
ㄷ. 라쏘 규제 – 변수 선택 가능
ㄹ. 릿지 규제 – 변수 선택 가능

① ㄱ, ㄴ
② ㄱ, ㄷ
③ ㄱ, ㄴ, ㄷ
④ ㄱ, ㄴ, ㄹ

👉 정답: ③

 


5. 서포트벡터머신 (SVM)

SVM은 초평면(hyperplane)을 찾는 분류 알고리즘으로, 마진(margin)을 최대화하는 것이 핵심입니다.

  • 서포트 벡터: 초평면에 가장 가까운 포인트들
  • 하드 마진: 완전 분리(이상치 민감)
  • 소프트 마진: 일부 오분류 허용(일반화 향상)
  • 커널 트릭: 비선형 문제를 고차원으로 매핑(Linear, Polynomial, RBF 등)

시험 포인트:

  • SVM은 마진 최대화 알고리즘이다.
  • 서포트 벡터는 초평면을 결정하는 데이터다.
  • 커널 함수를 사용하면 비선형 문제도 해결할 수 있다.
  • 소프트 마진 → 일반화 성능 강화
  • 회귀 문제에서는 **SVR(Support Vector Regression)**으로 확장

예상 문제 (객관식)

문제 1

서포트 벡터 머신(SVM)에 대한 설명으로 옳지 않은 것은?

① 초평면(Hyperplane)을 찾아 데이터를 분류한다.
② 결정 경계와 가장 가까운 데이터 포인트를 서포트 벡터라 한다.
③ 마진을 최대화하는 것이 목표이다.
④ 커널 함수를 사용하면 항상 선형 분류 문제로만 적용된다.

👉 정답: ④ (커널은 비선형 문제를 해결하기 위해 사용)


문제 2

서포트 벡터 머신에서 **마진(Margin)**에 대한 설명으로 옳은 것은?

① 마진은 항상 0이 되어야 좋은 초평면이다.
② 마진은 초평면과 서포트 벡터 사이의 거리이다.
③ 마진이 좁을수록 일반화 성능이 좋아진다.
④ 마진은 데이터의 차원 수와 무관하다.

👉 정답: ②


문제 3

SVM에서 커널 기법(Kernel Trick)을 사용하는 주된 목적은?

① 계산 속도를 높이기 위함
② 비선형 문제를 고차원 공간에서 선형 분리 가능하게 하기 위함
③ 서포트 벡터 수를 줄이기 위함
④ 마진을 좁히기 위함

👉 정답: ②


문제 4

서포트 벡터 머신(SVM)에 대한 설명으로 알맞은 것을 모두 고르시오.

ㄱ. 초평면을 기준으로 분류한다.
ㄴ. 마진을 최대화한다.
ㄷ. 일부 오분류를 허용하는 방법을 소프트 마진이라 한다.
ㄹ. SVM은 회귀 문제에는 사용할 수 없다.

① ㄱ, ㄴ
② ㄱ, ㄴ, ㄷ
③ ㄱ, ㄷ, ㄹ
④ ㄱ, ㄴ, ㄷ, ㄹ

👉 정답: ② (ㄹ은 틀림 → 회귀도 가능, SVR 있음)

 


6. 연관분석

연관분석(Association Analysis)은 항목 간 규칙(X → Y)을 찾는 기법, 즉 장바구니 분석(Market Basket Analysis)에 주로 사용됩니다.

주요 지표

  • Support (지지도): 전체 거래 중 X와 Y가 함께 나타난 비율
  • Confidence (신뢰도): X가 있을 때 Y가 함께 발생할 확률
  • Lift (향상도): Confidence / Support(Y). Lift > 1이면 양의 연관.

대표 알고리즘

  • Apriori
  • FP-Growth

빅데이터 분석기사 시험 포인트

  • 연관분석 = 장바구니 분석
  • 지지도, 신뢰도, 향상도 개념과 계산식
  • Lift > 1일 때 의미
  • Apriori, FP-Growth 알고리즘 특징

예상 문제 (객관식)

문제 1

연관분석(Association Analysis)에 대한 설명으로 옳지 않은 것은?

① 장바구니 분석(Market Basket Analysis)에서 자주 사용된다.
② 지지도, 신뢰도, 향상도는 연관 규칙 평가 지표이다.
③ 향상도가 1보다 크면 X와 Y는 독립이다.
④ Apriori 알고리즘은 연관 규칙 탐색에 사용된다.

👉 정답: ③ (향상도가 1이면 독립, 1보다 크면 양의 상관관계)


문제 2

어떤 데이터셋에서 {빵} → {우유}의 지지도가 0.2이고 신뢰도가 0.5라고 하자.
이 의미로 옳은 것은?

① 전체 거래 중 20%에서 빵과 우유가 함께 구매되었다.
② 빵을 산 사람 중 20%가 우유도 구매했다.
③ 빵을 산 사람 중 50%가 우유도 구매했다.
④ 전체 거래 중 50%에서 빵과 우유가 함께 구매되었다.

👉 정답: ①, ③


문제 3

연관분석에서 향상도(Lift)가 1보다 작은 경우 의미로 옳은 것은?

① X와 Y는 독립이다.
② X가 발생할 때 Y가 발생할 확률이 오히려 줄어든다.
③ X가 발생할 때 Y가 발생할 확률이 증가한다.
④ X와 Y는 강한 양의 연관성을 가진다.

👉 정답: ②


문제 4

다음 중 연관분석 알고리즘에 대한 설명으로 옳은 것은?

① Apriori 알고리즘은 빈발항목집합을 찾는 데 사용된다.
② FP-Growth 알고리즘은 모든 가능한 항목 집합을 무작위로 탐색한다.
③ 연관분석은 주로 회귀분석과 함께 사용된다.
④ Lift는 항상 1보다 크다.

👉 정답: ①

 

문제 5

(연관분석) 장바구니 분석에서 A → B 규칙의 신뢰도(Confidence) 의미는?
① 전체 거래 중 A와 B가 동시에 등장할 확률
② A가 등장했을 때 B가 등장할 확률
③ A와 B가 독립일 때 나타나는 확률
④ A가 등장하지 않을 확률
정답: ②


7. 군집분석 (계층적 vs 비계층적, 거리 측도)

군집분석은 비지도학습으로, 유사도를 기준으로 데이터를 그룹화합니다.

계층적 군집분석 (Hierarchical)

  • 덴드로그램으로 시각화
  • 병합적(Agglomerative) 또는 분할적(Divisive)
  • 장점: 군집 수 몰라도 가능, 구조 파악 용이
  • 단점: 계산량 많음(대규모 부적합)

비계층적 군집분석 (Non-hierarchical)

  • K-means 대표 (사전 k 지정 필요)
  • 장점: 대규모 데이터에 적합, 빠름
  • 단점: k 결정 필요, 초기값 민감

거리 측도

  • 유클리드 거리 (Euclidean)
  • 맨해튼 거리 (Manhattan)
  • 마하라노비스 거리 (Mahalanobis)
  • 코사인 유사도 (Cosine similarity) — 문서 데이터에 주로 사용

예상 문제 (5문제)

문제 1

군집분석에 대한 설명으로 옳지 않은 것은?
① 군집분석은 비지도학습 기법이다.
② 같은 군집 내 데이터는 서로 유사성이 높다.
③ 계층적 군집분석은 덴드로그램으로 표현할 수 있다.
④ 군집분석은 반드시 종속변수를 필요로 한다.

👉 정답: ④ (군집분석은 종속변수 없음 → 비지도학습)


문제 2

다음 중 비계층적 군집분석 방법으로 가장 널리 사용되는 것은?
① K-평균 알고리즘
② 덴드로그램 분석
③ 병합적 방법
④ 분할적 방법

👉 정답: ① K-평균 알고리즘


문제 3

계층적 군집분석에서 "병합적(Agglomerative)" 방법에 대한 설명으로 옳은 것은?
① 전체 데이터를 하나의 군집으로 시작하여 점차 분리한다.
② 데이터 수가 많아질수록 계산이 단순해진다.
③ 각 데이터를 개별 군집으로 시작하여 가까운 것부터 합쳐 나간다.
④ 군집 수를 반드시 사전에 지정해야 한다.

👉 정답: ③


문제 4

군집분석에서 거리 측도로 가장 일반적으로 사용되는 것은?
① 마하라노비스 거리
② 맨해튼 거리
③ 코사인 유사도
④ 유클리드 거리

👉 정답: ④ 유클리드 거리


문제 5

문서 데이터와 같이 벡터의 크기보다 방향적 유사성이 중요한 경우 주로 사용하는 거리 측정 방법은?
① 유클리드 거리
② 맨해튼 거리
③ 코사인 유사도
④ 마하라노비스 거리

👉 정답: ③ 코사인 유사도


8. 고급분석기법 요약

고급분석기법 범주: 지도학습(회귀/분류), 비지도학습(군집/연관/차원축소), 딥러닝, 최적화(경사하강법 등), 강화학습(개념 수준).

구분 기법 주요 알고리즘/방법 특징
지도학습 회귀 · 분류 선형/로지스틱 회귀, SVM, 랜덤포레스트, ANN 레이블 기반, 예측/분류
비지도학습 군집 · 연관 · 차원축소 K-means, Apriori, PCA, t-SNE 패턴 탐색, 구조 파악
딥러닝 신경망 MLP, CNN, RNN 복잡한 비선형 모델링 (이미지, 시계열)
최적화 학습법 GD, SGD, Adam 손실 최소화

 

시험 대비 포인트

  • 지도학습 vs 비지도학습 구분
  • 군집분석·연관분석·차원 축소 알고리즘 원리
  • SVM, 신경망, 규제(Lasso/L1, Ridge/L2) 특징
  • 지니지수·엔트로피와 같이 의사결정나무 분할 기준
  • 과적합 방지 방법
  • 거리 측도 (유클리드, 맨해튼, 코사인, 마하라노비스)
  • 고급분석기법 구조도(아래 참고)

고급분석기법

├─ 지도학습 (Supervised Learning)
│   ├─ 회귀분석 (Regression)
│   │    ├─ 선형회귀
│   │    └─ 로지스틱 회귀
│   └─ 분류 (Classification)
│        ├─ 의사결정나무 / 랜덤포레스트
│        ├─ 서포트 벡터 머신 (SVM)
│        └─ 인공신경망 (ANN)

├─ 비지도학습 (Unsupervised Learning)
│   ├─ 군집분석 (Clustering: K-means, 계층적)
│   ├─ 연관분석 (Association Rule)
│   └─ 차원 축소 (PCA, t-SNE)

├─ 딥러닝 (Deep Learning)
│   ├─ 다층 퍼셉트론 (MLP)
│   ├─ 합성곱 신경망 (CNN)
│   └─ 순환 신경망 (RNN)

└─ 최적화 기법 (Optimization)
    ├─ 경사하강법 (Gradient Descent)
    └─ 확률적 경사하강법 (SGD)

예상 문제 예시 (객관식)

문제 1

고급 분석 기법 중 지도학습에 해당하지 않는 것은?
① 로지스틱 회귀
② 서포트 벡터 머신
③ 군집분석
④ 랜덤포레스트
👉 정답: ③ 군집분석 (비지도학습)


문제 2

연관분석에서 향상도(Lift)의 의미로 가장 올바른 것은?
① A와 B가 독립일 때보다 얼마나 강하게 연관되는지 측정
② A가 발생했을 때 B가 발생할 확률
③ 전체 거래 중 A와 B가 동시에 발생한 확률
④ 군집의 응집도를 나타내는 지표
👉 정답: ①


문제 3

다음 중 과적합 방지 방법이 아닌 것은?
① 조기종료(Early Stopping)
② Dropout
③ 라쏘 규제
④ 평균제곱오차 최소화
👉 정답: ④ (MSE는 손실 함수, 방지 방법 아님)


문제 4

군집분석에서 문서 데이터와 같은 벡터 간 방향 유사성을 측정할 때 가장 적합한 방법은?
① 유클리드 거리
② 맨해튼 거리
③ 코사인 유사도
④ 마하라노비스 거리
👉 정답: ③


문제 5

다음 중 차원 축소 기법에 해당하는 것은?
① PCA
② SVM
③ 랜덤포레스트
④ 로지스틱 회귀
👉 정답: ① PCA


9. t-SNE란?

t-SNE는 고차원 데이터의 국소 이웃(local neighbor) 관계를 보존하면서 2D/3D 시각화를 위해 고안된 비선형 차원축소 기법입니다.

핵심 아이디어

  • 고차원에서의 유사도를 확률로 표현 (가우시안)
  • 저차원에서는 t-분포(자유도 1)를 사용하여 유사도를 정의
  • Kullback-Leibler divergence를 최소화하는 방향으로 임베딩 진행

하이퍼파라미터 & 팁

  • perplexity: 보통 5~50
  • learning rate: 보통 200~1000 기본값 사용
  • n_iter: 최소 1000 이상 권장
  • PCA로 선축소 후 t-SNE 적용 추천 (속도/안정성 개선)

주의점

  • 전역구조(클러스터 간 거리/크기) 해석 주의
  • 랜덤성/하이퍼파라미터 의존성 존재
  • 새로운 데이터 즉시 투영 불가(비모수적)

예상 문제(객관식, 5문항)

문제 1
t-SNE에서 저차원 유사도를 정의할 때 사용하는 분포는?
① 정규분포 ② 지수분포 ③ t-분포(자유도 1) ④ 균등분포
정답: ③

문제 2
t-SNE의 perplexity에 대한 올바른 설명은?
① 학습률과 동일한 의미다.
② 효과적인 이웃 수를 조절하는 하이퍼파라미터다.
③ 반복 횟수의 상한을 뜻한다.
④ 초기화 방법을 선택한다.
정답: ②

문제 3
다음 중 t-SNE 결과 해석 시 부적절한 것은?
① 가까운 점끼리 뭉친 패턴을 이웃 구조의 단서로 본다.
② 클러스터 사이의 절대 거리와 면적을 군집 간 유사도 척도로 해석한다.
③ 시드/하이퍼파라미터 변화에 따른 일관성 확인을 한다.
④ PCA로 선축소 후 t-SNE를 적용한다.
정답: ②

문제 4
다음 중 t-SNE의 목표함수에 가장 가까운 것은?
KL(Q∥P)\mathrm{KL}(Q\|P) 최소화
KL(P∥Q)\mathrm{KL}(P\|Q) 최소화
③ MSE 최소화
④ 군집 내 분산 최소화
정답: ②

문제 5
다음 중 t-SNE와 가장 어울리는 사용 목적은?
① 선형 회귀 계수 추정
② 대규모 고차원 데이터의 2D 시각화
③ 실시간 예측용 임베딩 변환(신규 포인트 투영)
④ 군집 개수 자동 결정
정답: ②


10. 분할표: Odds Ratio & Risk Ratio (예제)

분할표(Contingency table)를 통한 RR(상대위험도)와 OR(교차비) 계산 예제 2개와 풀이입니다.

문제 1

흡연 여부와 폐질환 발생 조사 결과:

  폐질환 발생(Yes) 폐질환 없음(No) 합계
흡연 40 60 100
비흡연 10 90 100
합계 50 150 200

풀이

  • Risk(흡연)=40/100=0.40, Risk(비흡연)=10/100=0.10 → RR=0.40/0.10=4.0
  • Odds(흡연)=40/60, Odds(비흡연)=10/90 → OR=(40/60)/(10/90)=6.0

문제 2

신약 투여와 치료 성공 결과:

  성공(Yes) 실패(No) 합계
신약 투여 80 20 100
미투여 60 40 100
합계 140 60 200

풀이

  • Risk(투여)=80/100=0.80, Risk(미투여)=60/100=0.60 → RR=0.80/0.60=1.33
  • Odds(투여)=80/20=4.0, Odds(미투여)=60/40=1.5 → OR=4.0/1.5≈2.67

핵심 정리

  • Risk Ratio (RR): 실제 확률(위험도) 비율. → 코호트 연구에 적합.
  • Odds Ratio (OR): 사건 발생 Odds 비율. → 사례-대조 연구 등에서 활용.
  • RR은 직관적(위험 몇 배), OR은 수학적 성질이 좋아 회귀모형에서 사용.

11. 회귀분석의 분산분석(ANOVA)

회귀모형의 적합성(유의성)을 검정하기 위해 ANOVA표를 사용합니다. 총제곱합(SST) = 회귀(SSR) + 오차(SSE).

요인 제곱합(SS) 자유도(df) 평균제곱(MS) F
회귀(Regression) SSR k MSR=SSR/k F = MSR / MSE
오차(Error) SSE n-k-1 MSE=SSE/(n-k-1)
전체(Total) SST n-1    

시험 포인트: F 통계량은 MSR/MSE, 귀무가설 H0는 모든 회귀계수(β₁,..,βk)=0 이다.

 

예상 문제 (5문항)

문제 1. (객관식)
회귀분석의 분산분석(ANOVA)에서 **총제곱합(SST)**에 대한 올바른 설명은?
① 회귀제곱합(SSR)과 오차제곱합(SSE)의 합이다.
② 종속변수의 변동 중 독립변수로 설명되지 않는 부분이다.
③ 자유도는 항상 n−k−1n-k-1로 계산된다.
④ 회귀모형의 유의성을 검정하는 데 사용되는 통계량이다.
👉 정답: ①


문제 2. (주관식)
다중회귀분석에서 오차항의 자유도(df)는 어떻게 계산되는가?
👉 정답: n−k−1n-k-1 (표본 수 – 독립변수 수 – 1)


문제 3. (객관식)
다음 중 회귀분석 ANOVA에서 F-통계량을 올바르게 나타낸 식은?
F=SSESSRF = \frac{SSE}{SSR}
F=MSRMSEF = \frac{MSR}{MSE}
F=SSTSSEF = \frac{SST}{SSE}
F=SSRSSTF = \frac{SSR}{SST}
👉 정답: ②


문제 4. (객관식)
단순회귀분석에서 다음 값이 주어졌을 때 F값을 구하시오.

  • SSR = 200, SSE = 100, n = 20

① 19.0
② 36.0
③ 38.0
④ 40.0

👉 풀이

  • 자유도(df_reg)=1, df_err=18
  • MSR = SSR/1 = 200
  • MSE = SSE/18 = 100/18 ≈ 5.56
  • F = 200 / 5.56 ≈ 36.0
    👉 정답: ②

문제 5. (객관식)
회귀분석의 분산분석표에서 **F-검정의 귀무가설(H₀)**은 무엇인가?
① 모든 회귀계수는 0이 아니다.
② 모든 회귀계수는 동일하다.
③ 모든 회귀계수는 0이다.
④ 잔차항의 분산은 0이다.
👉 정답: ③ (β₁=β₂=...=βk=0)


12. 단순회귀: 회귀계수 계산과 자유도(예시)

단순선형회귀 모형 Y = β₀ + β₁ X + ε에서 β₁은 다음 식으로 구합니다:

β₁ = Σ (X_i - X̄)(Y_i - Ȳ) / Σ (X_i - X̄)^2

예시 데이터

X(공부시간) Y(시험점수)
1 2
2 3
3 5
4 4
5 6

계산 요약

  • 평균: X̄=3, Ȳ=4
  • 분자 Σ(X_i - X̄)(Y_i - Ȳ) = 9
  • 분모 Σ(X_i - X̄)^2 = 10
  • β₁ = 9/10 = 0.9, β₀ = Ȳ - β₁ X̄ = 4 - 0.9*3 = 1.3
  • 회귀식: Ŷ = 1.3 + 0.9 X

자유도(ANOVA 관련): 단순회귀에서 회귀의 자유도(df_reg)=1인 이유는 설명변수(독립변수)가 1개이기 때문입니다. (df_err = n - k - 1 = n - 2)


13. 데이터 분석의 구성요소(2과목)

데이터 분석의 전형적 절차:

  1. 문제 정의 (Problem Definition)
  2. 데이터 수집 (Data Collection)
  3. 데이터 전처리 (Data Preprocessing)
  4. 탐색적 데이터 분석 (EDA)
  5. 모델링 및 분석 (Modeling)
  6. 모델 평가 및 해석 (Evaluation)
  7. 결과 활용 및 의사결정 (Deployment)

14. 차원 축소: 선형 vs 비선형 기법

차원 축소는 고차원 데이터를 저차원으로 줄여 계산 효율, 시각화, 잡음 제거 등의 목적을 달성합니다.

선형 차원 축소

  • PCA: 분산을 최대화하는 축을 찾음 (고유값 분해)
  • LDA: 클래스 간 분리(분산비)를 최대화 (분류 목적)
  • Metric MDS: 거리행렬을 저차원에서 보존

비선형 차원 축소

  • Kernel PCA: 커널을 이용해 비선형 매핑 후 PCA
  • t-SNE: 이웃 구조 보존, 시각화에 강함
  • Isomap: 지오데식 거리 기반
  • Non-metric MDS: 거리의 순위 보존

예상문제 (기출 변형)

문제 1

다음 중 선형 차원 축소 기법에 해당하지 않는 것은?
① PCA
② LDA
③ Metric MDS
④ t-SNE

👉 정답: ④


문제 2

클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하여 차원을 축소하는 기법은?
① PCA
② LDA
③ Isomap
④ Kernel PCA

👉 정답: ②


문제 3

고차원 데이터의 지역적 이웃 관계를 보존하면서 2D 시각화에 자주 활용되는 차원 축소 기법은?
① PCA
② t-SNE
③ LDA
④ Metric MDS

👉 정답: ②


문제 4

Isomap 기법은 어떤 거리 개념을 이용하여 차원을 축소하는가?
① 유클리드 거리
② 지오데식 거리
③ 맨해튼 거리
④ 코사인 유사도

👉 정답: ②


문제 5

차원 축소 기법 중 커널 함수를 이용하여 선형 기법을 확장한 방식은?
① Kernel PCA
② LDA
③ Non-metric MDS
④ Isomap

👉 정답: ①


15. 계층적 군집분석과 비계층적 군집분석 차이 (기준별)

요약(비교 기준):

기준 계층적 비계층적
방식 덴드로그램 / 병합적 or 분할적 K-means 등 (k 사전 지정)
장점 군집 수 몰라도 됨, 구조 시각화 대규모 데이터 적합, 빠름
단점 계산량 큼, 되돌리기 어렵다 k 지정 필요, 초기값 민감
적합 소규모 데이터 대규모 데이터

16. 베이즈 정리

베이즈 정리는 조건부 확률을 업데이트하는 핵심 공식입니다.

P(A|B) = P(B|A) * P(A) / P(B)

용어:

  • P(A): 사전확률 (Prior)
  • P(B|A): 우도(Likelihood)
  • P(B): 증거(Evidence)
  • P(A|B): 사후확률 (Posterior)

예시 (의학검사)

  • 유병률 P(D)=0.01
  • 민감도 P(+|D)=0.99
  • 위양성률 P(+|NoD)=0.05
  • P(D|+)= (0.99*0.01) / (0.99*0.01 + 0.05*0.99) ≈ 0.167

예상문제 (기출 기반)

문제 1

베이즈 정리에 대한 설명으로 옳지 않은 것은?
① 사전확률은 새로운 증거를 반영하기 전의 확률이다.
② 사후확률은 증거(B)가 발생한 후 사건(A)의 확률을 의미한다.
③ 베이즈 정리는 조건부 확률을 구하는 공식이다.
④ 우도(Likelihood)는 사건 A의 발생 확률을 의미한다.

👉 정답: ④ (우도는 P(B∣A)P(B|A), 즉 A가 주어졌을 때 B의 확률)


문제 2

어떤 암의 발병 확률은 2%이다. 암 환자가 양성 판정을 받을 확률은 95%, 암이 없는 환자가 양성 판정을 받을 확률은 10%이다.
검사 결과가 양성일 때 실제 암일 확률은?

① 15%
② 20%
③ 25%
④ 30%

👉 풀이:

P(Disease∣Positive)=0.95⋅0.02(0.95⋅0.02)+(0.10⋅0.98)=0.0190.117≈0.162≈16.2%P(Disease|Positive) = \frac{0.95 \cdot 0.02}{(0.95 \cdot 0.02) + (0.10 \cdot 0.98)} = \frac{0.019}{0.117} \approx 0.162 \approx 16.2\%

정답: ① 15% (가장 근접)


문제 3

다음 중 베이즈 정리의 활용 예로 적절하지 않은 것은?
① 스팸 메일 필터링
② 환자 진단 검사 결과 해석
③ 머신러닝에서 확률적 분류 모델
④ 데이터 전처리 과정에서 이상치 제거

👉 정답: ④ (이상치 제거는 EDA/전처리 과정이지 베이즈 정리 직접 활용 아님)


마무리

이 글은 제가 GPT와 나눈 대화를 바탕으로 빅데이터 분석기사 3과목의 핵심 내용을 추가 및 수정하여 정리한 것입니다. 개념, 수식, 실전 팁, 기출 스타일 문제 등을 포함했으니 복습용·정리용으로 활용하시기 좋습니다. 급하게 3과목 전체의 헷갈리는 개념을 이해하거나 빠르게 문제를 풀어보실 때 도움이 되실 것이라 생각됩니다. 좋은 결과 있으시길 응원합니다^^

작성: GPT와의 대화를 정리한 학습노트 · 수정/문의는 댓글로 남겨주세요.

LIST