머신러닝이란?

**머신러닝(Machine Learning)**은 데이터를 통해 패턴을 학습하고, 학습한 패턴을 바탕으로 새로운 데이터에 대해 예측이나 판단을 내리는 기술입니다. 명시적으로 규칙을 프로그래밍하는 대신, 데이터에서 규칙을 스스로 찾아내는 것이 핵심입니다.

어디에 사용되는가?

분야활용 예시
이미지 인식얼굴 인식, 의료 영상 진단, 자율주행 객체 탐지
자연어 처리번역, 챗봇, 감정 분석, 텍스트 요약
추천 시스템넷플릭스 콘텐츠 추천, 쇼핑몰 상품 추천
이상 탐지금융 사기 탐지, 네트워크 침입 감지
예측주가 예측, 날씨 예보, 수요 예측
게임/로봇바둑 AI(AlphaGo), 로봇 제어, 자율주행

1. 학습 방식에 따른 분류

머신러닝 알고리즘은 데이터를 어떻게 학습하느냐에 따라 크게 세 가지로 나뉩니다.

지도학습 (Supervised Learning)

정답(레이블)이 있는 데이터로 학습합니다. 입력과 정답의 관계를 학습하여, 새로운 입력에 대해 정답을 예측합니다.

  • 회귀(Regression): 연속적인 값을 예측 (예: 집값 예측)
  • 분류(Classification): 범주를 예측 (예: 스팸 메일 판별)

대표 알고리즘:

  • 선형 회귀 (Linear Regression)
  • 로지스틱 회귀 (Logistic Regression)
  • 서포트 벡터 머신 (SVM)
  • 의사결정 트리 (Decision Tree)
  • 랜덤 포레스트 (Random Forest)
  • k-최근접 이웃 (k-NN)
  • 나이브 베이즈 (Naive Bayes)
  • 신경망 (Neural Network)
  • XGBoost / LightGBM

비지도학습 (Unsupervised Learning)

정답 없이 데이터 자체의 구조나 패턴을 찾아냅니다. 데이터를 그룹으로 묶거나, 차원을 줄이거나, 이상치를 탐지하는 데 사용됩니다.

  • 군집화(Clustering): 유사한 데이터끼리 그룹화 (예: 고객 세분화)
  • 차원 축소(Dimensionality Reduction): 고차원 데이터를 저차원으로 압축 (예: 시각화)
  • 이상 탐지(Anomaly Detection): 비정상 데이터 포인트 식별

대표 알고리즘:

  • K-Means
  • DBSCAN
  • 계층적 군집화 (Hierarchical Clustering)
  • 가우시안 혼합 모델 (GMM)
  • PCA (주성분 분석)
  • t-SNE
  • UMAP
  • Autoencoder
  • Isolation Forest

강화학습 (Reinforcement Learning)

환경과 상호작용하며 보상을 최대화하는 행동을 학습합니다. 정답을 직접 알려주지 않고, 행동의 결과(보상/벌칙)를 통해 학습합니다.

대표 알고리즘:

  • Q-Learning
  • Deep Q-Network (DQN)
  • Policy Gradient
  • PPO (Proximal Policy Optimization)
  • A3C (Asynchronous Advantage Actor-Critic)
  • SAC (Soft Actor-Critic)

2. 모델 구조에 따른 분류: 선형 vs 비선형

알고리즘이 데이터를 어떤 형태의 경계(또는 함수)로 나누는지에 따라 선형과 비선형으로 구분합니다.

선형 모델 (Linear Models)

입력 변수들의 **가중합(weighted sum)**으로 결과를 예측합니다. 결정 경계가 직선(또는 초평면)입니다.

$$y = w_1x_1 + w_2x_2 + \cdots + w_nx_n + b$$

특징:

  • 계산이 빠르고 해석이 쉬움
  • 데이터가 선형적으로 분리 가능할 때 효과적
  • 복잡한 패턴은 포착하기 어려움

대표 알고리즘:

알고리즘용도핵심 수식
선형 회귀회귀$$\hat{y} = \mathbf{w}^T\mathbf{x} + b$$
로지스틱 회귀분류$$P(y=1) = \sigma(\mathbf{w}^T\mathbf{x} + b)$$
선형 SVM분류마진 최대화하는 초평면 탐색
나이브 베이즈분류베이즈 정리 기반 조건부 확률
PCA차원 축소공분산 행렬의 고유벡터 분해
라쏘/릿지 회귀회귀 (정규화)L1/L2 페널티 추가 선형 회귀

비선형 모델 (Non-linear Models)

직선이 아닌 곡선, 계단 함수, 복잡한 경계로 데이터를 분리합니다. 현실 세계의 복잡한 패턴을 더 잘 포착합니다.

대표 알고리즘:

알고리즘비선형성의 원천
의사결정 트리축 방향 분할의 계단 함수 조합
랜덤 포레스트다수 트리의 앙상블
XGBoost / LightGBM부스팅 기반 트리 앙상블
커널 SVM커널 함수로 고차원 매핑
k-NN거리 기반 비모수적 판단
신경망 (MLP)비선형 활성화 함수의 다층 조합
CNN합성곱 + 비선형 활성화
RNN / LSTM시퀀스 처리 + 비선형 게이트
TransformerSelf-Attention + Feed-Forward

3. 해석 가능성에 따른 분류: 화이트박스 vs 블랙박스

머신러닝 모델을 선택할 때 중요한 기준 중 하나는 "모델이 왜 그런 예측을 했는지 설명할 수 있는가?" 입니다.

화이트박스 모델 (Interpretable / Glass-box)

수학적으로 명확한 수식이나 규칙으로 표현 가능하며, 각 변수가 결과에 미치는 영향을 직접 해석할 수 있습니다.

알고리즘해석 방법해석 예시
선형 회귀가중치(계수) 직접 해석"면적이 1㎡ 증가하면 가격이 50만원 상승"
로지스틱 회귀오즈비(Odds Ratio) 해석"흡연자는 비흡연자 대비 폐암 확률 3.2배"
의사결정 트리if-then 규칙 시각화"나이 > 30 AND 소득 > 5000만원 → 승인"
나이브 베이즈조건부 확률 직접 계산"이 단어가 포함되면 스팸 확률 87%"
k-NN유사 사례 기반 설명"가장 비슷한 5개 사례 중 4개가 양성"
라쏘 회귀불필요한 변수 자동 제거"10개 변수 중 3개만 유의미"

장점: 규제 산업(의료, 금융)에서 필수, 디버깅 용이, 인과관계 파악 가능

블랙박스 모델 (Black-box)

내부 동작이 매우 복잡하여 예측 근거를 직관적으로 설명하기 어렵습니다. 성능은 뛰어나지만, "왜?"에 답하기 힘듭니다.

알고리즘블랙박스인 이유
랜덤 포레스트수백 개 트리의 투표 결과 — 개별 트리는 해석 가능하나 전체는 불투명
XGBoost / LightGBM수천 개 부스팅 트리의 순차적 보정 조합
커널 SVM고차원 커널 공간에서의 분리 — 원래 공간에서 경계 설명 불가
신경망 (MLP)수천~수백만 개 가중치의 비선형 조합
CNN수백만 파라미터의 합성곱 필터 조합
RNN / LSTM시간 축으로 펼쳐진 복잡한 상태 전이
Transformer / LLM수십억 파라미터, Self-Attention의 복잡한 상호작용

장점: 높은 예측 성능, 복잡한 패턴 포착, 대규모 데이터에 강함

참고: 블랙박스 모델도 SHAP, LIME, Grad-CAM 같은 설명 가능한 AI(XAI) 기법을 통해 사후적으로 해석할 수 있습니다. 하지만 이는 모델 자체의 해석 가능성과는 다릅니다.

그레이박스 모델 (Semi-interpretable)

부분적으로 해석이 가능하지만, 전체 구조를 완전히 수식화하기는 어려운 모델입니다.

알고리즘해석 가능 부분
단일 의사결정 트리 (깊은)규칙은 보이지만 깊이가 깊으면 해석 어려움
GAM (일반화 가법 모델)각 변수별 기여도는 해석 가능, 상호작용은 제한적
앙상블 + Feature Importance변수 중요도는 제공하나 개별 예측 설명은 불충분

4. 종합 분류표

주요 알고리즘을 한눈에 비교하는 종합 표입니다.

알고리즘학습 방식선형/비선형해석 가능성주요 용도
선형 회귀지도선형화이트박스회귀, 추세 분석
로지스틱 회귀지도선형화이트박스이진 분류
라쏘/릿지지도선형화이트박스정규화 회귀
나이브 베이즈지도선형화이트박스텍스트 분류, 스팸 필터
k-NN지도비선형화이트박스분류, 추천
의사결정 트리지도비선형화이트박스분류, 규칙 도출
랜덤 포레스트지도비선형블랙박스분류, 회귀 (범용)
XGBoost지도비선형블랙박스정형 데이터 경진대회
선형 SVM지도선형화이트박스분류
커널 SVM지도비선형블랙박스고차원 분류
신경망 (MLP)지도비선형블랙박스범용 예측
CNN지도비선형블랙박스이미지 인식
RNN / LSTM지도비선형블랙박스시계열, 자연어
Transformer지도비선형블랙박스자연어, 이미지, 범용
K-Means비지도화이트박스군집화
DBSCAN비지도화이트박스밀도 기반 군집화
PCA비지도선형화이트박스차원 축소
t-SNE / UMAP비지도비선형블랙박스시각화
Autoencoder비지도비선형블랙박스차원 축소, 이상 탐지
Q-Learning강화화이트박스이산 행동 공간 제어
DQN / PPO강화비선형블랙박스게임, 로봇 제어

어떤 모델을 선택해야 할까?

모델 선택은 정답이 없습니다. 아래 기준을 참고하세요.

  • 데이터가 적고 해석이 중요하다면 → 선형 회귀, 로지스틱 회귀, 의사결정 트리
  • 정형 데이터에서 최고 성능이 필요하다면 → XGBoost, LightGBM, 랜덤 포레스트
  • 이미지 데이터라면 → CNN 계열 (ResNet, EfficientNet)
  • 텍스트/시퀀스 데이터라면 → Transformer 계열 (BERT, GPT)
  • 정답 레이블이 없다면 → K-Means, DBSCAN, PCA, Autoencoder
  • 환경과 상호작용해야 한다면 → PPO, SAC 등 강화학습
  • 의료/금융 등 규제 산업이라면 → 화이트박스 모델 우선, 또는 XAI 기법 병행

다음 글에서는 각 알고리즘을 하나씩 깊이 있게 다뤄보겠습니다.