머신러닝이란?
**머신러닝(Machine Learning)**은 데이터를 통해 패턴을 학습하고, 학습한 패턴을 바탕으로 새로운 데이터에 대해 예측이나 판단을 내리는 기술입니다. 명시적으로 규칙을 프로그래밍하는 대신, 데이터에서 규칙을 스스로 찾아내는 것이 핵심입니다.
어디에 사용되는가?
| 분야 | 활용 예시 |
|---|---|
| 이미지 인식 | 얼굴 인식, 의료 영상 진단, 자율주행 객체 탐지 |
| 자연어 처리 | 번역, 챗봇, 감정 분석, 텍스트 요약 |
| 추천 시스템 | 넷플릭스 콘텐츠 추천, 쇼핑몰 상품 추천 |
| 이상 탐지 | 금융 사기 탐지, 네트워크 침입 감지 |
| 예측 | 주가 예측, 날씨 예보, 수요 예측 |
| 게임/로봇 | 바둑 AI(AlphaGo), 로봇 제어, 자율주행 |
1. 학습 방식에 따른 분류
머신러닝 알고리즘은 데이터를 어떻게 학습하느냐에 따라 크게 세 가지로 나뉩니다.
지도학습 (Supervised Learning)
정답(레이블)이 있는 데이터로 학습합니다. 입력과 정답의 관계를 학습하여, 새로운 입력에 대해 정답을 예측합니다.
- 회귀(Regression): 연속적인 값을 예측 (예: 집값 예측)
- 분류(Classification): 범주를 예측 (예: 스팸 메일 판별)
대표 알고리즘:
- 선형 회귀 (Linear Regression)
- 로지스틱 회귀 (Logistic Regression)
- 서포트 벡터 머신 (SVM)
- 의사결정 트리 (Decision Tree)
- 랜덤 포레스트 (Random Forest)
- k-최근접 이웃 (k-NN)
- 나이브 베이즈 (Naive Bayes)
- 신경망 (Neural Network)
- XGBoost / LightGBM
비지도학습 (Unsupervised Learning)
정답 없이 데이터 자체의 구조나 패턴을 찾아냅니다. 데이터를 그룹으로 묶거나, 차원을 줄이거나, 이상치를 탐지하는 데 사용됩니다.
- 군집화(Clustering): 유사한 데이터끼리 그룹화 (예: 고객 세분화)
- 차원 축소(Dimensionality Reduction): 고차원 데이터를 저차원으로 압축 (예: 시각화)
- 이상 탐지(Anomaly Detection): 비정상 데이터 포인트 식별
대표 알고리즘:
- K-Means
- DBSCAN
- 계층적 군집화 (Hierarchical Clustering)
- 가우시안 혼합 모델 (GMM)
- PCA (주성분 분석)
- t-SNE
- UMAP
- Autoencoder
- Isolation Forest
강화학습 (Reinforcement Learning)
환경과 상호작용하며 보상을 최대화하는 행동을 학습합니다. 정답을 직접 알려주지 않고, 행동의 결과(보상/벌칙)를 통해 학습합니다.
대표 알고리즘:
- Q-Learning
- Deep Q-Network (DQN)
- Policy Gradient
- PPO (Proximal Policy Optimization)
- A3C (Asynchronous Advantage Actor-Critic)
- SAC (Soft Actor-Critic)
2. 모델 구조에 따른 분류: 선형 vs 비선형
알고리즘이 데이터를 어떤 형태의 경계(또는 함수)로 나누는지에 따라 선형과 비선형으로 구분합니다.
선형 모델 (Linear Models)
입력 변수들의 **가중합(weighted sum)**으로 결과를 예측합니다. 결정 경계가 직선(또는 초평면)입니다.
$$y = w_1x_1 + w_2x_2 + \cdots + w_nx_n + b$$
특징:
- 계산이 빠르고 해석이 쉬움
- 데이터가 선형적으로 분리 가능할 때 효과적
- 복잡한 패턴은 포착하기 어려움
대표 알고리즘:
| 알고리즘 | 용도 | 핵심 수식 |
|---|---|---|
| 선형 회귀 | 회귀 | $$\hat{y} = \mathbf{w}^T\mathbf{x} + b$$ |
| 로지스틱 회귀 | 분류 | $$P(y=1) = \sigma(\mathbf{w}^T\mathbf{x} + b)$$ |
| 선형 SVM | 분류 | 마진 최대화하는 초평면 탐색 |
| 나이브 베이즈 | 분류 | 베이즈 정리 기반 조건부 확률 |
| PCA | 차원 축소 | 공분산 행렬의 고유벡터 분해 |
| 라쏘/릿지 회귀 | 회귀 (정규화) | L1/L2 페널티 추가 선형 회귀 |
비선형 모델 (Non-linear Models)
직선이 아닌 곡선, 계단 함수, 복잡한 경계로 데이터를 분리합니다. 현실 세계의 복잡한 패턴을 더 잘 포착합니다.
대표 알고리즘:
| 알고리즘 | 비선형성의 원천 |
|---|---|
| 의사결정 트리 | 축 방향 분할의 계단 함수 조합 |
| 랜덤 포레스트 | 다수 트리의 앙상블 |
| XGBoost / LightGBM | 부스팅 기반 트리 앙상블 |
| 커널 SVM | 커널 함수로 고차원 매핑 |
| k-NN | 거리 기반 비모수적 판단 |
| 신경망 (MLP) | 비선형 활성화 함수의 다층 조합 |
| CNN | 합성곱 + 비선형 활성화 |
| RNN / LSTM | 시퀀스 처리 + 비선형 게이트 |
| Transformer | Self-Attention + Feed-Forward |
3. 해석 가능성에 따른 분류: 화이트박스 vs 블랙박스
머신러닝 모델을 선택할 때 중요한 기준 중 하나는 "모델이 왜 그런 예측을 했는지 설명할 수 있는가?" 입니다.
화이트박스 모델 (Interpretable / Glass-box)
수학적으로 명확한 수식이나 규칙으로 표현 가능하며, 각 변수가 결과에 미치는 영향을 직접 해석할 수 있습니다.
| 알고리즘 | 해석 방법 | 해석 예시 |
|---|---|---|
| 선형 회귀 | 가중치(계수) 직접 해석 | "면적이 1㎡ 증가하면 가격이 50만원 상승" |
| 로지스틱 회귀 | 오즈비(Odds Ratio) 해석 | "흡연자는 비흡연자 대비 폐암 확률 3.2배" |
| 의사결정 트리 | if-then 규칙 시각화 | "나이 > 30 AND 소득 > 5000만원 → 승인" |
| 나이브 베이즈 | 조건부 확률 직접 계산 | "이 단어가 포함되면 스팸 확률 87%" |
| k-NN | 유사 사례 기반 설명 | "가장 비슷한 5개 사례 중 4개가 양성" |
| 라쏘 회귀 | 불필요한 변수 자동 제거 | "10개 변수 중 3개만 유의미" |
장점: 규제 산업(의료, 금융)에서 필수, 디버깅 용이, 인과관계 파악 가능
블랙박스 모델 (Black-box)
내부 동작이 매우 복잡하여 예측 근거를 직관적으로 설명하기 어렵습니다. 성능은 뛰어나지만, "왜?"에 답하기 힘듭니다.
| 알고리즘 | 블랙박스인 이유 |
|---|---|
| 랜덤 포레스트 | 수백 개 트리의 투표 결과 — 개별 트리는 해석 가능하나 전체는 불투명 |
| XGBoost / LightGBM | 수천 개 부스팅 트리의 순차적 보정 조합 |
| 커널 SVM | 고차원 커널 공간에서의 분리 — 원래 공간에서 경계 설명 불가 |
| 신경망 (MLP) | 수천~수백만 개 가중치의 비선형 조합 |
| CNN | 수백만 파라미터의 합성곱 필터 조합 |
| RNN / LSTM | 시간 축으로 펼쳐진 복잡한 상태 전이 |
| Transformer / LLM | 수십억 파라미터, Self-Attention의 복잡한 상호작용 |
장점: 높은 예측 성능, 복잡한 패턴 포착, 대규모 데이터에 강함
참고: 블랙박스 모델도 SHAP, LIME, Grad-CAM 같은 설명 가능한 AI(XAI) 기법을 통해 사후적으로 해석할 수 있습니다. 하지만 이는 모델 자체의 해석 가능성과는 다릅니다.
그레이박스 모델 (Semi-interpretable)
부분적으로 해석이 가능하지만, 전체 구조를 완전히 수식화하기는 어려운 모델입니다.
| 알고리즘 | 해석 가능 부분 |
|---|---|
| 단일 의사결정 트리 (깊은) | 규칙은 보이지만 깊이가 깊으면 해석 어려움 |
| GAM (일반화 가법 모델) | 각 변수별 기여도는 해석 가능, 상호작용은 제한적 |
| 앙상블 + Feature Importance | 변수 중요도는 제공하나 개별 예측 설명은 불충분 |
4. 종합 분류표
주요 알고리즘을 한눈에 비교하는 종합 표입니다.
| 알고리즘 | 학습 방식 | 선형/비선형 | 해석 가능성 | 주요 용도 |
|---|---|---|---|---|
| 선형 회귀 | 지도 | 선형 | 화이트박스 | 회귀, 추세 분석 |
| 로지스틱 회귀 | 지도 | 선형 | 화이트박스 | 이진 분류 |
| 라쏘/릿지 | 지도 | 선형 | 화이트박스 | 정규화 회귀 |
| 나이브 베이즈 | 지도 | 선형 | 화이트박스 | 텍스트 분류, 스팸 필터 |
| k-NN | 지도 | 비선형 | 화이트박스 | 분류, 추천 |
| 의사결정 트리 | 지도 | 비선형 | 화이트박스 | 분류, 규칙 도출 |
| 랜덤 포레스트 | 지도 | 비선형 | 블랙박스 | 분류, 회귀 (범용) |
| XGBoost | 지도 | 비선형 | 블랙박스 | 정형 데이터 경진대회 |
| 선형 SVM | 지도 | 선형 | 화이트박스 | 분류 |
| 커널 SVM | 지도 | 비선형 | 블랙박스 | 고차원 분류 |
| 신경망 (MLP) | 지도 | 비선형 | 블랙박스 | 범용 예측 |
| CNN | 지도 | 비선형 | 블랙박스 | 이미지 인식 |
| RNN / LSTM | 지도 | 비선형 | 블랙박스 | 시계열, 자연어 |
| Transformer | 지도 | 비선형 | 블랙박스 | 자연어, 이미지, 범용 |
| K-Means | 비지도 | — | 화이트박스 | 군집화 |
| DBSCAN | 비지도 | — | 화이트박스 | 밀도 기반 군집화 |
| PCA | 비지도 | 선형 | 화이트박스 | 차원 축소 |
| t-SNE / UMAP | 비지도 | 비선형 | 블랙박스 | 시각화 |
| Autoencoder | 비지도 | 비선형 | 블랙박스 | 차원 축소, 이상 탐지 |
| Q-Learning | 강화 | — | 화이트박스 | 이산 행동 공간 제어 |
| DQN / PPO | 강화 | 비선형 | 블랙박스 | 게임, 로봇 제어 |
어떤 모델을 선택해야 할까?
모델 선택은 정답이 없습니다. 아래 기준을 참고하세요.
- 데이터가 적고 해석이 중요하다면 → 선형 회귀, 로지스틱 회귀, 의사결정 트리
- 정형 데이터에서 최고 성능이 필요하다면 → XGBoost, LightGBM, 랜덤 포레스트
- 이미지 데이터라면 → CNN 계열 (ResNet, EfficientNet)
- 텍스트/시퀀스 데이터라면 → Transformer 계열 (BERT, GPT)
- 정답 레이블이 없다면 → K-Means, DBSCAN, PCA, Autoencoder
- 환경과 상호작용해야 한다면 → PPO, SAC 등 강화학습
- 의료/금융 등 규제 산업이라면 → 화이트박스 모델 우선, 또는 XAI 기법 병행
다음 글에서는 각 알고리즘을 하나씩 깊이 있게 다뤄보겠습니다.