이진 분류(Binary Classification) 모델 정리

📖 1. 이진 분류 모델 구조

🔹 기본 구성

"입력층 → 가중치 연산(Wx + b) → 활성화 함수 → 출력층 (0 또는 1의 확률)"

입력층 (Input Layer)	특성(Feature) 값들을 입력
가중치(W)	각 특성에 곱해지는 학습 가능한 파라미터
활성화 함수	선형 값을 비선형적으로 변환 (주로 시그모이드)
출력층 (Output Layer)	결과값을 확률(0~1)로 표현, 기준(예: 0.5) 이상이면 클래스 1, 아니면 클래스 0

🧠 대표 활성화 함수 - 시그모이드(Sigmoid)

✂️ 2. 결정 경계 (Decision Boundary / Hyperplane)

🔸 정의:

데이터를 분류하기 위한 경계선
입력공간을 기준으로 클래스 0과 클래스 1을 나누는 선 또는 면

차원결정 경계 형태

2D 평면	직선 (line)
3D 공간	평면 (plane)
n차원	초평면 (Hyperplane)

예: 스팸 이메일 분류에서 특정 단어가 포함되었는지를 기준으로 결정 경계를 그을 수 있음

📊 3. 데이터셋 분할

모델 훈련 및 평가를 위해 데이터는 세 가지로 나뉘어요.

데이터셋 종류역할

학습 데이터 (Training Set)	모델이 가중치를 학습할 때 사용
검증 데이터 (Validation Set)	하이퍼파라미터 튜닝 또는 과적합 확인용
테스트 데이터 (Testing Set)	최종 모델의 성능 평가

일반적으로 60~80% 학습, 10~20% 검증, 10~20% 테스트 비율로 분할

📈 4. 모델 평가 방법

🔹 (1) 교차 검증 (Cross Validation)

데이터셋을 k개의 조각으로 나눠서 번갈아 학습과 평가를 반복
모든 데이터가 한 번씩 테스트에 사용됨

👉 k-Fold 교차 검증

예: 데이터를 5조각 → 4개로 학습, 1개로 평가 → 5회 반복

📌 장점: 데이터 낭비 없음, 안정적인 평가 가능

🔹 (2) 부트스트랩핑 (Bootstrapping)

데이터에서 무작위 복원 샘플링으로 여러 개의 학습 데이터셋 생성
각 모델의 결과를 평균내거나 통계적으로 분석

📌 장점: 데이터가 적을 때도 다양한 학습 데이터셋 생성 가능

🧮 5. 이진 분류 모델 성능 지표

✅ 혼동 행렬 (Confusion Matrix)

실제 클래스 1실제 클래스 0

예측 클래스 1	TP (True Positive)	FP (False Positive)
예측 클래스 0	FN (False Negative)	TN (True Negative)

정확도(Accuracy): 전체 중 맞춘 비율

정밀도(Precision): 예측 1 중 실제 1의 비율

재현율(Recall): 실제 1 중 맞춘 비율

✅ ROC Curve (Receiver Operating Characteristic Curve)

X축: FPR (False Positive Rate)
Y축: TPR (True Positive Rate)
다양한 임계값(Threshold)에 따른 성능 시각화 가능
AUC (Area Under Curve): 곡선 아래 면적 → 1에 가까울수록 좋음

📌 요약 한 눈에 보기

항목설명

모델 구조	입력 → 가중치 연산 → 활성화 함수 → 출력(확률)
결정 경계	데이터를 분리하는 선/면/초평면
데이터 분할	학습 / 검증 / 테스트로 구분
평가 방법	교차 검증, 부트스트랩핑
성능 지표	혼동 행렬, 정밀도, 재현율, ROC Curve

저작자표시 (새창열림)

'인공지능' 카테고리의 다른 글

CNN (0)	2025.03.21
다중 분류 (Multi-class Classification) (0)	2025.03.21
선형 회귀 (Linear Regression) (0)	2025.03.21
예측 함수, 손실 함수, 비용 함수, 분류 및 활성화 함수 정리 (0)	2025.03.20
합성 함수, 수치 미분, 경사 하강법 정리 (0)	2025.03.20

공부 블로그

이진 분류(Binary Classification) 모델 정리

📖 1. 이진 분류 모델 구조

🔹 기본 구성

🧠 대표 활성화 함수 - 시그모이드(Sigmoid)

✂️ 2. 결정 경계 (Decision Boundary / Hyperplane)

🔸 정의:

📊 3. 데이터셋 분할

📈 4. 모델 평가 방법

🔹 (1) 교차 검증 (Cross Validation)

👉 k-Fold 교차 검증

🔹 (2) 부트스트랩핑 (Bootstrapping)

🧮 5. 이진 분류 모델 성능 지표

✅ 혼동 행렬 (Confusion Matrix)

✅ ROC Curve (Receiver Operating Characteristic Curve)

📌 요약 한 눈에 보기

'인공지능' 카테고리의 다른 글

티스토리툴바

이진 분류(Binary Classification) 모델 정리

📖 1. 이진 분류 모델 구조

🔹 기본 구성

🧠 대표 활성화 함수 - 시그모이드(Sigmoid)

✂️ 2. 결정 경계 (Decision Boundary / Hyperplane)

🔸 정의:

📊 3. 데이터셋 분할

📈 4. 모델 평가 방법

🔹 (1) 교차 검증 (Cross Validation)

👉 k-Fold 교차 검증

🔹 (2) 부트스트랩핑 (Bootstrapping)

🧮 5. 이진 분류 모델 성능 지표

✅ 혼동 행렬 (Confusion Matrix)

✅ ROC Curve (Receiver Operating Characteristic Curve)

📌 요약 한 눈에 보기

'인공지능' 카테고리의 다른 글

관련글

티스토리툴바