본문 바로가기

전체 글40

최소제곱법(Least Squares Method) **최소제곱법(Least Squares Method)**은 회귀 분석에서 데이터들과 모델(직선 또는 곡선) 사이의 오차를 최소화하여 가장 적합한 함수를 찾아내는 수학적 기법입니다.머신러닝이나 통계학에서 선형 회귀 모델을 훈련시킬 때 가장 기본이 되는 원리이기도 합니다.1. 핵심 원리: '오차의 제곱'을 최소로!데이터 점들이 흩어져 있을 때, 이 점들의 추세를 가장 잘 나타내는 직선($y = ax + b$)을 긋고 싶다고 가정해 봅시다.잔차(Residual) 계산: 실제 데이터 값($y$)과 모델이 예측한 값($\hat{y}$) 사이의 거리(오차)를 구합니다.제곱하는 이유: 오차에는 양수(+)와 음수(-)가 섞여 있습니다. 단순히 더하면 서로 상쇄되어 오차의 크기를 정확히 측정할 수 없으므로, 모든 오차를.. 2025. 12. 22.
선형 회귀와 비선형 회귀 데이터 분석에서 **회귀(Regression)**란 입력 변수($x$)와 출력 변수($y$) 사이의 상관관계를 모델링하여, 새로운 값이 들어왔을 때 결과를 예측하는 기법입니다. 이때 관계가 **'직선'**이냐 아니냐에 따라 선형과 비선형으로 나뉩니다.1. 선형 회귀 (Linear Regression)"데이터의 관계를 가장 잘 설명하는 '직선'을 찾는 것"독립 변수($x$)와 종속 변수($y$)의 관계가 정비례하거나 반비례하는 직선적인 형태일 때 사용합니다.수식 형태: $y = wx + b$ (여기서 $w$는 기울기/가중치, $b$는 절편/편향)특징: 모델이 단순하고 계산 속도가 매우 빠릅니다. 결과에 대한 해석이 직관적입니다(예: "공부 시간이 1시간 늘어나면 성적이 5점 오른다").단점: 현실 세계의 .. 2025. 12. 22.
ROC와 AUC 곡선 분류 모델의 성능을 한눈에 파악하고 비교할 때 가장 많이 사용되는 지표가 바로 ROC 곡선과 AUC입니다.단순히 "정답을 몇 개 맞혔느냐"를 넘어, 모델이 얼마나 **"양성과 음성을 잘 구분해내는가"**를 시각적, 수치적으로 보여줍니다.1. ROC 곡선 (Receiver Operating Characteristic Curve)"임계값(Threshold)에 따른 모델의 태도 변화를 보여주는 그래프"우리가 분류를 할 때 보통 "확률이 0.5 이상이면 양성"이라고 판단하지만, 상황에 따라 이 기준(임계값)을 0.1이나 0.9로 바꿀 수 있습니다. ROC 곡선은 이 임계값을 0부터 1까지 변화시킬 때 모델의 성능이 어떻게 변하는지를 나타냅니다.X축: FPR (False Positive Rate, 위양성률)실제 .. 2025. 12. 22.
분류 모델의 성능을 평가 분류 모델의 성능을 평가할 때, F1 Score와 **특이도(Specificity)**는 모델이 얼마나 '균형 잡힌' 판단을 하는지, 그리고 '정답이 아닌 것을 얼마나 잘 걸러내는지'를 확인하는 아주 중요한 지표입니다.이 지표들을 이해하기 위해서는 먼저 **오차 행렬(Confusion Matrix)**의 4가지 개념을 알아야 합니다.TP (True Positive): 양성(1)을 양성으로 잘 맞춤TN (True Negative): 음성(0)을 음성으로 잘 맞춤FP (False Positive): 음성(0)인데 양성으로 잘못 예측 (가짜 양성)FN (False Negative): 양성(1)인데 음성으로 잘못 예측 (가짜 음성)1. 특이도 (Specificity)"정답이 아닌 것을 아니라고 할 수 있는 능력.. 2025. 12. 22.
AI 분류(Classification) 모델 AI 분류(Classification) 모델은 데이터를 미리 정의된 여러 개의 범주(Category) 중 하나로 나누는 지도 학습(Supervised Learning)의 대표적인 방식입니다.쉽게 말해, 컴퓨터가 "이 사진은 고양이인가, 개인가?" 혹은 "이 메일은 스팸인가, 정상인가?"를 판단하도록 만드는 기술입니다.1. 분류 모델의 핵심 개념분류 모델은 데이터의 특징(Feature)을 분석하여 **결정 경계(Decision Boundary)**를 학습합니다.이진 분류 (Binary Classification): 데이터를 두 가지 중 하나로 분류합니다. (예: 예/아니오, 합격/불합격, 스팸/정상)다중 분류 (Multi-class Classification): 세 개 이상의 범주 중 하나로 분류합니다. .. 2025. 12. 22.
머신러닝(Machine Learning)과 딥러닝(Deep Learning) 머신러닝(Machine Learning)과 딥러닝(Deep Learning)은 서로 별개의 개념이 아니라, **딥러닝이 머신러닝의 한 종류(하위 집합)**에 해당합니다.가장 큰 차이점은 **"기계가 데이터를 얼마나 스스로 이해하는가"**에 있습니다.1. 핵심 차이점 비교구분머신러닝 (ML)딥러닝 (DL)정의데이터를 통해 학습하는 AI의 한 분야인공신경망을 층층이 쌓은 머신러닝의 기법특징 추출사람이 직접 특징을 선택 (Feature Engineering)기계가 스스로 특징을 추출 (End-to-End)데이터 양적은 양의 데이터로도 가능대규모 데이터가 있어야 성능이 나옴하드웨어저사양 PC(CPU)에서도 가능고사양 장비(GPU)가 필수적결과 해석왜 그런 결과가 나왔는지 설명하기 쉬움과정이 복잡해 내부를 알기 .. 2025. 12. 22.