ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • SKN Family AI 15기 6월 3주차 회고
    기록../SKN Family AI 15기 2025. 6. 24. 10:18

    ✍️이번주 회고

    전체 회고

    이번주는 병원 등으로 학원을 너~ 무 자주 빠져서 조금 아쉬운 한 주가 되고 말았다...ㅠ-ㅠ 컨디션 관리도 실력이라는 사실을 새삼 깨닫게 되었는데, 남은 여름 건강관리에 힘써서 

    Keep

    • 머신 러닝의 경우 이전부터 관심있는 분야였다! 눈이 반짝반짝해져서 즐겁게 들을 수 있었던 것 같다.
    • 노트 작성 방식을 개선했다. 코드를 길게 작성하기보다는 탄탄한 개념이 중요한 부분이라, 필기도 개념 위주로 바꾸게 되었는데 꽤 만족스러운 것 같다.
    • 실습에서 만나는 데이터들도 익숙한 데이터들이 많다! 머신 러닝 파트는 수월하고 즐겁게 보낼 수 있을 것 같다.
    • 이번주는 정보처리기사 스터디도 평소보다 원할한 분위기에서 진행됐다. 여러번 해보고 나서야 어느정도 감이 잡힌다니... C언어의 포인터와 배열에 대한 설명을 정리해서 가기로 했다.

    Problem

    • 내가 아는 내용은 자꾸만 필기하기가 싫어진다...ㅎㅎ 아래에 적힐 필기 내용도 지도 학습/비지도 학습 내용은 제대로 적지도 않았다. 아는 내용이어도 꼼꼼하게 적어야 앞으로 도움이 될텐데...
    • 수학이 너무 어렵다... 보충 수업을 해야하나?...

    Try

    • 선형 대수학 관련 유튜브나 블로그 찾아서 한번씩 읽어보기. 시간이 된다면 정리하는 것도 나쁘지 않을 것 같다.

    ✍️학습 내용 정리!

    상관관계

     

    상관 관계는 두 변수 간의 통계적 관계를 의미함. 한 변수에 따라 다른 변수가 얼마나 어떻게 영향을 받는지를 표현하는 관계로, 방향과 강도로 표현됨.

    상관계수가 +- 0.75 이상이면 상관관계가 높은 것으로 간주한다.

    공분산

    • 서로 공유하는 분산. 두 변수간의 관계를 나타낼 수 있음
    • 한 변수의 각각의 데이터가 퍼진 정도를 나타냄
    • 측정 단위에 의존적임.

    상관계수

    • 공분산을 두 변수의 표준편차로 나눈 것이 상관계수이다.
    • 측정 단위에 의존적임

    회귀와 분류

    회귀는 값을 예측하기 위한 것이고, 분류는 범주를 예측하기 위한 것.

    • Linear Regression (선형회귀)
      • 데이터들을 가장 잘 설명하는 하나의 선분을 만들어내는 것.
      • 회귀 알고리즘 중 가장 대표적인 회귀 알고리즘.
      • 회귀는
    • Logistic Regression (로지스틱 회귀)
      • 데이터들을 이진분류하는 하나의 선분을 만들어내는 것

    선형회귀

    • 데이터들을 가장 잘 설명하는 하나의 선분.
    • 가중치(w)와 분산(bias)으로 설명될 수 있다. 일종의 1차방정식을 생각하면 편하다. 유의미한 특성(feature)일수록 가중치를 높게 주어서, 그 특성이 더 잘 반영될 수 있도록 한다.
    • 실제 데이터와 예측값의 차이를 통해 오차를 구할 수 있다.(MAE, MSE 등)

    로지스틱 회귀

    • 회귀를 확률로 바꾸기 위해 사용하는 logit() 함수의 역함수가 시그모이드 함수(=로지스틱 함수)가 된다.
    • 시그모이드

    • 회귀를 확률로 바꾸기 위해 사용하는 logit() 함수의 역함수가 시그모이드 함수(=로지스틱 함수)가 된다.
    • 로지스틱 회귀에서는 시그모이드 함수를 사용하여 이진 분류를 수행한다.
    • 시그모이드 함수를 사용하면, 선형식의 값들이 0과 1사이의 값이 된다. 즉, 확률로 해석할 수 있게 된다.
    • 이를 통해, 이진 분류를 수행할 수 있다.

    결측치와 처리

    결측치

    특정 항목에 값이 누락되거나 기록되지 않은 경우를 결측치라고 함.

    그 종류에 따라서 MCAR, MAR, MNAR로 나뉜다.

    • 다양한 결측치 처리법
      • 단순 대치법
      • 평균 대치법
      • 단순 확률 대치법(KNN 사용)
      • 다중 대치법
      • 보간법(시계열 데이터에서 사용)
      • 회귀 대치법

    평가지표

    • 분류모델이 정답을 잘 분류했는지 파악할 수 있는 평가지표
      • TP (True Positive): 실제 Positive인 것을 Positive라고 올바르게 예측한 경우 (정답)
      • TN (True Negative): 실제 Negative인 것을 Negative라고 올바르게 예측한 경우 (정답)
      • FP (False Positive): 실제 Negative인 것을 Positive라고 잘못 예측한 경우 (오답, Type I Error)
      • FN (False Negative): 실제 Positive인 것을 Negative라고 잘못 예측한 경우 (오답, Type II Error)

    혼동행렬

    • TP, TN, FP, FN을 시각화 하여 보기쉽게 나타낸 것

    정확도

    • 전체 값에서 정답을 맞춘 비율을 통해 성능을 평가한것.

    혼동행렬

    • TP, TN, FP, FN을 시각화 하여 보기쉽게 나타낸 것

    정확도

    • 전체 값에서 정답을 맞춘 비율을 통해 성능을 평가한것.

    $$ \frac{TP + TN}{TP + TN + FP + FN} $$

    정밀도(Precision)

    • 모델이 Positive 라고 예측한 것 중에서 실제 Positive인 것의 비율
    • FP를 줄이고자 할 때 사용된다.

    재현률, 민감도(Recall)

    • 실제 Positive 인 것 중에서 모델이 Positive라고 잘 예측한 것의 비율
    • FN을 줄이고자 할 때 사용된다.

    F1 score

    • F1 점수는 정밀도(Precision)와 재현율(Recall)의 조화 평균(Harmonic Mean)
    • 둘 모두 중요한 지표일 때 사용하는 평가 지표임.

    특이도

    • 실제 Negtive인 것 중에서 모델이 Negative로 잘 예측한 것의 비율

    위양성율

    • 실제

    임계값 변화에 따른 성능 평가

    ROC(Receiver Operating Characteristic) Curve는 분류 모델의 임계값(Threshold) 변화에 따른 성능 변화를 시각화하는 그래프임. AUC(Area Under the Curve)는 이 ROC Curve 아래의 면적을 의미하며, 모델의 성능을 확인할 수 있는 지표임.

    • 만약 임계값이 0.9인 모델이 있다고 하자. 이 모델은 0.9 이상만을 양성으로 판단할 것이다. 그러나, 실제 양성인 데이터들 중에 모델의 예측값이 0.8, 0.7 인 경우에는 양성으로 판단받지 못하고, FN의 개수가 늘어날 것이다.
    • 또 반대로 임계값이 0.2인 모델이 있다고 하면, 거짓 양성값이 너무 많아질 것이다.
    • 이처럼 모델이 거짓양성, 거짓음성 판별 하는 것을 최대한 줄일 수 있는 임계값을 찾기 위한 그래프가 바로 ROC 그래프이며, 면적이 넓을수록 모델의 성능이 좋다고 할 수 있다.
Designed by Tistory.