-
SKN Family AI 15기 6월 3주차 회고기록../SKN Family AI 15기 2025. 6. 24. 10:18
✍️이번주 회고
전체 회고
이번주는 병원 등으로 학원을 너~ 무 자주 빠져서 조금 아쉬운 한 주가 되고 말았다...ㅠ-ㅠ 컨디션 관리도 실력이라는 사실을 새삼 깨닫게 되었는데, 남은 여름 건강관리에 힘써서
Keep
- 머신 러닝의 경우 이전부터 관심있는 분야였다! 눈이 반짝반짝해져서 즐겁게 들을 수 있었던 것 같다.
- 노트 작성 방식을 개선했다. 코드를 길게 작성하기보다는 탄탄한 개념이 중요한 부분이라, 필기도 개념 위주로 바꾸게 되었는데 꽤 만족스러운 것 같다.
- 실습에서 만나는 데이터들도 익숙한 데이터들이 많다! 머신 러닝 파트는 수월하고 즐겁게 보낼 수 있을 것 같다.
- 이번주는 정보처리기사 스터디도 평소보다 원할한 분위기에서 진행됐다. 여러번 해보고 나서야 어느정도 감이 잡힌다니... C언어의 포인터와 배열에 대한 설명을 정리해서 가기로 했다.
Problem
- 내가 아는 내용은 자꾸만 필기하기가 싫어진다...ㅎㅎ 아래에 적힐 필기 내용도 지도 학습/비지도 학습 내용은 제대로 적지도 않았다. 아는 내용이어도 꼼꼼하게 적어야 앞으로 도움이 될텐데...
- 수학이 너무 어렵다... 보충 수업을 해야하나?...
Try
- 선형 대수학 관련 유튜브나 블로그 찾아서 한번씩 읽어보기. 시간이 된다면 정리하는 것도 나쁘지 않을 것 같다.
✍️학습 내용 정리!
상관관계
상관 관계는 두 변수 간의 통계적 관계를 의미함. 한 변수에 따라 다른 변수가 얼마나 어떻게 영향을 받는지를 표현하는 관계로, 방향과 강도로 표현됨.
상관계수가 +- 0.75 이상이면 상관관계가 높은 것으로 간주한다.
공분산
- 서로 공유하는 분산. 두 변수간의 관계를 나타낼 수 있음
- 한 변수의 각각의 데이터가 퍼진 정도를 나타냄
- 측정 단위에 의존적임.
상관계수
- 공분산을 두 변수의 표준편차로 나눈 것이 상관계수이다.
- 측정 단위에 의존적임
회귀와 분류
회귀는 값을 예측하기 위한 것이고, 분류는 범주를 예측하기 위한 것.
- Linear Regression (선형회귀)
- 데이터들을 가장 잘 설명하는 하나의 선분을 만들어내는 것.
- 회귀 알고리즘 중 가장 대표적인 회귀 알고리즘.
- 회귀는
- Logistic Regression (로지스틱 회귀)
- 데이터들을 이진분류하는 하나의 선분을 만들어내는 것
선형회귀
- 데이터들을 가장 잘 설명하는 하나의 선분.
- 가중치(w)와 분산(bias)으로 설명될 수 있다. 일종의 1차방정식을 생각하면 편하다. 유의미한 특성(feature)일수록 가중치를 높게 주어서, 그 특성이 더 잘 반영될 수 있도록 한다.
- 실제 데이터와 예측값의 차이를 통해 오차를 구할 수 있다.(MAE, MSE 등)
로지스틱 회귀
- 회귀를 확률로 바꾸기 위해 사용하는 logit() 함수의 역함수가 시그모이드 함수(=로지스틱 함수)가 된다.
- 시그모이드

- 회귀를 확률로 바꾸기 위해 사용하는 logit() 함수의 역함수가 시그모이드 함수(=로지스틱 함수)가 된다.
- 로지스틱 회귀에서는 시그모이드 함수를 사용하여 이진 분류를 수행한다.
- 시그모이드 함수를 사용하면, 선형식의 값들이 0과 1사이의 값이 된다. 즉, 확률로 해석할 수 있게 된다.
- 이를 통해, 이진 분류를 수행할 수 있다.
결측치와 처리
결측치
특정 항목에 값이 누락되거나 기록되지 않은 경우를 결측치라고 함.
그 종류에 따라서 MCAR, MAR, MNAR로 나뉜다.
- 다양한 결측치 처리법
- 단순 대치법
- 평균 대치법
- 단순 확률 대치법(KNN 사용)
- 다중 대치법
- 보간법(시계열 데이터에서 사용)
- 회귀 대치법
평가지표
- 분류모델이 정답을 잘 분류했는지 파악할 수 있는 평가지표
- TP (True Positive): 실제 Positive인 것을 Positive라고 올바르게 예측한 경우 (정답)
- TN (True Negative): 실제 Negative인 것을 Negative라고 올바르게 예측한 경우 (정답)
- FP (False Positive): 실제 Negative인 것을 Positive라고 잘못 예측한 경우 (오답, Type I Error)
- FN (False Negative): 실제 Positive인 것을 Negative라고 잘못 예측한 경우 (오답, Type II Error)
혼동행렬
- TP, TN, FP, FN을 시각화 하여 보기쉽게 나타낸 것
정확도
- 전체 값에서 정답을 맞춘 비율을 통해 성능을 평가한것.
혼동행렬
- TP, TN, FP, FN을 시각화 하여 보기쉽게 나타낸 것
정확도
- 전체 값에서 정답을 맞춘 비율을 통해 성능을 평가한것.
$$ \frac{TP + TN}{TP + TN + FP + FN} $$
정밀도(Precision)
- 모델이 Positive 라고 예측한 것 중에서 실제 Positive인 것의 비율
- FP를 줄이고자 할 때 사용된다.
재현률, 민감도(Recall)
- 실제 Positive 인 것 중에서 모델이 Positive라고 잘 예측한 것의 비율
- FN을 줄이고자 할 때 사용된다.
F1 score
- F1 점수는 정밀도(Precision)와 재현율(Recall)의 조화 평균(Harmonic Mean)
- 둘 모두 중요한 지표일 때 사용하는 평가 지표임.
특이도
- 실제 Negtive인 것 중에서 모델이 Negative로 잘 예측한 것의 비율
위양성율
- 실제
임계값 변화에 따른 성능 평가
ROC(Receiver Operating Characteristic) Curve는 분류 모델의 임계값(Threshold) 변화에 따른 성능 변화를 시각화하는 그래프임. AUC(Area Under the Curve)는 이 ROC Curve 아래의 면적을 의미하며, 모델의 성능을 확인할 수 있는 지표임.
- 만약 임계값이 0.9인 모델이 있다고 하자. 이 모델은 0.9 이상만을 양성으로 판단할 것이다. 그러나, 실제 양성인 데이터들 중에 모델의 예측값이 0.8, 0.7 인 경우에는 양성으로 판단받지 못하고, FN의 개수가 늘어날 것이다.
- 또 반대로 임계값이 0.2인 모델이 있다고 하면, 거짓 양성값이 너무 많아질 것이다.
- 이처럼 모델이 거짓양성, 거짓음성 판별 하는 것을 최대한 줄일 수 있는 임계값을 찾기 위한 그래프가 바로 ROC 그래프이며, 면적이 넓을수록 모델의 성능이 좋다고 할 수 있다.
'기록.. > SKN Family AI 15기' 카테고리의 다른 글
SKN Family AI 15기 7월 1주차 회고 (1) 2025.07.07 SKN Family AI 15기 6월 4주차 회고 (3) 2025.06.30 SKN Family AI 15기 6월 2주차 단위 프로젝트 회고 (0) 2025.06.15 SKN Family AI 15기 6월 1주차 회고 (1) 2025.06.08 SKN Family AI 15기 5월 5주차 회고 (0) 2025.05.27