기계학습,machine_learning



1. 학습의 목표

출력변수 $\displaystyle Y$ 와 입력변수 $\displaystyle X=(X_1,X_2,\cdots,X_p)$ 에 대해, 둘 사이의 관계를 표현하면
$\displaystyle Y=f(X)+\epsilon$
함수 $\displaystyle f$ 를 주어진 관측데이터observed_data?로부터 추정,estimation하는 것이 학습,learning의 목표.
(ㄷㅎㅈ 1-2)

즉 함수를 만드는 것.
구체적인 과정은 가중값,weight업데이트,update에 가깝다? using 계산그래프,computational_graph 역전파,backpropagation etc...

2. 기계학습의 분류

지도학습,supervised_learning
비지도학습,unsupervised_learning
semi-supervised learning (self-supervised)
발음 세마이-
강화학습,reinforcement_learning
  • 주어진 환경에서 최대의 보상(보상,reward, 보상,compensation보다는.)을 달성하기 위한 정책,policy의 학습
  • 임의 추출된 데이터가 아닌 전략적으로 선택된 데이터를 이용해 학습 // 전략,strategy 선택,selection?
    이건 $\displaystyle X\overset{f}{\to}Y$ 에서 $\displaystyle f$ 보다는 $\displaystyle X$ 를 찾는게 목적이다. (ㅅㅈㅎ)

암튼 이렇게 '크게 세가지'로 나눌 수 있다는 것.

(ㄷㅎㅈ 1-2 32m)

3. 기계학습의 절차

1. 문제 설정
종속변수,dependent_variable Y가 무엇인가?

2. 데이터 수집 // data_collection ??
(기존 분석 방식) (초기 데이터가 없다. 그래서) 실험,experiment을 설계하고 수행하여 데이터 수집.
(빅데이터분석) 이미 존재하는 DB에서 관련된 모든 데이터를 수집.

3.
탐색적 데이터 분석 (EDA, exploratory data analysis) // exploratory_data_analysis WtEn:exploratory_data_analysis ? WpSp:exploratory_data_analysis ? WpEn:exploratory_data_analysis ?
// Ndict:탐색적 데이터 분석 Ggl:탐색적 데이터 분석 Bing:탐색적 데이터 분석
본격적 데이터 분석 (예측 모델) // 예측모델 prediction_model ? WtEn:prediction_model ? WpSp:prediction_model ? WpEn:prediction_model ?
(이후) 완전히 새로운 데이터셋data_set / dataset으로 다시 평가 (필드테스트field_test)

(ㄷㅎㅈ 1-2 35m-40m)

3.1. CRISP-DM

이것들을 business적 측면에서 구체화시킨것을 Ggl:CRISP-DM이라 한다.
CRISP-DM (Cross-industry standard process for data mining) : 데이터 마이닝data_mining을 위한 일반적인 절차,procedure과정,process?에 대한 표준,standard

(다이어그램에선 다음 항목들의 state_transition_diagram으로 나타나 있음)
  • business understanding
  • data understanding
  • data preparation - 여기서 EDA 수행하기도 함
  • modeling
  • evaluation
  • deployment

4. ROC

ROC곡선,ROC_curve -> VG:ROC곡선,ROC_curve
ROC(Receiver Operating Characteristic) curve

ROC, TPR, FPR ... via https://angeloyeo.github.io/2020/08/05/ROC.html
and https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=ko
{
비율,rate
TPR : true positive rate - 참양성률, 재현율
FPR : false positive rate - 거짓양성률

AUC : area under the curve
ROC 곡선 아래 영역


ex. 암 판정하는 의사
threshold를 어떻게 잡는지에 따라,
아무나 암으로 판정: 암이 아닌데도 암으로 판정하는 경우가 늘어남
암 판정에 지나치게 신중: 암인데도 암이 아니라고 판정하는 경우가 늘어남

ROC_curve 가 왼쪽 위에 붙어 있을수록 좋은 이진분류기.

}

5. AUC

AUC area under the curve
곡선 아래 면적




6. perceptron


다층퍼셉트론,multi-layer_perceptron,MLP
{
$\displaystyle \mathbf{o}=\tau\left( \mathbf{W}^L \sigma \left( \cdots \mathbf{W}^3 \sigma \left( \mathbf{W}^2 \sigma(\mathbf{W}^1 \mathbf{x} ) \right) \right) \right)$

$\displaystyle \sigma$ 는 sigmoid 같고
$\displaystyle \tau$ 는?? threshold???
}

}

7. ground truth

ground_truth =,ground_truth =,ground_truth . ground_truth
{
WtEn:ground_truth

이하새로작성

'ground truth'...? 보이는 번역들:
실측 자료 - 이 단어는 기상학의 실측자료 에서 유래한 듯..?
... Naver:ground truth Google:ground truth

실제로 참,truth인 것은 아니고,
  • ideal expected result
  • desired output

label과 다른 점:
label은 명확하며 값이 정해져 있는 정답인데
ground truth는 모델이 원하는 답으로



8. medoid

medoid =,medoid =,medoid . medoid
KmsE:medoid x 2023-08-26
보이는 번역들:
중간점

클러스터분석 cluster_analysis 에서 언급됨
k-medoid clustering etc.
https://en.wikipedia.org/wiki/Medoid


9. 전이학습? transfer learning


re-use weights
가중값,weight을 재사용?

10. 앙상블학습 ensemble learning

11. 학습율 학습률 learning rate

12. tmp video ko

12.1. Docceptor 머신러닝




Up: 기계,machine 학습,learning { 다른 번역들: 배움 배우기 러닝 ....Ndict:learning NdEn:learning }