#noindex
##===기계학습,machine_learning =,machine_learning 기계학습 machine_learning
[[지도학습,supervised_learning]] -> [[VG:지도학습,supervised_learning]]
[[비지도학습,unsupervised_learning]]
[[강화학습,reinforcement_learning]] -> [[VG:강화학습,reinforcement_learning]]
 MathNote:강화_학습

[[분류,classification]] -> [[VG:분류,classification]]
[[분류기,classifier]]
[[이진분류,binary_classification]]
[[이진분류기,binary_classifier]]

<<tableofcontents>>

= 학습의 목표 =
출력변수 $Y$ 와 입력변수 $X=(X_1,X_2,\cdots,X_p)$ 에 대해, 둘 사이의 관계를 표현하면
 $Y=f(X)+\epsilon$
함수 $f$ 를 주어진 관측데이터^^observed_data?^^로부터 [[추정,estimation]]하는 것이 '''[[학습,learning]]의 목표.'''
(ㄷㅎㅈ 1-2)

즉 함수를 만드는 것. 
구체적인 과정은 [[가중값,weight]]의 [[업데이트,update]]에 가깝다? using [[계산그래프,computational_graph]] [[역전파,backpropagation]] etc...
= 기계학습의 분류 =
[[지도학습,supervised_learning]]
 * data에 Y가 주어져 있어, Y를 잘 [[예측,prediction]]/[[설명,explanation]]하는 $f$ 를 찾는 [[문제,problem]]
 * 본 강좌 및 실무에서 주로 다룰 문제
[[비지도학습,unsupervised_learning]]
 * Y가 명시되지 않았으나 관심이 없고 X의 [[패턴,pattern]] 자체에 관심이 있음
 * [[군집분석,cluster_analysis]](clustering_analysis ?) {
  WtEn:cluster_analysis o
  WtEn:clustering_analysis x [[Date(2023-10-05T06:47:23)]]
  Ggl:"cluster analysis clustering analysis"
  Sub: 분류 기반 군집분석 - 이건 [[비지도학습,unsupervised_learning]]보다는 [[semi-supervised_learning]]으로 분류됨

  Ndict:군집분석
  }, // 군집분석
  [[차원축소,dimensionality_reduction]](dimension_reduction ?) {
  WtEn:dimensionality_reduction WtEn:dimension_reduction
  Ggl:"dimensionality reduction dimension reduction"

  Ndict:차원축소
  } // 차원축소 
  등등
semi-supervised learning (self-supervised)
 발음 세마이-
 * 지도학습과 비지도학습 양쪽 성격을 모두 갖고 있음
 * [[unlabeled_data]]의 활용, 분류 기반 군집분석 등
 [[semi-supervised_learning]]
 Ggl:semi-supervised+learning
 Ggl:self-supervised+learning
 지도학습과 비지도학습의 중간 정도. 하지만 중요한 분류 세개(지도와 비지도와 강화)만큼 중요한 분류는 아님 (ㅅㅈㅎ)
[[강화학습,reinforcement_learning]]
 * 주어진 환경에서 최대의 보상([[보상,reward]], [[보상,compensation]]보다는.)을 달성하기 위한 [[정책,policy]]의 학습
 * 임의 추출된 데이터가 아닌 전략적으로 선택된 데이터를 이용해 학습 // [[전략,strategy]] [[선택,selection]]?
 이건 $X\overset{f}{\to}Y$ 에서 $f$ 보다는 $X$ 를 찾는게 목적이다. (ㅅㅈㅎ)

암튼 이렇게 '크게 세가지'로 나눌 수 있다는 것.

(ㄷㅎㅈ 1-2 32m)

= 기계학습의 절차 =
1. 문제 설정
[[종속변수,dependent_variable]] Y가 무엇인가?

2. 데이터 수집 // data_collection ??
 (기존 분석 방식) ''(초기 데이터가 없다. 그래서)'' [[실험,experiment]]을 설계하고 수행하여 데이터 수집.
 (빅데이터분석) 이미 존재하는 DB에서 관련된 모든 데이터를 수집.

3.
탐색적 데이터 분석 (EDA, exploratory data analysis) // exploratory_data_analysis WtEn:exploratory_data_analysis ? WpSp:exploratory_data_analysis ? WpEn:exploratory_data_analysis ?
// Ndict:"탐색적 데이터 분석" Ggl:"탐색적 데이터 분석" Bing:"탐색적 데이터 분석"
 * 데이터에 대해 배우는 과정
 * [[시각화,visualization]], [[결측치]] {  Ggl:결측치 }, 이상치 탐색 { Ggl:"이상치 탐색" Naver:"이상치 탐색" } 등을 포함
 * ''데이터 전처리preprocessing 과정도 여기 포함.''

본격적 데이터 분석 (예측 모델) // [[예측모델]] prediction_model ? WtEn:prediction_model ? WpSp:prediction_model ? WpEn:prediction_model ?
 * 클린 데이터(clean_data  ?? WtEn:clean_data Ggl:"클린 데이터" Naver:"클린 데이터"  "클린 데이터" )로부터 시작 (n=100M, p=10k)
 * 트레이닝 셋^^training_set ... ''훈련할 것''^^과 테스트 셋^^test_set ''평가할 것''^^을 분리 (보통 시간순서^^chronological_order ? chronological order Ndict:"chronological order" Ggl:"chronological order" chronological order [[시간,time]] [[순서,order]]^^에 따라)
 * 불필요한 종속변수 제거 (feature selection) // [[특징선택,feature_selection]] WtEn:feature_selection ? WpSp:feature_selection ? WpEn:feature_selection ? ... [[특징,feature]] [[특성,feature]] [[선택,selection]]이것이 불필요한 [[종속변수,dependent_variable]]을 제거하는 과정과 정확히? TBW
  // Ggl:"불필요한 종속변수를 제거 feature selection"
 * 학습 모델 후보 선정 (EDA에 따라 4~5개 정도 후보 선정)
 * (교차)검증 기법을 이용하여 모델 선정
  // 교차에 괄호쳐놓은거보니... 교차검증 말고 다른 방법은 뭐뭐? [[검증,validation]] Ggl:"머신러닝 검증 방법"
  // i.e. [[model_selection]] using [[교차검증,cross_validation]] ? =교차검증,cross_validation =,cross_validation . cross_validation WtEn:cross_validation ? WpSp:cross_validation ? WpEn:cross_validation ? Ggl:교차검증 
 * 테스트셋^^[[test_set]]^^을 이용하여 최종 성능 평가

(이후) 완전히 새로운 데이터셋^^data_set / dataset^^으로 다시 평가 (필드테스트^^field_test^^)

(ㄷㅎㅈ 1-2 35m-40m)

== CRISP-DM ==
이것들을 business적 측면에서 구체화시킨것을 Ggl:CRISP-DM 이라 한다.
CRISP-DM (Cross-industry standard process for data mining) : 데이터 마이닝^^data_mining^^을 위한 일반적인 [[절차,procedure]]^^[[과정,process]]?^^에 대한 [[표준,standard]]

''(다이어그램에선 다음 항목들의 state_transition_diagram으로 나타나 있음)''
 * business understanding
 * data understanding
 * data preparation - ''여기서 EDA 수행하기도 함''
 * modeling
 * evaluation
 * deployment

= ROC =
[[ROC곡선,ROC_curve]] -> [[VG:ROC곡선,ROC_curve]]
ROC(Receiver Operating Characteristic) curve

ROC, TPR, FPR ... via https://angeloyeo.github.io/2020/08/05/ROC.html
and https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=ko
{
[[비율,rate]]
TPR : true positive rate - 참양성률, 재현율
FPR : false positive rate - 거짓양성률 

AUC : area under the curve
ROC 곡선 아래 영역


ex. 암 판정하는 의사
threshold를 어떻게 잡는지에 따라, 
아무나 암으로 판정: 암이 아닌데도 암으로 판정하는 경우가 늘어남
암 판정에 지나치게 신중: 암인데도 암이 아니라고 판정하는 경우가 늘어남 

ROC_curve 가 왼쪽 위에 붙어 있을수록 좋은 이진분류기.

}
= AUC =
AUC area under the curve
곡선 아래 면적

rel. [[ROC곡선,ROC_curve]]

https://wikidocs.net/151503


= perceptron =
[[퍼셉트론,perceptron]]
{
[[VG:퍼셉트론,perceptron]]

[[다층퍼셉트론,multi-layer_perceptron,MLP]]
{
$\mathbf{o}=\tau\left( \mathbf{W}^L \sigma \left( \cdots \mathbf{W}^3 \sigma \left( \mathbf{W}^2 \sigma(\mathbf{W}^1 \mathbf{x} ) \right) \right) \right)$

$\sigma$ 는 sigmoid 같고
$\tau$ 는?? threshold???
}

}

= ground truth =
[[ground_truth]] =,ground_truth =,ground_truth . ground_truth
{
WtEn:ground_truth

이하새로작성
----
'ground truth'...? 보이는 번역들:
실측 자료 - 이 단어는 기상학의 실측자료 에서 유래한 듯..?
... Naver:ground+truth Google:ground+truth

실제로 [[참,truth]]인 것은 아니고,
 * ideal expected result
 * desired output

[[label]]과 다른 점:
label은 명확하며 값이 정해져 있는 정답인데
ground truth는 모델이 원하는 답으로 

MKLINK
[[학습,learning]]
[[기계학습,machine_learning]]
[[

Sources:
https://wikidocs.net/169014
}

= medoid =
[[medoid]] =,medoid =,medoid . medoid
~~KmsE:medoid x [[Date(2023-08-25T19:29:50)]]~~
보이는 번역들:
중간점

클러스터분석 cluster_analysis 에서 언급됨
 k-medoid clustering etc.
  https://en.wikipedia.org/wiki/K-medoids

https://en.wikipedia.org/wiki/Medoid

Bing:medoid = https://www.bing.com/search?q=medoid
Ggl:medoid

= 전이학습? transfer learning =
[[transfer_learning]]

re-use weights
[[가중값,weight]]을 재사용?

= 앙상블학습 ensemble learning =
Ggl:앙상블학습

Ndict:앙상블학습

앙상블 모델 model[* AI 용어사전, https://terms.naver.com/entry.naver?docId=6651381&cid=69974&categoryId=69974]
앙상블 방법 method (we)
등도 많이 보이는 표현인데.... 차이점?

https://ko.wikipedia.org/wiki/앙상블_학습법
 ''"앙상블 학습법(영어: ensemble learning method)"''

https://en.wikipedia.org/wiki/Ensemble_learning

rel?
[[WpEn:Ensemble_averaging_(machine_learning)]]
= https://en.wikipedia.org/wiki/Ensemble_averaging_(machine_learning)
= https://en.wikipedia.org/wiki/Ensemble_averaging_%28machine_learning%29

= 학습율 학습률 learning rate =
[[학습율,learning_rate]]
[[학습률,learning_rate]]

일단 [[VG:학습율,learning_rate]] 있는데 Ggl:"학습율 학습률" Naver:"학습율 학습률" "학습율 학습률" ... rename?

WtEn:learning_rate ?
WpSp:Learning_rate ?
WpEn:Learning_rate ?

"learning rate"
Ggl:"learning rate"
Ndict:"learning rate"

= tmp video ko =
== Docceptor 머신러닝 ==
Docceptor 머신러닝 - YouTube
https://www.youtube.com/playlist?list=PLrJcoRcsaj2ub5cWet5ojEwckfEKNvgkG

----
Twin:
Namu:기계학습

Up: [[기계,machine]] [[학습,learning]] { 다른 번역들: 배움 배우기 러닝 ....Ndict:learning NdEn:learning }