MY MEMO

[MACHINE LEARNING - Sung Kim] Application & Tips 본문

MACHINE LEARNING/Sung Kim - 이론

[MACHINE LEARNING - Sung Kim] Application & Tips

l_j_yeon 2017. 4. 5. 17:37

Lecture 7-2

Application & Tips : Learning and test data sets


1. 얼마나 machine learning model이 잘 돌아가고 있는지 확인해보자


위와 같이 training set이 있으면 30%~70%의 데이터를 이용하여 training을 진행하고

나머지 부분을 test set으로 만들어 정답을 비교한다.

별표친 부분은 답이기 때문에 machine learning에 넣어서 학습시키면 안된다.


validation의 값을 왜 둘까?

=> 우리는 gradient descent algorithm에서 알파 값을 계속 수정하여 확인할 필요가 있었다.

=> 혹은 data normalization에서 상수 값을 변경하면서 overfitting을 줄일 필요가 있었다.


위의 두 값을 변경하면서 맞는 값인지 확인하기 위해 training set을 나눠 validation을 만들고 validation을 이용하여 값을 확인한다.

(모의시험과 비슷한 맥락이다.)


2. data set이 많을 때 한번에 데이터를 넣어서 machine learning을 돌리기 힘들다.

  => 이를 해결하기 위해 online learning이라는 학습방법이 있다.




ex) 100만개의 데이터를 10만개씩 쪼개 model에 넣고 나온 결과 값을 바탕으로 다시 10만개를 돌려 모두 100만개를 돌리는 방법이다.


이의 대표적인 예는 아래와 같다.



위는 손으로쓴 숫자를 컴퓨터가 인식하기 위해 필요한 data set이다.

위처럼 machine learning을 위한 training set과 test set이 따로 있다.

training set이 크기 때문에 2개로 나눠져있고 test set또한 두개로 나누어져있다.


Comments