티스토리 뷰

기계학습

감독학습 2

path7inder 2014. 9. 25. 03:23

<아래 글은 '만들면서 배우는 기계학습' 을 읽고 쓰는 글입니다.>


그럼 이번엔 실제 앞에 내용들을 활용해 기계 학습하는 과정을 알아봅시다.


'의사결정 트리의 기계 학습 알고리즘'

(1) 주어진 학습 세트가 비어 있으면 학습 종료

(2) 주어진 학습 세트의 요소가 모두 단일 카테고리에 속해 있으면 학습 종료

(3) 학습 세트를 적절히 분류하는 속성을 선택해 학습 세트를 서브 세트로 분류,

각 서브 세트에 대해 학습 과정을 재귀적으로 적용한다.

(4) 적용할 수 있는 속성이 없는데 분류가 끝나지 않았다면 학습을완료하지 않은 채 종료


여러 분류 기준 중 앞에서 활용한 p1 ~ p4를 활용해 설명하자면,

최초 학습 데이터 세트에 대해서 p1 ~ p4 까지 속성을 모두 테스트 해봅니다.

그 후, 이들 중, 학습 세트의 요소가 모두 단일 카테고리에 속해 있을 경우,


( 이때 모두 단일 카테고리에 속한다는 의미를 다르게 설명하자면,

10개의 데이터 세트를 p1을 통해 판단했는데, '스팸' 으로 분류된 데이터들의

감독값 역시 모두 '스팸' 가 된다면 단일 카테고리에 속한다라고 합니다. )


그 후 잘 처리된  데이터 세트는 제외한 데이터 세트에 대해서 위와 같이

모든 요소를 단일 카테고리에 분류하는 속성을 추출하고, 반복합니다.

하지만, 모든 속성이 '확실한 분류' 를 할 수 없게되면, 종료합니다.


다음은, 명제의 조합에 의한 규칙 형식으로 분류 지식을 획득하는 

기계 학습 프로그램을 검토합니다.


주어진 모든 명제 p1 ~ p4 으로 (부정형도 포함) 만들 수 있는 모든 논리 합의 집합 중,

3개 항을 선택해서, 논리곱으로 연결하는 형식을 분류 지식으로 사용합니다.


표로 표현 하면 다음과 같습니다.

 

 0

 1

 2

 3

 4

 5

 6

 7

 0

 

 

 

 

 

 

 1

 

 

 

 

 

 

 

 

 1

 

 

 

 

 

 

 

 


1은 선택, 0은 선택하지 않음 입니다.

 

 0

 1

 2

 3

 4

 5

 6

 7

 0

 1

 0

 1

 0

 0

 0

 0

 0

 1

 0

 0

 0

 0

 1

 0

 0

 0

 2

 0

 0

 0

 0

 0

 0

 0

 1


다음과 같이 선택하게 되면, 논리식은 다음과 같습니다.



여기서는 이런 분류지식을 만드는 것에서 멈추지 않고,

확률적 탐색에 의해 가장 좋은 분류 지식을  획득하는 과정에 대해서도 설명합니다.


각 명제의 선택 유무를 임의의 값으로 설정하여 임의의 분류지식(논리식)을 생성 합니다.

그 결과를 평가하고, 새로운 분류지식을 생성 평가 비교 후 더 우수한 지식을 채택합니다.   

이 과정을 반복하면, 우수한 분류 지식을 얻을 수 있습니다. 

이러한 방법을 '생성과 검사(generate and test)' 라고 부릅니다.


'기계학습' 카테고리의 다른 글

진화적 방법에 의한 규칙 학습 2  (0) 2014.09.26
진화적 방법에 의한 규칙 학습 1  (0) 2014.09.25
감독학습 1  (0) 2014.09.24
귀납학습  (0) 2014.09.24
파라미터 조정의 의한 학습  (0) 2014.09.24
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함