티스토리 뷰
<아래 글은 '만들면서 배우는 기계학습' 을 읽고 쓰는 글입니다.>
이번 장의 주제는 '감독학습' 입니다.
'감독 학습' 은 감독 혹은 지도받은 지식에 기초해 학습하는 방법입니다.
'감독 학습' 에서는 어떤 데이터가 올바른지 아닌지 가르쳐주는 '교사'가 있습니다.
그런 의미에서 '감독 학습' 은 '교사 학습' 이라고도 불립니다.
이와 반대로 개개의 학습 사례와 학습 방법에 대해 지시를 받지 않은 학습을
보통 '비교사 학습' 이라고 합니다.
일반적으로 교사학습 비교사학습보다 효율적이고 정밀하게 학습할 수 있습니다.
하지만 교사학습은 비교사학습보다 일반화하는 능력이나 데이터에 없는 상황에
대해서 대처하는 능력이 뒤쳐질 가능성이 있습니다.
여기서 감독 학습의 알기 쉬운 적용 분야로 '분류 지식 학습' 을 설명합니다.
이는 주어진 데이터가 어느 카테고리에 해당하는지 분류하는 지식을 학습하는 것입니다.
전자 메일의 스팸 메일인지 아닌지를 판단하는 프로그램으로 예를 들어봅시다.
이때 전자 메일의 출현하는 여러 n-gram 단어를 속성값으로 구분한다고 해봅시다.
그럼 '감독자' 혹은 '교사' 가 되는 인간이 스팸 메일인지 우선 판단하고
학습 데이터 세트 (속성값, 감독값) 을 입력합니다.
입력받은 프로램은 속성값 과 감독값에 맞게 분류 시스템을 구축합니다.
이 과정에서 주목해야 할 점은, 앞의 귀납 학습의 '아치' 의 예에서 언급한
조건을 만족하는 '정례' 와 함께 만족하지 않는 '반례' 역시 제시해야 합니다.
그렇다면, 입력 받은 데이터 세트를 통해 변화되는 분류 시스템의 형태를 알아봅시다.
여기서는 논리식을 이용하는 방법을 설명하고 있습니다.
즉, 메일의 속성을 '참' 과 '거짓' 을 나타내는 명제라고 생각하고, 명제를 이용해
스팸 메일을 판별하는 논리식을 구성하는 방법입니다.
예를 들어 메일의 속성을 다음과 같이 생각해봅시다.
명제 p1 제목에 "파격세일" 단어를 포함하는가?
명제 p2 제목에 "무료" 단어를 포함하는가?
명제 p3 본문이 10자 이상인가?
명제 p4 발신자 주소의 최상위 도메인이 kr 인가?
이때 다음과 같은 논리식은 메일 분류의 한 방법이 될 수 있습니다.
[ 제목에 "파격세일" 또는 "무료" 단어를 포함하고 본문이 10자 이하이며
발신자 주소의 최상위 도메인이 'kr' 이 아닌 메일은 스팸 메일이다. ]
같은 표현을 할 수 있는 방법에 '의사결정 트리' 라는 표현법이 있습니다.
'의사결정 트리' 는 '접접(노드)' 에 조건 판단을 위한 질문을 둡니다.
질무에 대한 답에 따라 접점에서부터 복수 가지로 뻗어갑니다.
결국 더이상 뻗어가지 않는 곳까지 따라가면, 결론에 도달하는 형태입니다.
또 다른 지식 표현으로 '생산 시스템' 에 의한 방법이 있습니다.
'생산 시스템' 은 '만약 A 라면 B이다' 라는 규칙표현 집합을 이용하는 방법입니다.
다음과 같은 방식으로 표현됩니다.
규칙 1 : if p1 == yes 또는 p2 == yes then 규칙 2 적용
규칙 2 : if p3 == yes then 규칙 3 적용
규칙 3 : if p4 == no then 스팸 메일로 판단.
'생산 시스템' 을 사용할 때는 여러 규칙을 동시에 적용할 수 있을 때 규칙의 적용 순서를
잘 제어해야 합니다. 이것을 규칙의 '경쟁해소 전략' 이라고 부릅니다.
'기계학습' 카테고리의 다른 글
진화적 방법에 의한 규칙 학습 1 (0) | 2014.09.25 |
---|---|
감독학습 2 (0) | 2014.09.25 |
귀납학습 (0) | 2014.09.24 |
파라미터 조정의 의한 학습 (0) | 2014.09.24 |
기계학습의 역사2 (0) | 2014.09.23 |
- Total
- Today
- Yesterday
- Android
- Polymorphism
- Multimedia
- Class
- Video
- 마크다운
- 올림픽
- 우분투
- ContentResolver
- Object Oriented Programming
- player
- media
- readme.md
- 객체지향
- 캡슐화
- ubuntu
- Encapsulation
- 크롤링
- 다형성
- 평창
- OOP
- 입장권
- 동계
- Linux
- markdown
- 리눅스
- 추상화
- abstraction
- 클래스
- 파이선
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |