티스토리 뷰

기계학습

귀납학습

path7inder 2014. 9. 24. 20:52

<아래 글은 '만들면서 배우는 기계학습' 을 읽고 쓰는 글입니다.>


이번 장의 주제는 구체적인 사례들을 통해 '법칙'이나 '원리'를 끌어내는 '귀납학습' 입니다. 

 여기서는 그 구체적인 사례를 텍스트를  받아 그 특징에 관한 지식을 '암기 학습' 을 통해

추출하는 '텍스트 마이닝' 방법에 대한 간략한 설명을 하고 있습니다.


보통 웹상의 데이터를 분석 할 때는 앙케트 조사 같은 방법을 사용합니다. 

하지만, 이 방법은 시간과 비용의 제약이 상당한 측면이 있습니다. 

이와 비교하여, '텍스트 마이닝'을 통해 웹사이트나 블로그에서 텍스트 데이터를 수집해

수집한 데이터를  분석하여 결과를 도출하는 편이 더욱 용이합니다.


웹상에 올라오는 사람들이 적은 글은 '자연어' 라고 합니다. 

이런 '자연어' 를 컴퓨터가 분석해서 그 의미를 파악하는 과정을 '자연어 처리' 라고 합니다.

여기서 그 방법에 대한 개략적인 과정에 대해 설명하고 있습니다.


문장을 해석하려면 우선 문장을 구성하는 '문(Sentence)' 을 추출합니다.

다음으로 문을 더 작은 구성 요소인 '형태소(morpheme)' 로 분할합니다.

'문' 에서 '형태소' 를 추출 하는 과정을 '형태소 분석(morphological analysis)' 라고 합니다.

결과를 바탕으로 문이 어떤 구조로 되어 있는지 '구문 분석(syntax analysis)' 을 합니다.

이를 위해서는 분석하려는 자연어 자체의 문법 지식이 필요합니다.


자연 언어 문법을 표현하는 방법은 많지만 대표적으로 '생성문법(generative grammar)'

이 있습니다. '생성문법'에서는 문 구조를 기호의 다시 쓰기 규칙으로 고쳐 씁니다.


<문> → <명사구><동사구>


이때 <문>이나 <명사구> 등의 기호 '비종단기호(non-terminal symbol)' 라고 하고,

'비종단기호' 로 치환되어 실제 출현하는 어구를 '종단기호(terminal symbol)' 합니다.


마지막 단계로 '의미 분석(semantic analysis)' 입니다.

앞의 '형태소 분석' 과 '구문 분석' 을 통한 결과를 통해 문의 의미를 결정합니다.

문장 전체 의를 '담화(discourse)' 라고 부릅니다. 

'담화 이해' 는 '자연어 처리' 의 자연 언어 이해의 목표입니다.


여기서는 'n-gram'에 의한 특징 추출법을 설명하고 있습니다.

(갑자기 앞에 설명에 비해 너무 간단한 예라 당황스러웠습니다...)

'n-gram' 은 n개의 기호가 나열해서 이루어지는 데이터 구조입니다. 

텍스트를 스캔하면서 n개 단위의 텍스트를 추출하여, 공통된 단어의 획수를 카운트

하는 출현빈도를 학습하는 간단한 '암기 학습법' 입니다.


마지막으로 이 장에서 n-gram 데이터를 통해 문서 고유의 특징을 추출하는

tf - idf 방법을 제시하고 있습니다.

tf 은 'term frequency' 로 문자열이 문서 중 출현하는 횟수를 기초한 값입니다.

idf 는 'inverse doucument frequency' 로 어떤 문자열의 전투 문서 중 출현한 수 입니다.


다음은 tf - idf 방법에서 어떤 문자열  의 평가치 의 계산 과정입니다.

 (문서에 출현하는  의 출현 횟수), (문서에 출현하는 문자열 총수)

 (문서 총 수),  (문자열 가 출현하는 문서 수)


이렇게 계산을 진행해서 어떤 문서를 특징 짓는 문자열 평가치를 결정 할 수 있습니다.


'기계학습' 카테고리의 다른 글

감독학습 2  (0) 2014.09.25
감독학습 1  (0) 2014.09.24
파라미터 조정의 의한 학습  (0) 2014.09.24
기계학습의 역사2  (0) 2014.09.23
기계학습의 역사 1  (0) 2014.09.19
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함