이 시대의 인터넷은 정보의 바다를 넘어서고 있다.
웹이나, 블로그등의 자료는 무수히 많은 데이터로 사용 될 수 있고,
이런 방대한 데이터들이 지속적으로 축적되면서,
그 데이터들을 분석할려는 텍스트 마이닝 기술이 널리 사용되고 있다.
학습에 피룡한 데이터 세트가 한국어나, 영어 등의 자연언어로 구술된 텍스트 데이터이다.
일반적인 텍스트들을 데이터로 하여 정보를 추출하여, 분석하여 실질적으로
그 결과를 이용해 필요한 판단을 내리는 것이다.
이러한 텍스트 데이터를 분석하기 위해서는, 자연어 처리 기술이 필요하다.!!
자연어 처리는 인공지능의 한 분야이고, 이러한 자연어로 기술된 문장을 다루는 기술이다.
문장추출 -> 형태소 분석 -> 구문 분석 -> 의미 분석 -> 담화 이해
의 순서로 진행된다.
문장을 분석하기 위해 최초 문장을 추출해야 합니다. 마침표나, 여러가지 문장의 마침을
구별하는 방법이 많아, 이 방법은 제법 쉽습니다.
이제 형태소 분석부터 문제인데, 언어학의 내용이 많이 필요하지만, 우리는 언어학을
실질적으로 공부하는 사람들이 아니기에 !! 여기서는 필요한 방법들을
학습하고, 사용하게 될 것 입니다. 형태소 분석기는 현재 많이 사용되고 있는,
꼬꼬마 분석기 등이 있습니다.
형태소 분석이란 것인, 어떠한 단어에 해당하는 것으로, 문을 구성하는 문법적 요소로써,
띄워쓰기 등을 이용하여 분할 작업을 실시 하는데, 각 언어마다 분할 작업의
복잡도를 다릅니다.
영어가 가장 쉽겠죠.
예를 들어 I am a boy 란 문장은
I / am / a / boy 로 분할 할 수 있습니다.
일본어 같은 경우에는.... 띄워쓰기로는 하기 힘들 것입니다.
그 후 진행하는 것이 구문 분석 입니다. 문장 분석이란, 형태소 분석으로 얻은 결과에서
이 문장이 어떤 구조로 되어 있는지 호가인하기 위한 것입니다.
이어서 의미분석 을 진행하게 되는데 형태소 분석과 구문 분석으로 얻어진 문자의
의미를 결정하는 단계입니다.
그 후 담화 를 분석하는데 담화가 바로 문장의 전체의미라고 생각하면 됩니다.
이게 텍스트 마이닝의 분석 순서라고 하지만, 이러한 방법이 모두 의미있게
사용될 수 있는 것은 아닙니다.
일반적인 자연어의 처리는 단순한 일이 아니기 때문입니다.
나름 위의 구조가 도움이 된다고 하더라도, 실질적으로 위의 순서로 처리한다고,
모든 언어를 처리하는 것은 거의 불가능 하죠.!!
더욱 열심히 공부해야 할 것 같습니다.!!
'AI > Machine Learning' 카테고리의 다른 글
지도 학습 - 1 (0) | 2014.05.21 |
---|---|
n-gram 출현빈도에 기초한 텍스트 데이터 학습 - 2 (0) | 2014.05.19 |
n-gram 출현빈도에 기초한 텍스트 데이터 학습 - 1 (0) | 2014.05.18 |
최소자승법을 이용한 학습 프로그램 - 2 (1) | 2014.05.15 |
최소자승법을 이용한 학습프로그램 - 1 (0) | 2014.05.12 |