반응형
이번에는 n-gram 출현빈도에 기초한 텍스트 데이터 학습에 대해 알아 본다.
어떠한 글에서 여러 단어들의 빈도수는 그 단어의 글의 특징을 알 수 있는
좋은 정보이다.
하지만, 문장에서 어떠한 글을 뽑아내는 기준은,
그 전에 설명했던 방법 중 띄워쓰기나 여러가지 방법이 있다.
하지만 여기서는 가장 기초적으로 n개의 글을 하나씩 묶어서 빈도수를 확인해보는
가장 기초적인 방법에 대해서 알아보자.
먼저 데이터를 구하는게 어려울 꺼다.
www.gutenberg.org 라는 곳에 접속해서, 아무 ebook 이나 다운받자.
- #include<stdio.h>
- #define MAX_N 10
- void setlastch(int n, char data, char lastdata[]);
- int main()
- {
- FILE *pfile;
- char lastdata[MAX_N] = {' '};
- char data;
- int n;
- //저장된 Text 파일 오픈
- {
- }
- //n-gram에서 n 입력
- scanf("%d", &n); //n_gram
- {
- if(data != '\n')
- {
- setlastch(n, data, lastdata);
- }
- }
- }
- //데이터를 하나씩 밀어 저장하는 방식!!
- void setlastch(int n, char data, char lastdata[])
- {
- int i;
- for(i = 0; i<n-1; ++i)
- lastdata[i] = lastdata[i+1];
- lastdata[n-1] = data;
- }
위의 코드를 이용해서 읽어 온 데이터를 n의 크기 만큼 얻어온다.!!
이렇게 얻어온 데이터는
g.net
.netT
netTh
etThi
tThis
This
his W
is We
s Web
Web
Web s
eb si
b sit
site
site
ite i
te in
e inc
incl
inclu
nclud
clude
ludes
udes
이러한 데이터가 된다.
이 데이터들의 빈도수를 구하기 위한 방법은 다음 포스팅에서 !!!
반응형
'AI > Machine Learning' 카테고리의 다른 글
지도 학습 - 1 (0) | 2014.05.21 |
---|---|
n-gram 출현빈도에 기초한 텍스트 데이터 학습 - 2 (0) | 2014.05.19 |
텍스트 마이닝 - 1 (0) | 2014.05.18 |
최소자승법을 이용한 학습 프로그램 - 2 (1) | 2014.05.15 |
최소자승법을 이용한 학습프로그램 - 1 (0) | 2014.05.12 |