블로그 이미지
BJcomm
bjcomm

공지사항

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

calendar

1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
11-23 15:47

한글 형태소 분석기가 필요하여 찾던중 유용한 한국어 형태소 분석기를 찾게되어 공유하고자 글을 올린다.

우리나라 형태소분석기는 외국에 비해 이렇다 할 오픈소스가 존재하지 않는다. 

그나마 루씬 한글 형태소 분석기가 유일무이 한 상태였는데 최근에 은전한닢 프로젝트를 알게 되어 상당히 반가웠다. 

은전한닢 프로젝트는 MeCab 엔진 기반으로 원래는 일본어 형태소 분석 엔진인데 일본어와 한국어의 유사점 덕택에 한글 분석도 동작하는 것을 확인후 진행하였다고 한다. 


그래서 한번 설치후 테스트 해보기로 하였다. 테스트 환경 (CentOS 6.4)


아래 url 이동후 mecab-ko 엔진과

https://bitbucket.org/bibreen/mecab-ko/downloads


mecab-ko-dic 한국어 사전을 다운받는다.

https://bitbucket.org/bibreen/mecab-ko-dic/downloads


설치시 만약 CentOS버전이 5.9 이하라면 아래 URL을 참고하시면 됩니다.

http://eunjeon.blogspot.kr/2013/02/cent-os-59-mecab-mecab-ko-dic.html


설치후 
vi /usr/local/etc/mecabrc 
들어가서 
/usr/local/lob/mecab/dic/ipadic/을 ;으로 주석처리하고  
아래에 라인에 /usr/local/lob/mecab/dic/mecab-ko-dic/를 추가한다. 






이렇게 하면 설치가 완료!

잘 설치가 됬는지 확인해보기~



나는 서버사이드 언어로 PHP를 사용하기 때문에 MeCab를 PHP에서 호출이 가능하게 포팅해줘야 했다.

아래 url을 참고하면 MeCab를 PHP에서도 사용할수 있다.

http://dumpcookie.tistory.com/entry/php-mecab-%EB%B0%94%EC%9D%B8%EB%94%A9-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0


MeCab PHP바인딩 시에 마무리작업으로 아래작업을 꼭해줘야 한다.

vi /etc/ld.so.conf

들어가서

/usr/lib64/php/modules/ 을 추가한다.

그리고 쉘에 ldconfig 입력한다.


* 참조 

1. 품사태그 정의된 문서: https://docs.google.com/a/xiilab.com/spreadsheet/ccc?key=0ApcJghR6UMXxdEdURGY2YzIwb3dSZ290RFpSaUkzZ0E#gid=0


2. 은전한닢 프로젝트 소개: http://www.iamday.net/apps/article/talk/2121/view.iamday


3. 내용 출처 : http://jokergt.tistory.com/144