티스토리 뷰

파이썬으로 한글 자연어를 처리하기 위해서는 java 기반으로 만들어진 형태소 분석기를 사용합니다.

konlpy는 자바 기반의 형태소 분석기를 파이썬에서 사용할 수 있게 해주는 아주 고마운 라이브러리입니다.


제공하는 형태소 분석기는 총 5개가 있습니다.

1. jhannanum(한나눔) 

2. kkma(꼬꼬마)

3. komoran(코모란)

4. twitter(트위터)

5. mecab(메캅)



*konlpy 설명 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/

*konlpy 분석기 별 성능 비교 : http://konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes



형태소 분석 순서는 다음과 같습니다.


1. 형태소 분석기 호출 

from konlpy.tag import Kkma
kkma = Kkma()


2. 파싱함수 정의

def morph(input_data) : #형태소 분석
    preprocessed = kkma.pos(input_data)
    print(preprocessed)


3. 문장 입력

morph("아메리카노는 맛있다.")


4. 결과 확인



제 생각에는

'아메리카노'    '는'    '맛있'    '다'    '.' 

이렇게 파싱이 되어야 할 것 같은데  


현실은 

'아메리카'    '노'    '는'    '맛있'    '다'    '.' 

로 파싱이 되어버렸군요.



따라서 제 생각대로, 제 의도대로 분석이 되도록 하기 위해서는 분석기의 사전을 수정할 필요가 있습니다.


수정하는 방법은 다음과 같습니다. 


1. konlpy내의 java폴더로 이동 

c드라이브에서 konlpy로 검색 및 폴더로 이동 > java 폴더로 이동




2. kkma-2.0.jar 압축풀기

파일을 클릭하면 형태소 분석기 테스터가 실행됩니다.

따라서 압축풀기는 다음 그림처럼 파일 클릭 > 마우스 오른쪽 버튼 클릭 > 압축 풀기 로 하셔야 합니다.





3. kkma-2.0 > dic 폴더로 이동 및 파일 확인 

압축을 풀고 나면 kkma-2.0이라는 폴더가 생성되어 있을 것입니다.

kkma-2.0 > dic 폴더로 이동하면 kkma에서 형태소 분석에 사용하는 사전들을 확인하실 수 있습니다.


3.1 사전 종류


3.2 명사 사전





4. 파일 내용 확인 및 사전 변경


사전에 아메리카노가 없었네요.

아메리카노가 온전히 '아메리카노' 로 분석되게 하기 위해 사전에 단어를 추가합니다.

 




5. jar 파일 만들기

수정한 내용을 적용하기 위해서는 jar 파일로 만들고 기존의 kkma-2.0.jar과 바꿔줘야 합니다.


jar 파일로 만드는 방법은 다음과 같습니다.

1) 명령 프롬프트 실행

2) konlpy내의 java/kkma-2.0 폴더로 이동(예 : cd C:\Users\user\Anaconda3\Lib\site-packages\konlpy\java\kkma-2.0\

3) 명령어 : jar -cvf 생성하고자하는파일명.jar/ .

               예 : jar -cvf user.jar/ .


kkma-2.0폴더에 user.jar 파일이 생성된 것을 확인하실 수 있습니다.






6. 새로운 kkma-2.0.jar을 적용하기

user.jar 파일을 kkma-2.0.jar로 이름을 변경해주시면 됩니다.

문제가 생길 수 있으니 기존의 kkma-2.0.jar 파일은 백업해두시기를 권장드립니다.



7. 결과 확인하기

7.1 라이브러리 재호출

from konlpy.tag import Kkma
kkma = Kkma()


7.2 문장 입력

morph("아메리카노는 맛있다.")


7.3 결과 확인

의도대로 수정이 된 것을 확인하실 수 있습니다.


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함