파이썬_konlpy_kkma(꼬꼬마) 형태소 분석기 사전 튜닝

티스토리 뷰

파이썬

파이썬_konlpy_kkma(꼬꼬마) 형태소 분석기 사전 튜닝

크롬볼쯔 2018. 11. 18. 13:35

파이썬으로 한글 자연어를 처리하기 위해서는 java 기반으로 만들어진 형태소 분석기를 사용합니다.

konlpy는 자바 기반의 형태소 분석기를 파이썬에서 사용할 수 있게 해주는 아주 고마운 라이브러리입니다.

제공하는 형태소 분석기는 총 5개가 있습니다.

1. jhannanum(한나눔)

2. kkma(꼬꼬마)

3. komoran(코모란)

4. twitter(트위터)

5. mecab(메캅)

*konlpy 설명 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/

*konlpy 분석기 별 성능 비교 : http://konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes

형태소 분석 순서는 다음과 같습니다.

1. 형태소 분석기 호출

from konlpy.tag import Kkma
kkma = Kkma()

2. 파싱함수 정의

def morph(input_data) : #형태소 분석
    preprocessed = kkma.pos(input_data)
    print(preprocessed)

3. 문장 입력

morph("아메리카노는 맛있다.")

4. 결과 확인

제 생각에는

'아메리카노' '는' '맛있' '다' '.'

이렇게 파싱이 되어야 할 것 같은데

현실은

'아메리카' '노' '는' '맛있' '다' '.'

로 파싱이 되어버렸군요.

따라서 제 생각대로, 제 의도대로 분석이 되도록 하기 위해서는 분석기의 사전을 수정할 필요가 있습니다.

수정하는 방법은 다음과 같습니다.

1. konlpy내의 java폴더로 이동

c드라이브에서 konlpy로 검색 및 폴더로 이동 > java 폴더로 이동

2. kkma-2.0.jar 압축풀기

파일을 클릭하면 형태소 분석기 테스터가 실행됩니다.

따라서 압축풀기는 다음 그림처럼 파일 클릭 > 마우스 오른쪽 버튼 클릭 > 압축 풀기 로 하셔야 합니다.

3. kkma-2.0 > dic 폴더로 이동 및 파일 확인

압축을 풀고 나면 kkma-2.0이라는 폴더가 생성되어 있을 것입니다.

kkma-2.0 > dic 폴더로 이동하면 kkma에서 형태소 분석에 사용하는 사전들을 확인하실 수 있습니다.

3.1 사전 종류

3.2 명사 사전

4. 파일 내용 확인 및 사전 변경

사전에 아메리카노가 없었네요.

아메리카노가 온전히 '아메리카노' 로 분석되게 하기 위해 사전에 단어를 추가합니다.

5. jar 파일 만들기

수정한 내용을 적용하기 위해서는 jar 파일로 만들고 기존의 kkma-2.0.jar과 바꿔줘야 합니다.

jar 파일로 만드는 방법은 다음과 같습니다.

1) 명령 프롬프트 실행

2) konlpy내의 java/kkma-2.0 폴더로 이동(예 : cd C:\Users\user\Anaconda3\Lib\site-packages\konlpy\java\kkma-2.0\

3) 명령어 : jar -cvf 생성하고자하는파일명.jar/ .

예 : jar -cvf user.jar/ .

kkma-2.0폴더에 user.jar 파일이 생성된 것을 확인하실 수 있습니다.

6. 새로운 kkma-2.0.jar을 적용하기

user.jar 파일을 kkma-2.0.jar로 이름을 변경해주시면 됩니다.

문제가 생길 수 있으니 기존의 kkma-2.0.jar 파일은 백업해두시기를 권장드립니다.

7. 결과 확인하기

7.1 라이브러리 재호출

from konlpy.tag import Kkma
kkma = Kkma()

7.2 문장 입력

morph("아메리카노는 맛있다.")

7.3 결과 확인

의도대로 수정이 된 것을 확인하실 수 있습니다.

'파이썬' 카테고리의 다른 글

파이썬_주식데이터를 활용한 회귀 신경망 스터디 2.회귀분석실습 (1)	2018.11.28
파이썬_주식데이터를 활용한 회귀 신경망 스터디 1.회귀분석이론 (0)	2018.11.27
파이썬_데이터_크롤링_위키피디아(wikipedia) (0)	2018.11.04
[기계학습]랜덤 포레스트 (1)	2018.04.05
csv나 txt 파일을 읽었을 때 \n이 붙는 이유 (0)	2017.08.09

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

생각 책장

티스토리 뷰

파이썬_konlpy_kkma(꼬꼬마) 형태소 분석기 사전 튜닝

'파이썬' 카테고리의 다른 글

티스토리툴바