티스토리 뷰
파이썬으로 한글 자연어를 처리하기 위해서는 java 기반으로 만들어진 형태소 분석기를 사용합니다.
konlpy는 자바 기반의 형태소 분석기를 파이썬에서 사용할 수 있게 해주는 아주 고마운 라이브러리입니다.
제공하는 형태소 분석기는 총 5개가 있습니다.
1. jhannanum(한나눔)
2. kkma(꼬꼬마)
3. komoran(코모란)
4. twitter(트위터)
5. mecab(메캅)
*konlpy 설명 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/
*konlpy 분석기 별 성능 비교 : http://konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes
형태소 분석 순서는 다음과 같습니다.
1. 형태소 분석기 호출
from konlpy.tag import Kkma kkma = Kkma()
2. 파싱함수 정의
def morph(input_data) : #형태소 분석 preprocessed = kkma.pos(input_data) print(preprocessed)
3. 문장 입력
morph("아메리카노는 맛있다.")
4. 결과 확인
제 생각에는
'아메리카노' '는' '맛있' '다' '.'
이렇게 파싱이 되어야 할 것 같은데
현실은
'아메리카' '노' '는' '맛있' '다' '.'
로 파싱이 되어버렸군요.
따라서 제 생각대로, 제 의도대로 분석이 되도록 하기 위해서는 분석기의 사전을 수정할 필요가 있습니다.
수정하는 방법은 다음과 같습니다.
1. konlpy내의 java폴더로 이동
c드라이브에서 konlpy로 검색 및 폴더로 이동 > java 폴더로 이동
2. kkma-2.0.jar 압축풀기
파일을 클릭하면 형태소 분석기 테스터가 실행됩니다.
따라서 압축풀기는 다음 그림처럼 파일 클릭 > 마우스 오른쪽 버튼 클릭 > 압축 풀기 로 하셔야 합니다.
3. kkma-2.0 > dic 폴더로 이동 및 파일 확인
압축을 풀고 나면 kkma-2.0이라는 폴더가 생성되어 있을 것입니다.
kkma-2.0 > dic 폴더로 이동하면 kkma에서 형태소 분석에 사용하는 사전들을 확인하실 수 있습니다.
3.1 사전 종류
3.2 명사 사전
4. 파일 내용 확인 및 사전 변경
사전에 아메리카노가 없었네요.
아메리카노가 온전히 '아메리카노' 로 분석되게 하기 위해 사전에 단어를 추가합니다.
5. jar 파일 만들기
수정한 내용을 적용하기 위해서는 jar 파일로 만들고 기존의 kkma-2.0.jar과 바꿔줘야 합니다.
jar 파일로 만드는 방법은 다음과 같습니다.
1) 명령 프롬프트 실행
2) konlpy내의 java/kkma-2.0 폴더로 이동(예 : cd C:\Users\user\Anaconda3\Lib\site-packages\konlpy\java\kkma-2.0\
3) 명령어 : jar -cvf 생성하고자하는파일명.jar/ .
예 : jar -cvf user.jar/ .
kkma-2.0폴더에 user.jar 파일이 생성된 것을 확인하실 수 있습니다.
6. 새로운 kkma-2.0.jar을 적용하기
user.jar 파일을 kkma-2.0.jar로 이름을 변경해주시면 됩니다.
문제가 생길 수 있으니 기존의 kkma-2.0.jar 파일은 백업해두시기를 권장드립니다.
7. 결과 확인하기
7.1 라이브러리 재호출
from konlpy.tag import Kkma kkma = Kkma()
7.2 문장 입력
morph("아메리카노는 맛있다.")
7.3 결과 확인
의도대로 수정이 된 것을 확인하실 수 있습니다.
'파이썬' 카테고리의 다른 글
파이썬_주식데이터를 활용한 회귀 신경망 스터디 2.회귀분석실습 (1) | 2018.11.28 |
---|---|
파이썬_주식데이터를 활용한 회귀 신경망 스터디 1.회귀분석이론 (0) | 2018.11.27 |
파이썬_데이터_크롤링_위키피디아(wikipedia) (0) | 2018.11.04 |
[기계학습]랜덤 포레스트 (1) | 2018.04.05 |
csv나 txt 파일을 읽었을 때 \n이 붙는 이유 (0) | 2017.08.09 |