머신러닝/Tool

NLP 프레임워크 추천 - Pororo(Platform Of neuRal mOdels for natuRal language prOcessing)

byoelcardi 2022. 3. 2. 19:37

Kakaobrain에서 여러 자연어 테스크(Automatic Speech Recognition, Word Embedding, OCR 등등)를 해결할 수 있는 플랫폼을 공개하였습니다. 바로 Pororo라는 라이브러리입니다.

Kakaobrain에서 공개한 Pororo 사용예시

 


설치 방법

pororo의 설치 방법은 다른 파이썬 라이브러리와 똑같습니다.

pip install pororo

locally 하게 설치하고 싶다면 다음 명령어를 사용하시면 됩니다. 

git clone https://github.com/kakaobrain/pororo.git
cd pororo
pip install -e .​

둘 중에 하나만 선택하여 설치해주시면 됩니다. pororo를 설치할 때 주의사항이 있습니다.

바로 Torch와 python 버전입니다.

torch = 1.6 (cuda 10.1) python >= 3.6을 만족해야 합니다.

Torch 버전이 다른 경우 돌아가는 것도 있지만 대부분이 해당 버전을 만족해야 하는 것으로 확인됩니다. 따라서 해당 버전을 맞춰주세요

 


사용 방법

문장 몇 줄이면 NLP 문제를 해결할 수 있습니다.

from pororo import Pororo
ner = Pororo(task="ner", lang="ko")
ner_result = ner("마이클 제프리 조던(영어: Michael Jeffrey Jordan, 1963년 2월 17일 ~ )은 미국의 은퇴한 농구 선수이다.")

pororo를 import 해주시고 task부분에 NLP 문제를 정해주시고 lang에 언어를 설정해주시면 됩니다. 위와 같이 코딩을 하게 되시면 문장에 대한 ner(개체명 분석) 결과가 ner_result 변수에 저장됩니다.

task 종류는 

Pororo.available_tasks()

task 종류는 해당 명령어로 확인이 가능합니다.


장점

인공지능 모델은 많은 데이터가 좋은 결과를 도출합니다. 어찌 보면 당연한 말이죠. 일반적으로 공부를 하는 학생이거나 큰 규모의 회사에 소속되어 있는 연구원이 아니라면 카카오처럼 많은 데이터를 보유하는 건 쉬운 일이 아닙니다. 현재 많은 데이터를 보유하고 있지 않지만 좋은 결과를 도출하고 싶은 분들에게 추천드립니다!