대구 경북

한국정보화진흥원, 한글 형태소 사전 제작·공개


  • 서성훈 기자
    • 기사
    • 프린트하기
    • 크게
    • 작게

    입력 : 2017-02-22 10:49:12

    한국정보화진흥원(NIA·원장 서병조)은 텍스트 분석 및 활용의 촉진과 빅데이터 관련 서비스 개발을 지원하고자 한글 텍스트 분석의 핵심요소인 형태소 사전을 제작․개방한다고 22일 밝혔다.

    국립국어원의 우리말 샘 사전을 바탕으로 제작된 형태소 사전은 NIADic으로 기존의 세종Dic(9만 단어)외에 신조어와 법률, 의료 등 6대 분야별 전문단어를 추가하여 빈도수 및 연관분석 측면에서 의미있는 데이터 분석이 가능해졌다.

    현재까지는 오픈소스 기반의 KoNLP의 세종사전(Sejong Dic)*을 통해 텍스트 분석을 수행해 왔으나 단어수와 신조어가 부족하여 새로운 형태소 사전 제작에 대한 요구가 지속되어 왔다.

    NIA는 형태소사전을 빅데이터센터를 통해 공개하고, 중소기업, 연구자, 일반인 등이 쉽게 분석·활용할 수 있도록 오픈소스 빅데이터 분석도구인 R의 한글분석 패키지 KoNLP의 기초사전으로 제공한다.

    이를 통해 한글 빅데이터 분석의 정확성과 신뢰도를 높일 뿐 아니라 형태소 사전 중복개발의 비용절감과, 신규 서비스 개발 주기도 단축할 수 있다. 특히, 최근 급증하고 있는 음성인식 기반의 다양한 IoT 서비스 개발 시 한글인식 성능 개선에도 기여할 것으로 보인다.

    빅데이터센터 권영일 센터장은 “형태소 사전의 형태소 수가 많을수록 어휘간의 연관성에서 찾을 수 있는 유의미한 분석결과를 도출할 수 있어서 향후 중소기업, 스타트업 등 다양한 분야의 한글 빅데이터 분석에 활용될 것”이라고 밝혔다.

    향후 NIADic은 공개소프트웨어 커뮤니티에 오픈소스로 개방되어 통계분석도구 및 분석기 사용자들이 자율적으로 업데이트 해 활용할 수 있으며, 저작자와 출처 등을 표시하면 영리목적의 이용이나 변경, 2차적 저작물 작성을 포함하여 상업적 활용이 가능하기 때문에 향후 한글 빅데이터 분석 분야의 연구가 보다 활발해 질 것으로 기대된다.


    베타뉴스 서성훈 기자 (abc@betanews.net)
    Copyrights ⓒ BetaNews.net





    http://m.betanews.net/681600?rebuild=on