고려대학교 산학협력단(이하 고려대 산단)이 최근 과학기술정보통신부가 주관하고 한국지능정보사회진흥원에서 추진하는 '2022년 인공지능 학습용 데이터 구축사업'에 선정됐다.
사업은 올해 12월까지 7개월간 수행하며 사업비는 정부출연금 20억 원, 민간부담금 2억4250만 원으로 총 22억 4250만 원이다.
고려대 산단은 의료와 법률 전문 도서 각 200종을 선정해 1억 어절 이상의 정제된 말뭉치를 구축하는 것을 목표로 한다. 이를 위해 최신 전문 도서의 디지털 파일을 수집하고, 의료, 법률, 언어 분야 전문가와 함께 크라우드 워커로 참여 인력을 구성해 보다 정밀하게 라벨링 된 인공지능 학습용 데이터세트를 제공할 예정이다.
전문 서적을 기반으로 확보된 데이터세트인 만큼 향후 다양한 분야의 한국어 말뭉치 구축 표본으로 활용 가능하며, 두 전문 분야의 융합으로 새로운 자연어처리 시장을 확보할 수 있어 국내 인공지능 개발 환경을 조성하는데 일조할 것으로 기대를 모으고 있다.
이번 구축사업의 총괄 책임자는 그동안 의료분야 말뭉치 데이터세트 표준 및 자연어처리기술 개발을 선도해 온 고려대학교 안암병원 순환기내과 주형준 교수가 맡았다. 주형준 교수는 이번 사업에 대해 "고품질의 말뭉치는 인공지능의 활용을 극대화 할 수 있는 가장 중요한 기반 중 하나"라며 "높은 정확도와 전문성이 요구되는 의학과 법률 분야에서, 고도로 정제된 말뭉치를 구축함으로써 다양한 인공지능 솔루션이 개발될 수 있는 계기가 될 것으로 기대한다"고 전했다.
장종호 기자 bellho@sportschosun.com
|