네이버 하이퍼클로바X 학습 기준 깜깜…블로그 비중이 1위?

[네이버 제공. 재판매 및 DB 금지]

2021년 논문 "이전 버전 하이퍼클로바는 블로그 학습 비중 1위"

(서울=연합뉴스) 홍국기 기자 = 네이버가 인공지능(AI) 거대언어모델(LLM)인 '하이퍼클로바X'의 학습 기준을 공개하지 않는 가운데, 하이퍼클로바X의 이전 버전인 하이퍼클로바는 블로그 사전 학습 비중이 가장 높았던 것으로 나타났다.

1일 자연어처리기술(NLP) 학회 EMNLP에 2021년 채택된 하이퍼클로바 관련 연구 논문에 따르면 하이퍼클로바는 5천618억 토큰(데이터에서 의미를 가지는 최소한의 덩어리)을 사전 학습했다.

이 가운데 블로그(2천736억 토큰)의 비중이 가장 높았으며 이어 온라인 카페(833억 토큰), 뉴스(738억 토큰), 댓글(411억 토큰), 지식인 서비스(273억 토큰) 등의 순이었다.

토큰은 AI 학습용으로 모아둔 일종의 '말뭉치'(Corpus·특정한 목적을 가지고 수집한 텍스트 데이터)로, 문장을 만들어내는 데 사용되는 토큰이 많아질수록 생성형 AI의 연산 과정·시간도 길어진다.

국립국어원이 만든 '모두의 말뭉치'처럼 이미 만들어진 AI 학습용 한국어 데이터 세트는 고품질 출처로 간주해 하이퍼클로바 학습 데이터에 포함됐다. 이 밖에 하이퍼클로바는 다양성 확보 차원에서 일부 전문 지식도 학습했다.

네이버에 따르면 이렇게 만들어진 한국어 데이터 세트는 1.96테라바이트(TB) 크기다. 한국어 위키피디아의 2천900배로, 한국어 뉴스 50년 치에 해당한다.

네이버 관계자는 "모든 AI는 고정된 모델이라기보다는 '지식 체계'로, 계속해서 업데이트된 데이터를 학습하며 고도화되는 것이 특징"이라며 "하이퍼클로바의 사전 학습 데이터를 하이퍼클로바X의 현재 학습 데이터로 간주할 수는 없다"고 설명했다.

그러면서 "하이퍼클로바X에서는 법률, 수학, 논문 등의 다양한 전문 데이터 확보를 지속해서 강화해 나갈 계획"이라고 덧붙였다.

최근 생성형 AI 개발 붐이 일면서 국내외에서 AI 학습을 위해 뉴스 등의 콘텐츠를 공짜로 사용하는 데 대한 반발이 거세지는 가운데, 네이버는 별도의 저작권 사용료에 대해 논의하고 있는 단계가 아니라는 입장을 밝혀 논란을 빚고 있다.

네이버는 지금까지 하이퍼클로바X가 약관에 근거해 뉴스, 블로그 등을 학습했다고 주장한다.

이에 반해 챗GPT 개발사 오픈AI는 지난 7월 미국의 뉴스 통신사 AP통신과 뉴스 기사 사용 등에 관한 라이선스 계약을 체결하며 대비를 이뤘다.

redflag@yna.co.kr

<연합뉴스>