'유저들의 대화 속에 답이 있다' 실시간 트렌딩 키워드 뽑아내기

최호경 기자

기사입력 2016-04-29 17:21





'부먹이냐 찍먹이냐' 탕수육을 소스에 찍어먹느냐, 탕수육에 소스를 부어먹느냐에 대한 논쟁은 인터넷에서 흔히 늘상 벌어지는 소소한 논쟁들을 대표하는 사례다. 대부분은 이런 논쟁을 잠시 웃고 넘길 수 있는 일 정도로 치부하고는 하지만 이런 소소한 움직임도 데이터화해서 사전대응을 위한 움직임에 들어가는 이들이 있다.

넥슨 인프라기술팀은 이런 소소한 움직임도 놓치지 않고 유저의 동향을 파악하는 부서다. NDC 16 2일차가 진행된 27일 넥슨 본사에서는 넥슨 인프라기술팀의 이태윤 시니어 프로그래머는 '실시간 트랜딩 키워드 뽑아내기 - 우리 유저들은 부먹일까 찍먹일까-'라는 강연을 진행했다.

이태윤 시니어 프로그래머는 이번 강연을 통해 각종 문제나 개선사항에 대한 선제대응을 위해서는 유저들의 소소한 반응에서도 동향을 파악하고 있어야 하며, 그를 위해서는 어떤 노력이 필요한지를 소개했다.

항상 사건이 일어난 이후에 조사를 해보면 사건 발생 이전부터 유저들 사이에서 해당 건에 대한 언급이 있었다는 것을 알게 됐으며, 중요한 이슈의 빠른 파악과 리포팅을 위해 급상승 키워드를 파악하는 자료를 만들기 시작했다고 언급했다.




하지만 한국어의 경우는 자연 언어 처리에 어려움이 있고 각종 신조어나 줄임말이 많았기에 많은 시행착오를 겪었다고 말하며, 이를 해결하기 위해 어떤 노력을 했는지에 대한 설명을 이어갔다.

자신들이 운용하는 분석틀로 인기 예능 프로그램 무한도전 게시글을 분석한 사례를 들어 설명을 시작한 그는 명사 사전을 구축했고, 먼저 조사 단위로 구분을 하고, 각 조사가 마지막 글자에 받침이 있는 경우와 없는 경우에 어떻게 따라오는지를 파악하는 과정을 거치는 식이라는 설명이었다.

이렇게 명사사전이 구축된 이후에는 이를 활용해 문장 분석을 시작한다. 해당 문장에서 7덩이, 6덩이, 5덩이씩 묶어서 사전에 등록이 됐는지를 확인하며 이런 과정을 거쳐 사전에 등록된 단어를 찾아내는 식이다.




이는 원문을 여러번 읽는 수준으로 속도를 높일 수 있다는 장점이 있다고 그는 설명했다. 다양한 오픈소스 형태소 분석기가 있지만 이를 위해 속도가 빠르고, 모르는 단어는 잘게 쪼개는 분석기를 사용했다고 설명을 이어갔다.

이런 식으로 유저들 사이에서 어떤 단어가 많이 쓰여지고 있는지를 파악하는 과정에 들어간다. 단, 일상어와 전문용어를 구분하는 과정이 필요하며, DF와 IDF를 기준으로 각 단어가 지니는 가치를 파악할 수 있는 '트렌딩 점수'를 구축했다고 말했다. '트렌딩 점수'는 어제의 점수가 오늘의 점수에 영향을 주고, 오늘의 점수가 내일의 점수에 영향을 주는 특징을 지니고 있다.




또한 그는 '트렌딩 점수'의 경우는 점수의 변동폭도 의미를 지니기 때문에 이에 대한 분석이 따라야 한다고 강조했다. 아울러 이를 기반으로 급상승 트랜딩 차트와 주요 트랜딩 차트를 별도로 만들어 운영하며, 각 단어의 점수가 이전 대비 얼마나 상승했는지를 파악하고 있다고 말하기도 해 눈길을 끌었다.

그러나 단어의 등장 횟수가 무의미하게 많거나 도배글로 인해 점수가 왜곡될 수 있기 때문에 이런 경우에 대한 대책을 세워야 한다는 설명도 들을 수 있었다. 이렇게 만든 자료는 약간의 가공의 거치게 된다. 노이즈를 줄이고 타 부서와의 신뢰도를 높이기 위한 작업으로 이를 통해 노이드로 판단되는 무의미한 단어가 제거되게 된다.

가공에 대한 우려를 할 수도 있지만 하나의 이슈는 여러 단어를 만들며, 몇 단어가 누락되어도 이를 받아들이는 사람들은 이슈를 충분히 파악할 수 있기 때문이라는 것이 이유였다.

김한준 게임 전문기자 endoflife81@gameinsight.co.kr

:) 당신이 좋아할만한 뉴스