머신러닝 & 딥러닝/AI & 데이터 기술 스크랩

[스크랩] 왜 이 뉴스 추천했지? 네이버가 답했다…'언론사 인기도' 추후공개

에멜라 2023. 8. 16. 17:49

기사 요약

네이버가 'my뉴스'에 적용된 AI 알고리즘을 사용자에게 쉽게 설명하는 안내 페이지를 새단장하였다. 여기에는 AI 추천 알고리즘 'AiRS'와 유사한 뉴스를 묶어주는 '클러스터링'에 대한 셜명이 담겨있고, 자세히는 총 4단계의 추천과정을 통해 'my뉴스'를 제공하고 있다.

 

초 개인화 서비스

네이버 AiRS 는 정확한 명칭으로는 AI Recomend System 으로 사용자의 검색기반 개인화 추천시스템 전반을 개발하며, 17년 이전부터 꾸준히 개인화 서비스를 제공하고 있을 정도로 꽤 역사가 있는 조직이다.

 

나 역시 네이버의 개발자 컨퍼런스 DEVIEW를 관심깊게 보며 특히 개인화 추천시스템이 인상깊었는데, 예를들어 네이버 지도의 'Smart around' 는 사용자의 검색패턴과 사용자 개인정보 기반 분석을 통한 장소 추천서비스인데, 이런 것들을 보면 네이버가 사용자의 사용목적과 만족도 향상을 위해 매우 많은 고민을 하는것이 느껴졌다.

 

이번에 알게된 'my 뉴스'는 조금 더 복잡한 추천시스템이라 생각한다. 기존의 장소 추천 알고리즘은 데이터의 수집 주기가 매우 길며 장소에 대한 카테고리도 쉽게 특정이 가능하지만, 뉴스 기사의 경우 사용자의 이용 주기도 짧은 뿐더러 개인의 취향이 노골적으로 반영되며, 뉴스 품질, 언론사, 실시간 이슈정보들을 모두 고려해야 하기 때문이다.

 

즉 'my뉴스' 서비스는 단순히 정적인 사용자 정보를 아이템과 매칭하는 개인화 서비스를 넘어선, 사용자의 실시간 정보를 반영하여 추천을 제공해야하는 초 개인화 서비스에 가깝다고 생각한다.

 

추천 알고리즘

일반적인 추천시스템의 경우, 사용자 취향 정보 및 현재 검색 페이지를 기반으로 이와 가장 유사한 후보 세션들을 가져온 이후, ML/DL 모델을 기반으로 score를 계산하여 각 후보군을 Rank 시키고, 필터링을 통해 부적절하거나 품질이 떨어지는 컨텐츠를 제외한 상위 k개의 세션을 추천하는 방식을 취한다.

 

그러나 기사 추천의 경우, 위와같이 실시간 정보 및 매우 세분화된 정보들을 모두 반영해야하므로, 이 과정에서 조금 더 많은 정보들을 고려하는것으로 보인다.

 

1. 이용자의 뉴스 소비 이력 생성

 => 뉴스 특성상 소비 주기가 짧으며, 처음으로 선택한 기사에서 꼬리를 물어 관련 기사를 이어보는 경우도 많다. 이러한 실시간 정보들을 효율적으로 관리할만한 알고리즘이 설계될 필요가 있다.

 

2.  4개의 추천모델로 기사 후보군 생성

 => 이때, 협업필터링과 같이 유사 사용군의 관심정보를 이용하여 후보 기사들을 선정하되, 기사의 품질, 정보량, 실시간 이슈를 반영하여 추천 후보군을 생성.

 

3. 후보군 중 개인화 및 비개인화 부문에서 총 16개의 피쳐를 고려, 이용자 선호도 score 계산후 Ranking.

 => 추천 score 계산시, 사용자 선호세션, 선호 키워드, 선호 언론사, 기사의 인기도, 기사의 최신성 등 사용자 추천과 관련있는 16개의 피쳐를 선정한 이후 이들의 값을 통해 선호도 score를 계산하는 방식을 취한다.

 

4. 'my 뉴스' 에 개인화된 추천 기사들을 개시

 

+ 구독 언론사 우선추천 및 추천의 다양성 지수 추가 예정

 

 

의의 및 한계

네이버의 추천시스템을 보면 검색 및 포털엔진을 통해 유용한 사용자 정보들을 취득할 뿐 아니라, 각 서비스에 맞게 유저스터디 및 패턴, 도메인에 적용하기 위한 연구를 매우 디테일하게 하여 서비스에 적용하는것이 눈에 보이는것 같다. 그리고 이러한 서비스 개발 방식 및 기술공유에 굉장히 활발하여 공부를 이어가는 입장에서 매우 감사한 일인것 같다.

 

그러나 뉴스 추천의 개인화는 그 존재 자체로 우려가 생기는 주제이기도 하다. 기존의 유튜브 추천시스템의 경우에도, 사용자가 자주 이용하는 정보와 유사한 컨텐츠만 추천되는 정보편향이 문제가 되는데, 특히 각 언론사별로 편향되어있는 시각이 존재하는 뉴스기사에도 이와같은 현상이 발생한다면 더욱 심각한 문제가 발생될 수 있다.

 

기존의 개인화되지 않은 기존의 온라인뉴스는, 각 언론사마다 배정받은 칸 내에서 원하는 기사를 올리기 때문에 사용자 입장에서는 그 언론사를 선호하지 않더라도 이에 대한 다양한 시각을 동시에 접하는 반면, 개인화 시스템으로 사람들이 기존에 보던 언론사와 비슷한 시각을 가진 뉴스들만 상위 노출되므로 편향 성향이 더욱 강화될 수 있다. 또한, 언론사 입장에서도 기사의 노출을 위해, 특히 사람들이 많이 보는 뉴스를 그대로 모방하거나, 특정 사용자층에게 더 잘 노출되는 키워드들을 사용하는 등 이러한 편향적 성질에 편승하는 모습을 보일수도 있다는 한계점이 존재한다.