[IT열쇳말] 컴퓨테이셔널 저널리즘 – 수다피플

‘컴퓨테이셔널 저널리즘(Computational Journalism)’은 뉴스 콘텐츠의 생산 과정에도 컴퓨팅을 활용하는 저널리즘의 한 방식을 지칭한다. 컴퓨팅 능력의 향상에 따라 활용할 수 있는 영역이 넓어지면서 등장했다. 아직은 완벽히 정립된 개념은 아니다. 컴퓨테이셔널 저널리즘이 다루는 내용은 아직 완벽하게 언론사들이 활용하고 있다기보다는, 실험적으로 시도되고 있는 측면이 크다. 인간의 수많은 행동이 데이터로 기록되고, 알고리즘의 영향을 받아 행동하는 경향이 증가하는 추세다. 이 때문에 컴퓨테이셔널 저널리즘은 향후 성장가능성이 돋보이는 저널리즘의 한 분야다.

컴퓨테이셔널 저널리즘을 수행하려면 알고리즘에 대한 이해와 대규모 데이터 처리 능력이 필요하다.

| 스탠포드대학교 컴퓨테이셔널 저널리즘 랩의 제임스 해밀턴 교수

| 스탠포드대학교 컴퓨테이셔널 저널리즘 랩의 제임스 해밀턴 교수 <출처: 박상현 한겨레21 교육연수생>

스탠포드대학 컴퓨테이셔널 저널리즘 랩의 제임스 해밀턴 교수는 컴퓨테이셔널 저널리즘에 해당하는 영역을 크게 3가지로 구분한다. ① 알고리즘에 의한 스토리(story BY algorithm), ② 알고리즘을 통해 발견한 스토리(story THROUGH algorithm), ③ 알고리즘에 관한 스토리(story ABOUT algorithm)다.

| 로봇 저널리즘은 실제 로봇이 타이핑해 기사를 작성하는 방식은 아니다.

| 로봇 저널리즘은 실제 로봇이 타이핑해 기사를 작성하는 방식은 아니다. <출처: flickr, Alec Meer, CC BY SA>

알고리즘에 의한 스토리

‘알고리즘에 의한 스토리(story BY algorithm)’는 스포츠, 증권, 부동산 가격, 속보, 날씨 등의 분야에서 알고리즘이 직접 작성하는 뉴스를 말한다. 흔히 ‘로봇 저널리즘’으로 알려져 있다. 로봇 저널리즘은 컴퓨팅 기술에 기초해 소프트웨어를 활용하는 기사 작성법을 일컫는다. 실제 로봇이 펜을 쥐거나 키보드를 타이핑해 기사를 작성하는 건 아니고, 데이터를 바탕으로 소프트웨어가 뉴스를 작성하는 방식이다. 로봇 저널리즘은 캘리포니아대학교 정보컴퓨터과학과 제임스 미한 교수의 ‘테일스핀, 이야기를 쓰는 인터랙티브 프로그램’이라는 논문에서 처음 고안된 개념이다.

“백인식이 선발로 등판한 SK는 이태양이 나선 NC에게 6:8로 패하며 안방에서 승리를 내주었다. 경기의 승패에 결정적인 영향을 미친 키 플레이어는 손시헌이었다. 손시헌은 4회초 SK 고효준을 상대로 3점을 뽑아내어 팀의 승리에 결정적으로 기여했다. SK는 임창민을 끝까지 공략하지 못하며 안방에서 NC에 2점차 승리를 내주었다. 한편 오늘 NC에게 패한 SK는 4연패를 기록하며 수렁에 빠졌다.” – 실제로 로봇이 작성한 기사

국내에서는 서울대학교에서 본격적으로 알고리즘을 활용하는 기사 생산을 연구하고 있다. 로봇 저널리즘의 장점은 단연 ‘효율성’이다. 단순히 기사를 빠르게, 많이 쏟아내는 것을 넘어 속보 처리 등 단순업무에 가까운 뉴스 콘텐츠 제작에 들어가는 인력을 줄여 기자들이 더 좋은 콘텐츠를 만들 수 있게 돕는다.

| ‘알고리즘을 통해 발견한 스토리’는 데이터를 활용해 뉴스를 만든다.

| ‘알고리즘을 통해 발견한 스토리’는 데이터를 활용해 뉴스를 만든다. <출처: 반조>

알고리즘을 통해 발견한 스토리

스탠포드대학 컴퓨테이셔널 저널리즘 랩과 마샬 프로젝트는 미국 내 20개 주에서 교통경찰관이 운행 중인 차량을 무작위로 불러세우는 임의 차량 검문과 관련된 데이터 6천만건을 분석했다. 임의 검문임에도 백인 운전자의 차량을 멈춰세우는 비율보다 다른 인종 운전자의 차량을 멈춰 세우는 비율이 높다는 걸 검증했고, 이는 ‘차량 검문과 운전자 인종의 상관관계’라는 콘텐츠로 만들어졌다.

차량 임의 검문과 운전자의 인종 사이에 상관관계가 있다는 합리적 의심을 먼저 품지 않는다면 6천만건의 데이터는 아무 가치 없는 숫자에 불과했을 것이다. 숫자에 합리적 의심이 더해지면 가치를 지닌 데이터가 된다. ‘알고리즘을 통한 스토리 발견(story THROUGH algorithm)’이다. 흔히 ‘데이터 저널리즘’이라 부르는 영역이다.

banjo2

banjo3

| 분석업체 반조는 전세계 소셜·디지털 신호를 파악해 실시간으로 이슈가 되는 사건을 알아낸다. <출처: 반조>

보통 기자는 문제의식을 뼈대 삼아 인터뷰, 취재 등을 통해 내용을 보충한다. ‘알고리즘을 통한 스토리 발견’에서는 이 취재과정이 ‘데이터 수집→정제→패턴 발견 및 의미 도출’로 바뀐다. 알고리즘을 통한 스토리 발견은 기존 데이터 저널리즘에서 한발 더 나아간다. 뉴스 아이템을 수집하는 단계에서 기여할 수도 있다. 예컨대 인터넷 트래픽을 분석해 사건의 발견을 탐지할 수도 있다. 전 세계의 인터넷 사용량을 살펴보다가 갑자기 트래픽이 폭증하는 장소를 발견하고, 수없이 올라오는 이미지 등을 분석해 화재나 테러 등이 발생했다는 사실을 감지할 수도 있다. 이렇게 사건을 발견해 거의 실시간으로 언론사가 뉴스를 작성할 수도 있다.

| 판단은 기계가 아니라 사람이 한다.

| 판단은 기계가 아니라 사람이 한다. <출처: flickr, jchapiewsky, CC BY>

알고리즘에 대한 스토리

알고리즘에 대한 스토리는 소재가 ‘알고리즘’인 뉴스를 말한다. 알고리즘은 일견 기계가 결정한다는 점에서 공평하고 정확할 것 같지만, 결국 알고리즘을 짜는 것도 사람이기 때문에 그 결과가 실수나 편견에서 벗어날 수는 없다.

비영리 탐사보도 매체 <프로퍼블리카>의 보도가 적절한 사례다. 미국 사교육업체 프린스턴리뷰는 지역마다 온라인 SAT(Scholastic Aptitude Test) 개인지도 패키지 가격을 다르게 판매했다. 가격 책정은 알고리즘에 의해 이뤄졌는데, 그러면서 아시아인들이 같은 강의를 훨씬 비싼 돈을 내면서 듣는 결과가 나왔다. <프로퍼블리카> 보도에 따르면 아시아인이 아닌 사람과 비교했을 때 아시아인은 높은 가격을 제시받을 확률이 거의 2배에 이르렀으며, 저소득층 지역 아시아인에게 가장 높은 가격을 부과한 사례도 발견됐다.

최근 이슈가 된 ‘필터 버블’(Filter Bubble)도 마찬가지다. 개인 맞춤 추천 알고리즘이 시야를 ‘거품’에 갇히게 했기 때문이다. 디지털 기술이 일상에 스며들면서 삶의 많은 부분이 알고리즘의 영향을 받는다. 이처럼 ‘알고리즘에 대한 스토리’는 공공의 문제가 될 수 있는 알고리즘을 이해하고 견제하는 것을 목표로 한다.

※ 참고문헌

이 글은 ‘네이버캐스트→테크놀로지월드→용어로 보는 IT’에도 게재됐습니다. ☞‘네이버캐스트’ 보기

from Bloter.net http://www.bloter.net/archives/276095