Culturomics

NYT에 재밌는 기사가 하나 보도됨. 구글북스를 만들면서 구축한 방대한 서적 데이터를 이용, 시대의 흐름과 특징에 따라 언어 사용 환경이 어떻게 달라졌는지 연구하는 방법을 제공한 것. 하버드대가 주축이 되어서 연구를 수행했고, 그 결과 현지 시각으로 12월 16일 사이언스지에 논문 출판 완료. 사이언스지에 논문을 발표면서 연구팀에서는 ‘컬처러믹스(Culturomics)‘라는 새로운 단어를 고안해서 사용함.

이번 연구를 하면서 사용된 데이터베이스를 일반인들로 접근해서 맛을 볼 수 있도록 구글에서는 ‘Books Ngram Viewer ‘란 사이트를 공개했는데, 이곳에 가면 7개 국어별로 원하는 단어와 문구을 입력, 시대 흐름에 따라 해당 단어나 문구가 사용된 빈도 변화를 추적할 수 있음.

구글 Books Ngram Viewer에 대한 자세한 설명

재미삼아 얼른 떠오르는 단어 몇 개를 가지고 검색을 해 봤는데,

  • Radio, television, computer를 넣어보니 아래와 같은 결과(1910~2000, English, Smoothing factor=3). 라디오라는 단어 사용 빈도가 최대치를 이루다가 감소하는 가운데 자연스레(?) 텔레비전이란 단어 사용 빈도수는 올라가고 있고, 1966년부터는 컴퓨터가 텔레비전이란 단어 사용량을 앞서 나가기 시작하며 줄기차게 고공행진을 한다는 것을 볼 수 있음. 연도별로 어떤 일들이 있었지는 사회, 역사적 사실들과 연관시키면 더 자세한 해석이 가능할 듯.

Books Ngram results: radio, television, computer
  • Tea, bread, coffee를 넣어보니 아래와 같은 결과(1940~2000, English, Smoothing factor=0). 보통 차나 커피를 마시면서 빵도 같이 먹는 경우가 많을 것 같아 함께 검색을 해 봤는데, 재밌게도 세 단어가 같은 빈도로 계속 쓰이고 있음을 볼 수 있음. 커피-빵 짝보다는, 차-빵 짝이 더 강하게 묶여서 비슷한 빈도를 이룬다는 것도 흥미로움.

Books Ngram results: tea, bread, coffee

공식적인 발표용으로 이 도구를 이용하려면 좀 더 신중하고 주의 깊게 다뤄야겠지만, 분명히 언젠가 한 번은 써볼 만한 도구로 여겨짐.