NYT에 재밌는 기사가 하나 보도됨. 구글북스를 만들면서 구축한 방대한 서적 데이터를 이용, 시대의 흐름과 특징에 따라 언어 사용 환경이 어떻게 달라졌는지 연구하는 방법을 제공한 것. 하버드대가 주축이 되어서 연구를 수행했고, 그 결과 현지 시각으로 12월 16일 사이언스지에 논문 출판 완료. 사이언스지에 논문을 발표면서 연구팀에서는 ‘컬처러믹스(Culturomics)‘라는 새로운 단어를 고안해서 사용함.

이번 연구를 하면서 사용된 데이터베이스를 일반인들로 접근해서 맛을 볼 수 있도록 구글에서는 ‘Books Ngram Viewer ‘란 사이트를 공개했는데, 이곳에 가면 7개 국어별로 원하는 단어와 문구을 입력, 시대 흐름에 따라 해당 단어나 문구가 사용된 빈도 변화를 추적할 수 있음.

구글 Books Ngram Viewer에 대한 자세한 설명

재미삼아 얼른 떠오르는 단어 몇 개를 가지고 검색을 해 봤는데,

  • Radio, television, computer를 넣어보니 아래와 같은 결과(1910~2000, English, Smoothing factor=3). 라디오라는 단어 사용 빈도가 최대치를 이루다가 감소하는 가운데 자연스레(?) 텔레비전이란 단어 사용 빈도수는 올라가고 있고, 1966년부터는 컴퓨터가 텔레비전이란 단어 사용량을 앞서 나가기 시작하며 줄기차게 고공행진을 한다는 것을 볼 수 있음. 연도별로 어떤 일들이 있었지는 사회, 역사적 사실들과 연관시키면 더 자세한 해석이 가능할 듯.

Books Ngram results: radio, television, computer
  • Tea, bread, coffee를 넣어보니 아래와 같은 결과(1940~2000, English, Smoothing factor=0). 보통 차나 커피를 마시면서 빵도 같이 먹는 경우가 많을 것 같아 함께 검색을 해 봤는데, 재밌게도 세 단어가 같은 빈도로 계속 쓰이고 있음을 볼 수 있음. 커피-빵 짝보다는, 차-빵 짝이 더 강하게 묶여서 비슷한 빈도를 이룬다는 것도 흥미로움.

Books Ngram results: tea, bread, coffee

공식적인 발표용으로 이 도구를 이용하려면 좀 더 신중하고 주의 깊게 다뤄야겠지만, 분명히 언젠가 한 번은 써볼 만한 도구로 여겨짐.