태그: 컬처러믹스 댓글 스레드 토글 전환 | 키보드 단축키

  • akaiving 2010/12/23 12:45 pm 퍼머링크 | 응답
    태그: , , , , Google Books, 컬처러믹스, , OCR   

    방대한 구글 북스(google books) 데이터. 그 많은 책을 스캔, OCR 작업을 하는 방법은 지난 2009년도에 알려졌는데, 미국 특허 7508978 문서를 보면 그 내용이 잘 나와있음. 두 대의 적외선 카메라를 이용, 책의 곡면을 고속으로 스캔하여 인식할 수 있는 이 방법은 책을 낱장으로 분리하지 않고 낡은 고서라도 훼손을 최대한 줄여 디지털화 가능하다는 장점이 있음.

    US 7,508,978 (Fig. 3)

    오늘, 얼마 전에 공개한 구글 Books Ngram을 이용해 몇 가지 자료를 검색해 보다가 재밌는 페이지를 하나 발견. 바로 스캔 당시 상황이 그대로 포착된 페이지. 아마도 오래된 책(1834년)이라 잘 펴지지 않는 페이지를 고정하기 위해 손으로 잡고 있었던 모양. 책 훼손을 방지하기 위해 장갑을 낀 상태인 것도 재밌는 부분.

    p. 17, The Hobart Town Magazone, Vol. II

     
  • akaiving 2010/12/21 8:33 pm 퍼머링크 | 응답
    태그: , , , , 컬처러믹스,   

    세상엔 정말 재밌는 사람들이 많음. 며칠 전에 공개된 구글 Books Ngram Viewer를 가지고 상상하지 못했던 그래프를 만들어내는 걸 보면. 그중에서 가장 맘에 들었던 것은 바로 이것.

    From datavisualization.ch

    더 감상하려면 아래의 두 곳을 추천.

     
  • akaiving 2010/12/20 12:20 pm 퍼머링크 | 응답
    태그: , , , historical linguistics, 역사언어학, 컬처러믹스, long s,   

    얼마 전에 공개한 구글 Books Ngram Viewer에 대해서 프린스턴 대학교 역사학과에 박사과정으로 재학 중인 Benjamin Schmidt는 재밌는 지적을 했음. 1800년대를 기점으로 사라진 long s(ſ ; medial, descending s)를 OCR 프로그램이 f로 판독하는 한계 때문에 발생하는 재미난 그래프를 보여준 것. 1800년을 기점으로 long s와 short s의 사용 빈도가 대칭을 이루는 모습을 그래프를 통해 확인할 수 있음.

    Historical usage of long s

    Benjamin Schmidt의 블로그에는 디지털 도구를 이용한 문헌 연구와 관련된 재밌는 글들이 많이 있으니, 관심 있는 사람이라면 구독해도 좋을 듯함.

     
  • akaiving 2010/12/18 12:43 am 퍼머링크 | 응답
    태그: , , , , Humanities 2.0, 사회언어학, 컬처러믹스,   

    NYT에 재밌는 기사가 하나 보도됨. 구글북스를 만들면서 구축한 방대한 서적 데이터를 이용, 시대의 흐름과 특징에 따라 언어 사용 환경이 어떻게 달라졌는지 연구하는 방법을 제공한 것. 하버드대가 주축이 되어서 연구를 수행했고, 그 결과 현지 시각으로 12월 16일 사이언스지에 논문 출판 완료. 사이언스지에 논문을 발표면서 연구팀에서는 ‘컬처러믹스(Culturomics)‘라는 새로운 단어를 고안해서 사용함.

    이번 연구를 하면서 사용된 데이터베이스를 일반인들로 접근해서 맛을 볼 수 있도록 구글에서는 ‘Books Ngram Viewer ‘란 사이트를 공개했는데, 이곳에 가면 7개 국어별로 원하는 단어와 문구을 입력, 시대 흐름에 따라 해당 단어나 문구가 사용된 빈도 변화를 추적할 수 있음.

    구글 Books Ngram Viewer에 대한 자세한 설명

    재미삼아 얼른 떠오르는 단어 몇 개를 가지고 검색을 해 봤는데,

    • Radio, television, computer를 넣어보니 아래와 같은 결과(1910~2000, English, Smoothing factor=3). 라디오라는 단어 사용 빈도가 최대치를 이루다가 감소하는 가운데 자연스레(?) 텔레비전이란 단어 사용 빈도수는 올라가고 있고, 1966년부터는 컴퓨터가 텔레비전이란 단어 사용량을 앞서 나가기 시작하며 줄기차게 고공행진을 한다는 것을 볼 수 있음. 연도별로 어떤 일들이 있었지는 사회, 역사적 사실들과 연관시키면 더 자세한 해석이 가능할 듯.

    Books Ngram results: radio, television, computer
    • Tea, bread, coffee를 넣어보니 아래와 같은 결과(1940~2000, English, Smoothing factor=0). 보통 차나 커피를 마시면서 빵도 같이 먹는 경우가 많을 것 같아 함께 검색을 해 봤는데, 재밌게도 세 단어가 같은 빈도로 계속 쓰이고 있음을 볼 수 있음. 커피-빵 짝보다는, 차-빵 짝이 더 강하게 묶여서 비슷한 빈도를 이룬다는 것도 흥미로움.

    Books Ngram results: tea, bread, coffee

    공식적인 발표용으로 이 도구를 이용하려면 좀 더 신중하고 주의 깊게 다뤄야겠지만, 분명히 언젠가 한 번은 써볼 만한 도구로 여겨짐.

     
c
새 글 작성
j
다음 글/다음 댓글
k
이전 글/이전 댓글
r
응답
e
편집
o
댓글 표시/숨기기
t
상위로 가기
l
로그인하기
h
도움말 표시/숨기기
shift + esc
취소
%d 블로거가 이것을 좋아합니다: