태그: 구글 댓글 스레드 토글 전환 | 키보드 단축키

  • akaiving 2010/12/23 12:45 pm 퍼머링크 | 응답
    태그: , 구글, , , Google Books, , , OCR   

    방대한 구글 북스(google books) 데이터. 그 많은 책을 스캔, OCR 작업을 하는 방법은 지난 2009년도에 알려졌는데, 미국 특허 7508978 문서를 보면 그 내용이 잘 나와있음. 두 대의 적외선 카메라를 이용, 책의 곡면을 고속으로 스캔하여 인식할 수 있는 이 방법은 책을 낱장으로 분리하지 않고 낡은 고서라도 훼손을 최대한 줄여 디지털화 가능하다는 장점이 있음.

    US 7,508,978 (Fig. 3)

    오늘, 얼마 전에 공개한 구글 Books Ngram을 이용해 몇 가지 자료를 검색해 보다가 재밌는 페이지를 하나 발견. 바로 스캔 당시 상황이 그대로 포착된 페이지. 아마도 오래된 책(1834년)이라 잘 펴지지 않는 페이지를 고정하기 위해 손으로 잡고 있었던 모양. 책 훼손을 방지하기 위해 장갑을 낀 상태인 것도 재밌는 부분.

    p. 17, The Hobart Town Magazone, Vol. II

    Advertisements
     
  • akaiving 2010/12/21 8:33 pm 퍼머링크 | 응답
    태그: , 구글, , , ,   

    세상엔 정말 재밌는 사람들이 많음. 며칠 전에 공개된 구글 Books Ngram Viewer를 가지고 상상하지 못했던 그래프를 만들어내는 걸 보면. 그중에서 가장 맘에 들었던 것은 바로 이것.

    From datavisualization.ch

    더 감상하려면 아래의 두 곳을 추천.

     
  • akaiving 2010/12/20 12:20 pm 퍼머링크 | 응답
    태그: , 구글, , historical linguistics, 역사언어학, , long s,   

    얼마 전에 공개한 구글 Books Ngram Viewer에 대해서 프린스턴 대학교 역사학과에 박사과정으로 재학 중인 Benjamin Schmidt는 재밌는 지적을 했음. 1800년대를 기점으로 사라진 long s(ſ ; medial, descending s)를 OCR 프로그램이 f로 판독하는 한계 때문에 발생하는 재미난 그래프를 보여준 것. 1800년을 기점으로 long s와 short s의 사용 빈도가 대칭을 이루는 모습을 그래프를 통해 확인할 수 있음.

    Historical usage of long s

    Benjamin Schmidt의 블로그에는 디지털 도구를 이용한 문헌 연구와 관련된 재밌는 글들이 많이 있으니, 관심 있는 사람이라면 구독해도 좋을 듯함.

     
  • akaiving 2010/12/18 12:43 am 퍼머링크 | 응답
    태그: , 구글, , , Humanities 2.0, 사회언어학, ,   

    NYT에 재밌는 기사가 하나 보도됨. 구글북스를 만들면서 구축한 방대한 서적 데이터를 이용, 시대의 흐름과 특징에 따라 언어 사용 환경이 어떻게 달라졌는지 연구하는 방법을 제공한 것. 하버드대가 주축이 되어서 연구를 수행했고, 그 결과 현지 시각으로 12월 16일 사이언스지에 논문 출판 완료. 사이언스지에 논문을 발표면서 연구팀에서는 ‘컬처러믹스(Culturomics)‘라는 새로운 단어를 고안해서 사용함.

    이번 연구를 하면서 사용된 데이터베이스를 일반인들로 접근해서 맛을 볼 수 있도록 구글에서는 ‘Books Ngram Viewer ‘란 사이트를 공개했는데, 이곳에 가면 7개 국어별로 원하는 단어와 문구을 입력, 시대 흐름에 따라 해당 단어나 문구가 사용된 빈도 변화를 추적할 수 있음.

    구글 Books Ngram Viewer에 대한 자세한 설명

    재미삼아 얼른 떠오르는 단어 몇 개를 가지고 검색을 해 봤는데,

    • Radio, television, computer를 넣어보니 아래와 같은 결과(1910~2000, English, Smoothing factor=3). 라디오라는 단어 사용 빈도가 최대치를 이루다가 감소하는 가운데 자연스레(?) 텔레비전이란 단어 사용 빈도수는 올라가고 있고, 1966년부터는 컴퓨터가 텔레비전이란 단어 사용량을 앞서 나가기 시작하며 줄기차게 고공행진을 한다는 것을 볼 수 있음. 연도별로 어떤 일들이 있었지는 사회, 역사적 사실들과 연관시키면 더 자세한 해석이 가능할 듯.

    Books Ngram results: radio, television, computer
    • Tea, bread, coffee를 넣어보니 아래와 같은 결과(1940~2000, English, Smoothing factor=0). 보통 차나 커피를 마시면서 빵도 같이 먹는 경우가 많을 것 같아 함께 검색을 해 봤는데, 재밌게도 세 단어가 같은 빈도로 계속 쓰이고 있음을 볼 수 있음. 커피-빵 짝보다는, 차-빵 짝이 더 강하게 묶여서 비슷한 빈도를 이룬다는 것도 흥미로움.

    Books Ngram results: tea, bread, coffee

    공식적인 발표용으로 이 도구를 이용하려면 좀 더 신중하고 주의 깊게 다뤄야겠지만, 분명히 언젠가 한 번은 써볼 만한 도구로 여겨짐.

     
c
새 글 작성
j
다음 글/다음 댓글
k
이전 글/이전 댓글
r
응답
e
편집
o
댓글 표시/숨기기
t
상위로 가기
l
로그인하기
h
도움말 표시/숨기기
shift + esc
취소
%d 블로거가 이것을 좋아합니다: