Google Books Scanning

방대한 구글 북스(google books) 데이터. 그 많은 책을 스캔, OCR 작업을 하는 방법은 지난 2009년도에 알려졌는데, 미국 특허 7508978 문서를 보면 그 내용이 잘 나와있음. 두 대의 적외선 카메라를 이용, 책의 곡면을 고속으로 스캔하여 인식할 수 있는 이 방법은 책을 낱장으로 분리하지 않고 낡은 고서라도 훼손을 최대한 줄여 디지털화 가능하다는 장점이 있음.

US 7,508,978 (Fig. 3)

오늘, 얼마 전에 공개한 구글 Books Ngram을 이용해 몇 가지 자료를 검색해 보다가 재밌는 페이지를 하나 발견. 바로 스캔 당시 상황이 그대로 포착된 페이지. 아마도 오래된 책(1834년)이라 잘 펴지지 않는 페이지를 고정하기 위해 손으로 잡고 있었던 모양. 책 훼손을 방지하기 위해 장갑을 낀 상태인 것도 재밌는 부분.

p. 17, The Hobart Town Magazone, Vol. II