Internet Archive traz milhões de imagens históricas ao Flickr
O Internet Archive já disponibilizou mais de 2 milhões de imagens do domínio público na sua conta do Flickr
- iOnline – Tecnologia
- 02/09/2014
- Internet, Tecnologia
*Artigo escrito originalmente para o iOnline
A iniciativa partiu de Kalev Leetaru, um académico norte-americano que começou a trabalhar em milhões de imagens (o Ars Technica estima serem 14 milhões) pertencentes a livros digitais do domínio público. Ao todo já foram disponibilizadas mais de 2,6 milhões de imagens no Flickr.
O Internet Archive digitalizou todos os seus e-books através de OCR (Optical Character Recognition), uma tecnologia que permite tornar o texto dos livros pesquisável. A partir desta base Leetaru desenvolveu um software capaz de tirar partido desta tecnologia, utilizada na digitalização de livros escritos entre 1500 e 1922. Segundo a BBC, contudo, o programa OCR descartou secções de texto que reconheceu como imagens.
O software de Leetaru, por sua vez, teve de voltar atrás no processo e descobrir quais foram as porções de texto descartadas, de forma a convertê-las automaticamente em imagens Jpeg. O passo seguinte envolveu disponibilizar as imagens no Flickr. “O software também copiou as captações para cada imagem, bem como o texto dos parágrafos que no livro antecedem e sucedem a imagem”, afirmou a BBC.
Para Leetaru, contudo, o ideal seria ver bibliotecas de todo o mundo adoptar práticas semelhantes. “Na verdade essa é a minha esperança”, afirmou. “Que as bibliotecas de todo o mundo apliquem este mesmo processo aos seus livros digitais, para poderem expandir constantemente este universo de imagens”.