20 maart 2006
De Electronica’s op het boekenbal
Nu we nog middenin de boekenweek zitten neem ik de gelegenheid te baat om een oude, nooit geplaatste, column af te stoffen en op te frissen. Deze column gaat immers over de dans van de softwaregiganten op het bal van de elektronische boeken. De Electronica’s op het boekenbal dus. Ik heb al eens eerder over het elektronische boekenbal geblogd, afgelopen oktober en november. In deze post wil ik proberen de ontwikkelingen op een rij te zetten.
Google Book Search houdt de gemoederen al een tijdje bezig. Het grote tumult ontstond in december 2004 toen Google een samenwerking aankondigde met een drietal Amerikaanse universiteitsbibliotheken, University of Michigan, Harvard University en Stanford University de New York Public Library en de Bodleian Library in Oxford, Engeland (Price, 2004). Google zal de complete collectie scannen en doorzoekbaar maken. Eindelijk de droom die waarheid wordt voor veel mediathecarissen. Alle boeken volledig doorzoekbaar. Echter, slechts de rechtenvrije werken worden compleet getoond. Van de werken waar nog auteursrechten op rusten, zullen slechts kleine stukjes getoond worden, de snippets zoals we die ook van de standaard zoekresultaten kennen. Het vreemde aan het tumult rond Google Book Search is in feite dat het al een veel ouder programma is, dat juist was begonnen in samenwerking met uitgevers. In december 2003 werden de eerste resultaten van dit programma zichtbaar in de algemene Google index (Sherman, 2003). In oktober 2004 werd Google Print als apart programma voor uitgevers in het leven geroepen (Sullivan, 2004). Afgelopen november werd de naam van Google Print veranderd in de huidige naam Google Book Search.
Terwijl het boekenscanprogramma van Google een tijdje heeft stil gelegen. Vooral om betrokken partijen beter te informeren, allianties te sluiten en belangrijke uitgevers over de streep te halen. Is het aantal processen dat Google ondertussen aan de broek heeft gekregen is wel toegenomen. Niet alleen de uitgevers tegen Google, maar ook consumentenorganisaties, Europese regeringsleiders, en het Amerikaanse Congres, roffelden dreigend op hun trommels. Wat mij nog het meest verbaasd is dat in de VS de rechtzaken over het Book Search project zich lijken te concentreren op Fair Use. Volgens insiders mogen de snippets getoond worden op grind van het fair use principe. In Europa, echter, schijnt zoiets niet te bestaan. Hier zou dat dus niet kunnen. Ik ben benieuwd wanneer dit tot een schisma gaat leiden en resulteren in een Amerikaanse en Europese Google Book Search programma.
De concurrenten van Google hebben zich verenigd in de Open Content Alliance (OCA). Begin oktober kwamen ze voor de dag met hun eerste persbericht. Onder de partners ondermeer Yahoo! die de zoektechnologie voor de OCA site zal leveren en het Internet Archive waar de boeken gearchiveerd zullen worden. Bij het Internet Archive is hier al ervaring mee opgedaan in het kader van hun zeer ambitieuze Million Book Project. Het internet archive heeft hier ongeveer 11,000 rechtenvrije boeken gearchiveerd. Zij hebben niet als enige zo’n project: een ander ‘million book project’ is van de University of Michigan en gaat door het leven als de Universal Library. Een proeve van bekwaamheid van het Internet Archive is hun Open Library site waarop waar nog maar 15 boeken staan. Daar is trouwens sindsdien niets aan toegevoegd. Partners HP en Adobe zullen voor de Open Content Alliance vooral technologie leveren voor het scannen, digitaliseren, herkennen en indexeren van de teksten. Klap op de vuurpijl was de aansluiting van Microsoft bij deze organisatie. Microsoft kwam weliswaar wat later op dit elektronische boekenbal, maar heeft wel de diepste zakken van de OCA partners. Microsoft stelt $5 miljoen beschikbaar, voldoende om ongeveer 150.000 boeken te digitaliseren. OCA gaat de problemen uit de weg die Google zich op de hals haalde, door zich voorlopig alleen op rechtenvrije werken te richten. In een apart project hebben nu ook de British Library en Microsoft een samenwerkingsverband aangekondigd om 100.000 rechtenvrije boeken van die collectie te gaan digitaliseren. Microsoft lijkt vooral zijn e-book reader te willlen promoten. Ondertussen zijn een aantal grote Amerikaanse universiteitsbibliotheken die zich hebben aangesloten bij dit project. De lijst van deelnemers groeit gestaag.
Wat veel minder de pers heeft gehaald, is dat wat OCA en Google doen al ouder is dan het Web zelf. Project Gutenberg (PG) startte in 1971 met het digitaliseren van het eerste boek. Sindsdien zijn er via dit project ruim 17.000 boeken gedigitaliseerd, waaronder 143 Nederlandstalige boeken. Voorheen waren alleen de metadata van de boeken doorzoekbaar, maar sinds kort zijn die boeken ook volledig doorzoekbaar op de PG site zelf.
Naast PG zijn er talloze initiatieven en projecten geweest om boeken te digitaliseren. Het probleem met al deze projecten is dat het allemaal kleine zelfstandige projecten zijn, en een overkoepelende zoek-interface voor al die afzonderlijke projecten en gedigitaliseerde werken ontbreekt. Dit is een punt waar alle bibliotheken en archieven het gezamenlijk hebben laten afweten. Daarom komen er nu initiatieven van softwaregiganten om al die informatie, en nog en nog meer, beter te organiseren. Eigenlijk een klus waarop bibliotheken zich al jaren op lopen te beroepen, maar waar ze nooit adequaat aan toegekomen zijn. Helemaal nooit? Gelukkig er zijn enkele onderwerpsgidsen die via een logische indeling talloze van deze elektronische boeken bij elkaar zetten, of metadata doorzoekbaar maken. Enkele daarvan zijn:
Digital Book Index Digital (DBI) http://www.digitalbookindex.org/
Dit is de grootste onderwerpgids op het gebied van elektronische boeken op het web. Het linkt naar zowel vrij toegankelijke boeken als naar boeken die alleen tegen betaling verkrijgbaar zijn. Van de ruim 110.000 boeken opgenomen op deze site zijn er 72.000 vrij toegankelijk. DBI dekt de titels van Project Gutenberg, Bartleby.com en vele universiteitsbibliotheken die boeken hebben gedigitaliseerd. Daarnaast wordt samengewerkt met commerciële uitgevers zoals NetLibrary en Questia.
The Online Book Page (OBP) http://digital.library.upenn.edu/books/
Site van PennState Library geeft toegang tot ongeveer 20.000 boeken die vrij op het web beschikbaar zijn. Er wordt gewerkt aan het vergroten van de collectie door elektronisch te gaan oogsten van digitale archieven. Er kan gezocht worden op auteursnamen en titelwoorden. Sinds oktober 2005 kun je je laten attenderen via een RSS feed op de nieuwste aanwinsten.
Digitale bibliotheek voor de Nederlandse Letteren http://www.dbnl.org/.
In de Digitale Bibliotheek voor de Nederlandse Letteren wordt Nederlandse taal en literatuur verzameld. De site bevat literaire teksten, secundaire literatuur en aanvullende informatie als biografieën en portretten van schrijvers. De site biedt een goede navigatie, zowel op thema's als op tijdsperiode's, titels en auteurs. De zoekmachine is niet zo sterk, maar omdat de site volledig toegankelijk is volstaat een zoekactie met Google of Yahoo! die je beperkt tot dbnl.org door aan de zoekwoorden de opdracht [… site:dbnl.org] toe te voegen.
Universal Library http://www.ulib.org/
Is een project van de Carnegie Mellon University. De verzameling digitale boeken omvat bijna 36000 titels of bij 5 miljoen pagina’s. Het scannen gebeurd in China en India. Wat mijn het meest heeft bevreemd, dat deze collectie totaal geen aandacht lijkt te krijgen in alle nieuws rond Google Book Search en OCA.
Bronnen:
Price, G. (2004). Google partners with Oxford, Harvard & others to digitize libraries. Searchday. http://searchenginewatch.com/searchday/article.php/3447411.
Sherman, C. (2003). Google introduces book searches. Searchday. http://searchenginewatch.com/searchday/article.php/3290351.
Sullivan, D. (2004). Google print opens widely to publishers. Searchday. http://searchenginewatch.com/searchday/article.php/3417941.
Technorati tags: e-books; OCA; Google book search;
Google Book Search houdt de gemoederen al een tijdje bezig. Het grote tumult ontstond in december 2004 toen Google een samenwerking aankondigde met een drietal Amerikaanse universiteitsbibliotheken, University of Michigan, Harvard University en Stanford University de New York Public Library en de Bodleian Library in Oxford, Engeland (Price, 2004). Google zal de complete collectie scannen en doorzoekbaar maken. Eindelijk de droom die waarheid wordt voor veel mediathecarissen. Alle boeken volledig doorzoekbaar. Echter, slechts de rechtenvrije werken worden compleet getoond. Van de werken waar nog auteursrechten op rusten, zullen slechts kleine stukjes getoond worden, de snippets zoals we die ook van de standaard zoekresultaten kennen. Het vreemde aan het tumult rond Google Book Search is in feite dat het al een veel ouder programma is, dat juist was begonnen in samenwerking met uitgevers. In december 2003 werden de eerste resultaten van dit programma zichtbaar in de algemene Google index (Sherman, 2003). In oktober 2004 werd Google Print als apart programma voor uitgevers in het leven geroepen (Sullivan, 2004). Afgelopen november werd de naam van Google Print veranderd in de huidige naam Google Book Search.
Terwijl het boekenscanprogramma van Google een tijdje heeft stil gelegen. Vooral om betrokken partijen beter te informeren, allianties te sluiten en belangrijke uitgevers over de streep te halen. Is het aantal processen dat Google ondertussen aan de broek heeft gekregen is wel toegenomen. Niet alleen de uitgevers tegen Google, maar ook consumentenorganisaties, Europese regeringsleiders, en het Amerikaanse Congres, roffelden dreigend op hun trommels. Wat mij nog het meest verbaasd is dat in de VS de rechtzaken over het Book Search project zich lijken te concentreren op Fair Use. Volgens insiders mogen de snippets getoond worden op grind van het fair use principe. In Europa, echter, schijnt zoiets niet te bestaan. Hier zou dat dus niet kunnen. Ik ben benieuwd wanneer dit tot een schisma gaat leiden en resulteren in een Amerikaanse en Europese Google Book Search programma.
De concurrenten van Google hebben zich verenigd in de Open Content Alliance (OCA). Begin oktober kwamen ze voor de dag met hun eerste persbericht. Onder de partners ondermeer Yahoo! die de zoektechnologie voor de OCA site zal leveren en het Internet Archive waar de boeken gearchiveerd zullen worden. Bij het Internet Archive is hier al ervaring mee opgedaan in het kader van hun zeer ambitieuze Million Book Project. Het internet archive heeft hier ongeveer 11,000 rechtenvrije boeken gearchiveerd. Zij hebben niet als enige zo’n project: een ander ‘million book project’ is van de University of Michigan en gaat door het leven als de Universal Library. Een proeve van bekwaamheid van het Internet Archive is hun Open Library site waarop waar nog maar 15 boeken staan. Daar is trouwens sindsdien niets aan toegevoegd. Partners HP en Adobe zullen voor de Open Content Alliance vooral technologie leveren voor het scannen, digitaliseren, herkennen en indexeren van de teksten. Klap op de vuurpijl was de aansluiting van Microsoft bij deze organisatie. Microsoft kwam weliswaar wat later op dit elektronische boekenbal, maar heeft wel de diepste zakken van de OCA partners. Microsoft stelt $5 miljoen beschikbaar, voldoende om ongeveer 150.000 boeken te digitaliseren. OCA gaat de problemen uit de weg die Google zich op de hals haalde, door zich voorlopig alleen op rechtenvrije werken te richten. In een apart project hebben nu ook de British Library en Microsoft een samenwerkingsverband aangekondigd om 100.000 rechtenvrije boeken van die collectie te gaan digitaliseren. Microsoft lijkt vooral zijn e-book reader te willlen promoten. Ondertussen zijn een aantal grote Amerikaanse universiteitsbibliotheken die zich hebben aangesloten bij dit project. De lijst van deelnemers groeit gestaag.
Wat veel minder de pers heeft gehaald, is dat wat OCA en Google doen al ouder is dan het Web zelf. Project Gutenberg (PG) startte in 1971 met het digitaliseren van het eerste boek. Sindsdien zijn er via dit project ruim 17.000 boeken gedigitaliseerd, waaronder 143 Nederlandstalige boeken. Voorheen waren alleen de metadata van de boeken doorzoekbaar, maar sinds kort zijn die boeken ook volledig doorzoekbaar op de PG site zelf.
Naast PG zijn er talloze initiatieven en projecten geweest om boeken te digitaliseren. Het probleem met al deze projecten is dat het allemaal kleine zelfstandige projecten zijn, en een overkoepelende zoek-interface voor al die afzonderlijke projecten en gedigitaliseerde werken ontbreekt. Dit is een punt waar alle bibliotheken en archieven het gezamenlijk hebben laten afweten. Daarom komen er nu initiatieven van softwaregiganten om al die informatie, en nog en nog meer, beter te organiseren. Eigenlijk een klus waarop bibliotheken zich al jaren op lopen te beroepen, maar waar ze nooit adequaat aan toegekomen zijn. Helemaal nooit? Gelukkig er zijn enkele onderwerpsgidsen die via een logische indeling talloze van deze elektronische boeken bij elkaar zetten, of metadata doorzoekbaar maken. Enkele daarvan zijn:
Digital Book Index Digital (DBI) http://www.digitalbookindex.org/
Dit is de grootste onderwerpgids op het gebied van elektronische boeken op het web. Het linkt naar zowel vrij toegankelijke boeken als naar boeken die alleen tegen betaling verkrijgbaar zijn. Van de ruim 110.000 boeken opgenomen op deze site zijn er 72.000 vrij toegankelijk. DBI dekt de titels van Project Gutenberg, Bartleby.com en vele universiteitsbibliotheken die boeken hebben gedigitaliseerd. Daarnaast wordt samengewerkt met commerciële uitgevers zoals NetLibrary en Questia.
The Online Book Page (OBP) http://digital.library.upenn.edu/books/
Site van PennState Library geeft toegang tot ongeveer 20.000 boeken die vrij op het web beschikbaar zijn. Er wordt gewerkt aan het vergroten van de collectie door elektronisch te gaan oogsten van digitale archieven. Er kan gezocht worden op auteursnamen en titelwoorden. Sinds oktober 2005 kun je je laten attenderen via een RSS feed op de nieuwste aanwinsten.
Digitale bibliotheek voor de Nederlandse Letteren http://www.dbnl.org/.
In de Digitale Bibliotheek voor de Nederlandse Letteren wordt Nederlandse taal en literatuur verzameld. De site bevat literaire teksten, secundaire literatuur en aanvullende informatie als biografieën en portretten van schrijvers. De site biedt een goede navigatie, zowel op thema's als op tijdsperiode's, titels en auteurs. De zoekmachine is niet zo sterk, maar omdat de site volledig toegankelijk is volstaat een zoekactie met Google of Yahoo! die je beperkt tot dbnl.org door aan de zoekwoorden de opdracht [… site:dbnl.org] toe te voegen.
Universal Library http://www.ulib.org/
Is een project van de Carnegie Mellon University. De verzameling digitale boeken omvat bijna 36000 titels of bij 5 miljoen pagina’s. Het scannen gebeurd in China en India. Wat mijn het meest heeft bevreemd, dat deze collectie totaal geen aandacht lijkt te krijgen in alle nieuws rond Google Book Search en OCA.
Bronnen:
Price, G. (2004). Google partners with Oxford, Harvard & others to digitize libraries. Searchday. http://searchenginewatch.com/searchday/article.php/3447411.
Sherman, C. (2003). Google introduces book searches. Searchday. http://searchenginewatch.com/searchday/article.php/3290351.
Sullivan, D. (2004). Google print opens widely to publishers. Searchday. http://searchenginewatch.com/searchday/article.php/3417941.
Technorati tags: e-books; OCA; Google book search;
Labels: Dutch
