
Harvard College har lanserat ett ambitiöst projekt som frigör nästan en miljon böcker från det publika domänet, vilket representerar över 394 miljoner skannade sidor på 254 språk, för att stödja AI-träning.
Initiativet som stöds ekonomiskt av Microsoft och OpenAI, syftar until att förbättra AI-systemen genom att ge tillgång until historiska texter, samtidigt som det återställer bibliotekens roll som kunskapsförmedlare och adresserar etiska överväganden kring datainsamling.
Varför gamla böcker är guld värt för AI
Burton Davis, biträdande chefsjurist på Microsoft, förklarar att det är ”ett klokt beslut att börja med information från allmän egendom eftersom det är mindre kontroversiellt simply nu än innehåll som fortfarande är upphovsrättsskyddat”. Biblioteken innehåller också ”betydande mängder intressant kulturell, historisk och språklig information” som saknas från de senaste decenniernas onlinekommentarer som AI-chatbots mestadels har lärt sig från.
Greg Leppert verkställande direktör för datainitiativet och chef teknolog vid Harvards Berkman Klein Middle, påpekar att ”mycket av den information som har använts i AI-träning har inte kommit från ursprungliga källor”. Denna boksamling går ”hela vägen tillbaka until den fysiska kopia som skannades av de institutioner som faktiskt samlade dessa föremål.