Social Icons

Press ESC to close

Anthropic: Milioni in Libri per Claude, Poi la Distruzione

2 Min Read

Il mondo dell’intelligenza artificiale non smette di stupire con i suoi metodi, e recentemente Anthropic, una delle aziende leader nel settore, ha catturato l’attenzione per un approccio davvero singolare alla digitalizzazione dei libri. Per potenziare il suo assistente AI, Claude, Anthropic avrebbe investito milioni di dollari nell’acquisto massivo di libri fisici. Questi volumi sono stati poi sottoposti a un processo di smontaggio e scansione per essere convertiti in file digitali. Una volta completata l’operazione, i libri originali sarebbero stati direttamente scartati.

Documenti emersi in sede legale hanno rivelato che già nel febbraio 2024, Anthropic aveva reclutato Tom Turvey, figura nota per il suo coinvolgimento nelle vicende legali di Google Books, affidandogli l’incarico di “acquisire libri da ogni parte del mondo”. Questa mossa strategica sembra chiaramente ispirata al modello di digitalizzazione libraria adottato da Google, che in passato era stato riconosciuto come “fair use” (uso lecito) dai tribunali.

Il giudice William Alsup ha effettivamente stabilito che la metodologia di scansione impiegata da Anthropic rientra nel concetto di fair use. La motivazione risiede nel fatto che i libri sono stati acquisiti legalmente, distrutti immediatamente dopo la scansione e i file digitali risultanti sono stati utilizzati esclusivamente per scopi interni, senza alcuna distribuzione esterna. Il giudice ha evidenziato come questa conversione possa essere vista come un metodo di elaborazione digitale “salva-spazio”, caratterizzato da quella “trasformatività” essenziale nel concetto di fair use. Tuttavia, le prime fasi di attività, che includevano pratiche considerate pirateria, hanno avuto un certo impatto sulla percezione della sua legalità.

L’addestramento delle intelligenze artificiali richiede una quantità enorme di dati testuali di alta qualità. La creazione di un “large language model” implica l’alimentazione di reti neurali con miliardi di parole per costruire relazioni complesse tra concetti e termini. La qualità dei dati è un fattore determinante per l’accuratezza e l’efficacia dell’output del modello. Per questo motivo, molte aziende AI sentono l’urgenza di accedere a contenuti editoriali di pregio e spesso non sono disposte a investire tempo in lunghe negoziazioni per i diritti.

Negli Stati Uniti, la “first sale doctrine” (dottrina della prima vendita) permette agli acquirenti di gestire i libri fisici di loro proprietà a piacimento, rendendo l’acquisto di volumi una sorta di “scappatoia” legale. Inizialmente, anche Anthropic aveva cercato di aggirare le questioni di copyright, ricorrendo persino all’uso di e-book piratati. Dopo un’attenta valutazione legale, l’azienda ha optato per alternative più sicure, decidendo infine di acquistare libri usati su larga scala per ottenere testi di addestramento di alta qualità e semplificare il processo di acquisizione dati.

Per accelerare drasticamente il processo di digitalizzazione, Anthropic ha adottato quella che viene definita “scansione distruttiva”. Milioni di dollari sono stati spesi per comprare un vasto numero di libri, aprirli, rifilarli (tagliando il dorso) e scansionarli in massa per generare file PDF leggibili automaticamente. Sebbene esistano tecnologie di scansione non distruttiva ormai mature, come quelle sviluppate da Internet Archive che consentono di preservare i volumi originali, l’approccio “distruttivo” di Anthropic ha inevitabilmente suscitato un ampio dibattito.

Punti salienti:

📚 Anthropic ha investito milioni di dollari nell’acquisto e nella scansione “distruttiva” di libri fisici per addestrare il suo assistente AI, Claude.

⚖️ Un giudice ha stabilito che il metodo di scansione rientra nel “fair use”, dato l’acquisto legale e la distruzione post-scansione dei libri.

🔄 L’addestramento AI richiede dati di alta qualità, e Anthropic ha privilegiato la scansione distruttiva per accelerare la digitalizzazione dei libri.

Categorized in:

Breaking AI,

Last Update: Giugno 28, 2025