Empreses com OpenAI (ChatGPT) i Google (Gemini, abans anomenat Bard) utilitzen rastrejadors per esborrar dades dels llocs web per entrenar grans models de llenguatge (LLM). També es poden usar per recuperar informació dels llocs web en temps real en resposta a les sol·licituds dels usuaris. Però si els llocs web opten per bloquejar els rastrejadors (i no es fa cap altre acord), res d’això està permès, amb conseqüències per a la qualitat dels models subjacents i la seva capacitat per recuperar informació del web, segons descobreix el Dr Richard Fletcher en un article a Reuters Institute.
Segons l’autor de l’article, a finals de 2023, el 48% dels llocs web de notícies més usats en deu països estaven bloquejant els rastrejadors d’OpenAI; un nombre més petit, el 24%, estava bloquejant el rastrejador d’IA de Google. Gairebé tots els llocs web (97%) que van decidir bloquejar el rastrejador d’IA de Google també estaven bloquejant els rastrejadors d’OpenAI.
La proporció de llocs web de notícies que bloquejaven OpenAI va variar considerablement segons el país, des del 79% als EUA fins al 20% a Mèxic i Polònia. Per a Google, les xifres oscil·laven entre el 60% a Alemanya i el 7% a Espanya i Polònia.
Els mitjans de comunicació amb un abast de notícies en línia relativament gran tenien una mica més de probabilitats de bloquejar els rastrejadors (de vegades anomenats “aranyes” o “bots”) d’IA que aquells amb un abast relativament petit, com les capçaleres de proximitat. Tots els tipus de mitjans de comunicació estaven bloquejant, però els llocs web de publicacions impreses tradicionals tenien més probabilitats de bloquejar-se que els de les emissores o els mitjans digitals.- Àmbit d’Estratègia (Il·lustració de Microsoft Copilot)