OpenAI Lanza Crawler para Recopilar Datos

OpenAI ha lanzado un nuevo web crawler llamado “GPTBot” que recorrerá Internet en busca de contenido para entrenar a sus grandes modelos de lenguaje como GPT-4, que potencian a ChatGPT.

“Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades y seguridad en general”, dice una publicación en el sitio web de OpenAI.

Te puede interesar

Un estudio argentino afirma que el país necesita una estrategia de IA para no quedar rezagado

El secretario de Transporte de EE.UU. voló en el vuelo de demostración de un taxi aéreo eléctrico de BETA (video)

Brasil impulsa su agenda tecnológica: el regulador de telecomunicaciones Anatel debate ciberseguridad, IA y 6G

El gigante de la IA también afirma que GPTBot está “filtrado” para eliminar fuentes de pago, información personalmente identificable y texto que viole sus políticas.

Afortunadamente, OpenAI proporciona una manera fácil de bloquear GPTBot al agregar una entrada en el archivo robot.txt de un sitio web, un archivo que le dice a los web crawlers de motores de búsqueda como Google a qué pueden acceder.

Además, los administradores pueden personalizar qué partes de sus sitios GPTBot puede recorrer. Sus múltiples direcciones IP también están disponibles para un bloqueo fácil.

¡Manténganse Fuera! Hasta ahora, los grandes modelos de lenguaje detrás de ChatGPT se entrenaron con enormes cantidades de datos en línea recopilados hasta septiembre de 2021.

No hay forma de eliminar retroactivamente los datos que se recopilaron antes de esa fecha límite, pero bloquear su nuevo web crawler al menos protegerá a los sitios web que quieran mantenerlo fuera en el futuro.

Y puedes apostar a que muchos propietarios de sitios, que probablemente no estén interesados en que su contenido sea recopilado e imitado por una IA, ya están aprovechando esto.

Un ejemplo es la popular revista de ciencia ficción Clarkesworld, que anunció en X, antes conocido como Twitter, que estaba bloqueando a GPTBot.

El medio tecnológico The Verge ha hecho lo mismo en silencio, y ya están circulando innumerables artículos que brindan consejos sobre cómo bloquear al crawler.

Bichos Extraños Por supuesto, los web crawlers son, para bien o para mal, el alma de Internet moderno y no son nada nuevo. En muchos casos, se anima a los sitios web a permitir que los crawlers de Google y otros motores de búsqueda accedan para ayudar a aumentar su tráfico web.

Sin embargo, ahora muchos consideran que tenerlos recopilando datos para entrenar IA generativa es ir demasiado lejos.

Por ejemplo, una demanda reciente contra OpenAI argumenta que, dado que su chatbot se entrena con la escritura de todos sin permiso, desde libros hasta artículos disponibles en línea, constituye robo.

El hecho de que OpenAI haya seguido adelante y anunciado a GPTBot a pesar de la demanda podría sugerir que no está preocupada por su resultado. Por otro lado, al dar a los sitios web la opción de bloquear al crawler, también podría estar cubriendo sus huellas.

Etiquetas: ChatGPT

OpenAI Lanza Crawler para Recopilar Datos

Un estudio argentino afirma que el país necesita una estrategia de IA para no quedar rezagado

El secretario de Transporte de EE.UU. voló en el vuelo de demostración de un taxi aéreo eléctrico de BETA (video)

Brasil impulsa su agenda tecnológica: el regulador de telecomunicaciones Anatel debate ciberseguridad, IA y 6G

Redacción Espacio Tech

Noticias relacionadas

Un estudio argentino afirma que el país necesita una estrategia de IA para no quedar rezagado

El secretario de Transporte de EE.UU. voló en el vuelo de demostración de un taxi aéreo eléctrico de BETA (video)

Brasil impulsa su agenda tecnológica: el regulador de telecomunicaciones Anatel debate ciberseguridad, IA y 6G

Deja una respuesta Cancelar la respuesta

Más leidas

SpaceX avanza hacia una salida a bolsa que podría ubicarla entre las diez empresas de mayor valor de mercado del mundo

El Starship de SpaceX cambiará el costo del acceso al espacio: ¿qué impacto tendrá en los lanzadores europeos y chinos?

5 cosas que probablemente no sabías sobre el Sistema Solar

¿Por qué el CubeSat ATENEA que viajó a bordo de Artemis II fue tan importante para la ciencia espacial argentina?

¿Por qué Argentina tiene una de las capacidades más avanzadas de América Latina para ensayar satélites en tierra?

Lo último

El astronauta estadounidense que salió por primera vez al vacío y ayudó a preparar el camino hacia la era Apolo

¿Por qué el CubeSat ATENEA que viajó a bordo de Artemis II fue tan importante para la ciencia espacial argentina?

El Starship de SpaceX cambiará el costo del acceso al espacio: ¿qué impacto tendrá en los lanzadores europeos y chinos?

Brasil recibe el Congreso internacional sobre tecnología a nanoescala y física de vacío

Un estudio argentino afirma que el país necesita una estrategia de IA para no quedar rezagado

Sobre Nosotros

OpenAI Lanza Crawler para Recopilar Datos

Te puede interesar

Noticias relacionadas

Deja una respuesta Cancelar la respuesta

Más leidas

Lo último

Sobre Nosotros

Seguinos