¿Cómo realizar Web Scraping con ChatGPT?

En 30 de noviembre de 2022, se lanzó ChatGPT, un nuevo modelo de lenguaje. ChatGPT rompió un umbral en las áreas de integración de datos, expresión lógica y actualización automática. Basado en el modelo GPT-3.5 de OpenAI y mejorado, ChatGPT empujará probablemente ajustes industriales y una tormenta ética.

Como lo que vimos en los ejemplos en Internet, ChatGPT puede entender las lógicas de un ser humano y responder preguntas desde una vista humana. Su función es suficiente fuerte para realizar tareas del usuario, como dar consejos sobre problemas personales, escribir tesis o scripts, analizar texto o datos, incluso pintar, etc. 

Así que nos viene la pregunta: ¿se puede realizar el Web Scraping con ChatGPT? y ¿cómo lo usamos?. A continuación, intentaremos responder esta pregunta y compararemos los pros y cons de ChatGPT con las herramientas de Web Scraping.

¿Qué es ChatGPT?

Hemos tenido un poco de idea sobre ChatGPT. Pero realmente ¿qué es?

Como su nombre indica, se diseñó ChatGPT como un robot visual para tener conversación fluida con un ser humano pero por su función fuerte, también podemos realizar algunas tareas con su ayuda mejorando la eficiencia. Al lanzar este producto, se estalló la discusión sobre ChatGPT (opiniones divergentes, incluidos aplausos y críticas). 

Se puede utilizar rápidamente chatGPT para obtener directamente conclusiones en lugar de la propia información, y su velocidad superó la velocidad actual de búsqueda automática y figuración de resumen, por lo que el modelo puede destacar en big data, especialmente en la industria de análisis de datos. En estas industrias hay una gran cantidad de necesidades de la integración de datos y simple resumen de conclusiones. Aunque estas lógicas son sencillas, se tarda mucho tiempo en sacar una conclusión simple con los recursos humanos debido al complejo calibre estadístico y a los costes de comunicación.

En cuanto al rendimiento actual de GPT, si combinamos nuestra propia base de datos con datos de Internet e introducimos cada día un conjunto fijo de preguntas, podemos ahorrarnos al menos el 50% de nuestro trabajo diario, mientras que los analistas pueden dividirse en ingenieros de datos y analistas que se basan exclusivamente en la lógica.

¿Se puede combinar ChatGPT en el proceso del Web Scraping?

La respuesta sin duda es sí. ChatGPT puede ayudarte a escribir códigos para el Web Scraping en segundos. Muchos internautas han confirmado este punto aunque con las ordenes simples (como hablar con él: que me scrapee tal sitio con Python) a veces no funciaría bien. Como preparación previa, necesitamos registrarnos en ChatGPT, y preparar Python y la biblioteca Beautifulsoup.

A lo siguiente, vamos a ver los pasos detallados para que ChatGPT escriban los scripts para hacer luego Web Scraping de datos.

Un ejemplo de la combinación de ChatGPT y web scraping

Los pasos son muy fáciles en aplicar. Primero, digamos a ChatGPT a escribir un script para Web Scraping . Aquí tomamos una página web de imdb como el ejemplo y decimos a ChatGPT “escribirme un script para scrapear https://www.imdb.com/chart/top/?ref_=nv_mv_250“.

Al “Enviar”, ChatGPT empezará a generar un código para Web Scraping del sitio de IMDb. ChatGPT responderá con los pasos específicos de implementación y el código fuente completo en Python como se puede ver en la siguiente captura de pantalla. 

El resultado scrapeado con el script generado automáticamente por chatGPT será una lista de diccionarioscon el título y el año de cada una de las 250 películas mejor valoradas en IMDb.

Si necesitas adjuntar en un archivo el código o editar los campos de datos scrapeados, también solo necesitarás solicitarlo. ChatGPT dice: el caso de IMDb es solo un ejemplo básico de web scraping con Python y BeautifulSoup usando ChatGPT. Puedes personalizar este código para adaptarse a tus necesidades específicas y extraer la información que necesitas de cualquier sitio web.

Cuando confirmes que los datos que se scrapearán son los que necesitas de la página web, es hora de copiar el script (hacer clic en “Copy code” que está a la esquina derecha de arriba) y ejecutarlo en webscrape.py para probar si el resultado es lo que esperamos.

Herramientas de web scraping con funciones de ChatGPT

Para los programadores, ChatGPT será una buena herramienta para ahorrarles el tiempo en el proceso de Web Scraping. Y con la inteligencia de ChatGPT, se ajuste a más necesidades flexibles de datos que las herramientas de Web Scraping. Mientras que para los usuarios que no saben de la codificación o prefieren no escribir códigos, pueden usar las herramientas de Web Scraping.

Aquí tomamos Octoparse como ejemplo. Es una herramienta de Web Scraping que permite a los usuarios extraer datos de sitios web de manera automatizada. Octoparse es fácil de usar y permite a los usuarios crear tareas de web scraping sin tener que escribir código. Con solo hacer clics e ingresar URLs, los usuarios pueden scrapear datos automáticamente de más de 90% de sitios web.

Tiene una amplia variedad de características, como la capacidad de exportar datos a diversos formatos como Excel, CSV, HTML, Google Sheets o base de datos, la posibilidad de programar tareas automáticas a intervalo regular y la capacidad de manejar sitios web dinámicos mediante la simulación de clics y desplazamiento. Además proporciona herramienta de Xpath, expresión regular, rotación de IP para los usuarios cuando tienen variedades de necesidades de datos.

Recientemente, Octoparse ha desarrollado un software RPA que permite una mayor integración de la IA con el web scraping, donde la recopilación de datos básicos ya es pan comido gracias a una sencilla biblioteca de lenguaje con Chatgpt incorporado.

Conclusión

ChatGPT, como un modelo de lenguaje recién nacido, sin duda aún tiene muchos lugares por perfeccionar. Así es una de las razones de que la empresa OpenAI proporciona la versión gratuita para el público. Sin embargo, no podemos negar que ChatGPT como una fuerza innegable estimulará cambios en algunos trabajos incluso en algunas industrias. Por ejemplo, como lo que hemos visto en este blog, se puede usar ChatGPT para el Web Scraping, lo que facilitará en cierta medida los trabajos de Web Scraping. Y si tienes mayores necesidades de datos o para tener una experiencia mejor en el ChatGPT, puedes actualizar tu plan al avanzado. 

Comparando con las herramientas de Web Scraping (Web Scrapers), ChatGPT en este aspecto les puede ayudar mejor a los programadores en la codificación, especialmente en el ahorro de tiempo y la subida de eficiencia. Mientras que si aún sabes poco del Web Scraping y la codificación pero tienes necesidades de scrapear datos, puedes probar herramientas como Octoparse para hacer Web Scraping sin códigos.


已发布

分类

作者:

标签

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注