Scrapear datos de resultados de duckduckgo search

Cómo Scrapear informaciones de DuckDuckGo Search

Este artículo, aclarémoslo al principio, no trata del juego infantil Duck, Duck, Goose, sino de un buscador de Internet cuyo nombre hace referencia a este famoso juego.

DuckDuckGo ocupa una posición de producto distinta en el mercado en contraste con otros motores de búsqueda como Google y Microsoft Bing, que utilizan un algoritmo para ofrecer resultados de búsqueda individualizados. Hace hincapié en proteger la privacidad de los buscadores y evitar la burbuja de filtros mediante el uso de diversas API de otros sitios web para mostrar resultados rápidos en lugar de mostrar resultados de búsqueda procedentes de granjas de contenidos. Según su web oficial, este buscador tiene unos 3.000 millones de búsquedas mensuales y 6 millones de descargas mensuales.

Por lo tanto, vamos a encontrar los sencillos pasos para raspar los resultados de búsqueda DuckDuckGo y exportar a archivos Excel.

Sobre el Web Scraping de DuckDuckGo – FAQs

¿Es legal el web scraping de DuckDuckGo?

La mayoría de las veces, el web scraping es aceptable siempre que no se extraiga información privada. Sin embargo, en ocasiones es posible infringir las condiciones de servicio del sitio web de destino al extraer datos de una plataforma. Incumplir las condiciones de servicio no significa que sea ilegal en absoluto, pero el sitio web podría emprender acciones legales contra ti por incumplimiento de contrato. Para evitar situaciones desagradables como ésta, te recomendamos encarecidamente que leas las condiciones del servicio antes de lanzar tu scraper.

¿DuckDuckGo tiene APIs?

La respuesta es SÍ. En su página de ayuda, DuckDuckGo afirma que anima a los usuarios a utilizar sus API oficiales. Anteriormente, DuckDuckGo proporcionaba una API de respuesta instantánea. No es una API de resultados de búsqueda completa que contenga todos los enlaces. Sin embargo, actualmente no hay detalles adicionales de la API disponibles en DuckDuckGo. Si te interesa y quieres saber más, es posible que tengas que leer detenidamente toda la página de ayuda o ponerte en contacto con los desarrolladores a través de la página oficial.

4 pasos para extraer los resultados de DuckDuckGo Search

En lugar de APIs, mostraremos cómo puedes extraer resultados de búsqueda de DuckDuckGo con Octoparse. Es una herramienta fácil de usar para el web scraping. Todos los usuarios pueden recopilar resultados de búsqueda completos de DuckDuckGo con ella, independientemente de sus conocimientos de codificación.

Puede descargar e instalar Octoparse en su dispositivo si es la primera vez que lo utiliza. Debes crear una cuenta gratuita al iniciar la aplicación para iniciar sesión. Después de iniciar sesión con éxito, puedes seguir los siguientes pasos para raspar los resultados de DuckDuckGo Search.

Paso 1: Crear una nueva tarea

Copia y pega la URL de la página de resultados de búsqueda en la barra de búsqueda de Octoparse. A continuación, haga clic en “Iniciar” para crear una nueva tarea. La página de destino se cargará en el navegador integrado de Octoparse en cuestión de segundos.

Paso 2: Seleccionar los campos de datos deseados

Una vez que la página haya terminado de cargarse, haga clic en “Detectar automáticamente los datos de la página web” en el panel de sugerencias. Al hacer esto, Octoparse escaneará la página web y le dará algunas alternativas de datos. Los campos de datos detectados aparecerán resaltados en la página para que pueda comprobar si Octoparse ha hecho una “suposición” correcta. También puede previsualizar los datos en la parte inferior y eliminar los campos de datos que no desee.

Paso 3: Crear y modificar el flujo de trabajo

Después de seleccionar todos los campos de datos que necesita, haga clic en “Crear workflow“. Aparecerá un flujo de trabajo en la parte derecha de la pantalla. Presenta cada paso del proceso de scraping. Puede leerlo de arriba a abajo, y de dentro a fuera en acciones anidadas. Puede previsualizar cada paso haciendo clic en cada etapa y verificando que funciona correctamente. Es posible que no obtenga ningún dato si el flujo de trabajo no funciona bien.

Paso 4: Ejecutar la tarea

Haga clic en “Ejecutar” para iniciar el scraper una vez que haya comprobado todos los detalles. Hay dos formas de ejecutar la tarea. Cuando su proyecto es pequeño o sólo necesita una ejecución rápida, puede ejecutarla en su dispositivo local. Mientras que los proyectos grandes son más adecuados para ser transferidos a los servidores en la nube de Octoparse. Sólo tiene que elegir una opción y Octoparse se encargará del resto. Una vez finalizada la ejecución de la tarea, puede exportar los datos a un archivo Excel, CSV o JSON según desee.

Crear un crawler de DuckDuckGo con Python

Construir un crawler con Python es una excelente solución API alternativa para raspar datos de DuckDuckGo si estás familiarizado con el lenguaje. Aquí tienes un código de ejemplo como referencia para crear tu rastreador de DuckDuckGo.

from requests_html import HTMLSession

session = HTMLSession()
response = session.get('https://duckduckgo.com/?q=fus+ro+dah&kl=us-en')
response.html.render()

for result in response.html.find('.links_deep'):
title = result.find('.js-result-title-link', first=True).text
link = result.find('.result__extras__url', first=True).text
snippet = result.find('.js-result-snippet', first=True).text
icon = f"https:{result.find('img.result__icon__img', first=True).attrs['data-src']}"
print(f'{title}\n{link}\n{snippet}\n{icon}\n')

------------------
'''
Urban Dictionary: Fus ro dah
https://www.urbandictionary.com/define.php?term=Fus ro dah
Fus ro dah. Literally means Force, Balance, and Push. The first dragon
shout you learn in The Elder Scrolls V: Skyrim.
In their tongue he is known as Dovahkiin, Dragonborn, Fus ro dah.
https://external-content.duckduckgo.com/ip3/www.urbandictionary.com.ico

Fus Ro Dah - Instant Sound Effect Button | Myinstants
https://www.myinstants.com/instant/fus-ro-dah/
Instant sound effect button of Fus Ro Dah . Fus Ro Dah. From skyrim. 8,072 users favorited this sound button.
https://external-content.duckduckgo.com/ip3/www.myinstants.com.ico
...

Conclusión

DuckDcukGo es una plataforma en rápido crecimiento. Aunque ofrece algunas API oficiales, existen grandes soluciones alternativas. Hemos presentado cómo raspar los resultados de búsqueda con Octoparse o construir un raspador con Python. Tanto si eres bueno codificando como si no, puedes elegir el método que más te guste en este artículo para conseguir tu objetivo de web scraping.


已发布

分类

作者:

标签

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注