Todos sabemos que los productos de los supermercados tienen códigos de barras que nos permiten encontrarlos en distintas tiendas. Comparando precios y existencias en distintos supermercados, a menudo es más fácil concluir qué artículos se venden mejor. En este artículo, hablaremos sobre cómo extraer datos de productos disponibles públicamente de Mercadona y si es legal realizar data scraping sobre ellos. Ahora empecemos.
¿Qué es Mercadona?
El Monitor Empresarial de Reputación Corporativa (Merco) ha publicado los resultados de su «Ranking General de Empresas 2024», destacando a Mercadona como la empresa más reputada del sector y la segunda a nivel global.
Mercadona es una cadena de supermercados española fundada en 1977 como cadena de tiendas de ultramarinos y adquirida por Juan Roig en 1981. Su modelo de negocio es el de una típica tienda de barrio, que atiende las necesidades diarias de productos de sus clientes a precios favorables y bajos. Se centra en reducir las actividades de marketing y disminuir los costes de envasado para ofrecer precios competitivos y descuentos. En el supermercado online de Mercadona, los usuarios pueden consultar los precios de los productos e incluso comprar artículos para su entrega a domicilio.
¿Qué tipo de datos podemos scrapear de Mercadona?
En la web oficial de Mercadona, podemos descargar muchos datos sobre los productos, como:
- Código postal: se utilizan los códigos postales de las diferentes regiones para recoger los productos que están en stock en la región correspondiente.
- Nombre del producto
- Propiedades del producto – Peso del producto/número de piezas
- Precio
- Imagen del producto – URL
¿Es legal el web scraping de Mercadona?
Como tecnología informática, el rastreo de datos no personales de acceso público es perfectamente legal. Incluso ahora, millones de empresas siguen rastreando y rastreando. Uno de sus usos originales era organizar la información en línea para su indexación. Lo que importa es cómo se van a utilizar los datos capturados. La legitimidad del crawling no reside en la extracción de datos. En cada caso, debemos saber si nuestro uso de esos datos es legítimo.
Maneras para extraer datos de productos de Mercadona
En la era del big data, hay muchas formas de acceder a estos datos disponibles públicamente. Si usted tiene algún conocimiento de lenguajes de programación, entonces usted no debe ser desconocido con el raspado de datos también.Python es una forma comúnmente utilizada para obtener datos, e incluso muchas de las herramientas de raspado de datos fáciles de usar se basan en el principio de recolección en Python.En la siguiente sección, vamos a mencionar tres maneras de extraer datos de mercancías de Mercadona: herramientas de raspado de datos sin código, Python, y APIs.
Herramienta de Web Scraper sin Código
Aunque hay muchos proveedores de recopilación de datos en el mercado dispuestos a proporcionar soluciones de datos, Octoparse quiere dar a los usuarios más espacio para la personalización, arrastrando y soltando comandos simples, los usuarios pueden obtener rápidamente los datos que desean sin ningún conocimiento de codificación.
Para facilitar la recopilación de datos, Octoparse ha simplificado de nuevo el sencillo flujo de trabajo en una plantilla de recopilación. La plantilla de recopilación de mercadona sólo requiere introducir el código postal de la zona y las palabras clave, y después hacer clic en iniciar para recopilar los datos. Repasemos juntos el proceso.
Paso 1: Vaya a la galería de plantillas, busque Mercadona Scraper y pruébela. (O entra directamente con el enlace siguiente )
https://www.octoparse.es/template/mercadona-scraper
Paso 2: Introduzca su código postal y las palabras clave. En este caso, introduciremos el código postal 08030 de Barcelona y la palabra clave Helado.
Paso 3: Haz clic en Ejecutar en Web. (Se recomienda utilizar la aplicación de escritorio para una extracción de datos más estable).
Paso 4: Espere a que se ejecuten y exporten los datos.
¡Mira! ¿No es muy sencillo? ¿Por qué no lo pruebas tú también?
Extracción de datos mediante Python
En realidad, el principio de Python es obtener información valiosa sobre todos los productos utilizando un marco de trabajo, por ejemplo, recogiendo mediante programación los valores de los atributos de la página html.
Por ejemplo, el html de la lista de productos del supermercado mercadona es el siguiente :
<li id="producto1" ..>
<div>
<p class="nombreprod">Nombre producto</p>
<p class="precioprod">Precio</p>
<p class="catprod">Categoría</p>
...
</div>
</li>
<li id="producto2"..>
...
Entonces Python está extrayendo el atributo p de todos los li en una tabla. Para lograr este paso, es necesario tener cierta comprensión y conocimiento de python, y hay un montón de conocimiento disponible en Github sobre cómo capturar datos de Mercadona a través de python.
Mercadona API
Además de utilizar herramientas de recopilación de datos y métodos de programación en Python, también se puede acceder a los datos a través de interfaces API. Antes de empezar, es necesario disponer del código de la API para la plataforma (que puede no estar disponible públicamente), así como tener conocimientos sobre el funcionamiento de la API. Normalmente, esto es más adecuado para personas que tienen una base de datos o están a punto de construir una.
Conclusión
El desarrollo futuro de los supermercados y los datos deben estar inextricablemente unidos. Con este fin, podemos someter los datos a cierta depuración y filtrado para mostrar la variación de los precios de diversos artículos, el tratamiento de la información de cabecera y la geografía de los cambios de existencias.
Cabe señalar que en un próximo artículo exploraremos cómo recopilar datos de mercancías de supermercados distintos de Mercadona.
Hasta muy pronto!