Regex para extraer números

RegEx: Una Forma de Extraer Fácilmente Números de Teléfono

En el proceso de llevar a cabo actividades empresariales, la capacidad de obtener la información de contactos de los clientes potenciales está relacionada con la obtención o no de una mayor oportunidad. Entonces, ¿cómo extraer números de teléfono de páginas web de forma masiva? ¿O cómo extraer números de teléfono de archivos de texto o cadenas? Usando RegEx podemos fácilmente lograr la extracción y limpieza de datos, este artículo será un tutorial principalmente para no-codificadores y principiantes, ¡acérquense para aprenderlo!

I. ¿Qué es la RegEx(una expresión regular)?

En primer lugar, tenemos que entender qué es RegEx antes de empezar.


Las abreviaturas regex y regexp denotan expresiones regulares utilizadas en informática teórica, programación, desarrollo de software, procesamiento de textos y optimización de motores de búsqueda.

– Referencia de Wikipedia

Las expresiones regulares pueden utilizarse para describir cadenas y números de cadenas de una forma lógica de propósito general, de modo que puedan buscarse, sustituirse, manipularse o procesarse en documentos, código fuente o bases de datos.

Los usos de las expresiones regulares son muy diversos. La representación de las expresiones regulares depende de la notación. Los distintos lenguajes de programación tienen representaciones diferentes. Estas notaciones se denominan nombres de patrones de shell, BRE (Expresiones Regulares Básicas) y ERE (Expresiones Regulares Extendidas).

Sus diferencias se deben a veces a los caracteres individuales utilizados en el lenguaje de programación, especialmente los metacaracteres (caracteres de control).

II. ¿Por qué utilizar la RegEx para extraer números de teléfono?

Pongamos un ejemplo: quieres extraer todas las direcciones de correo electrónico de una página web a la vez, y el sitio contiene innumerables direcciones de correo electrónico esparcidas aleatoriamente por todas partes.

En este caso, puede utilizar la fórmula “CONTROL + F” para buscar el símbolo “@“, porque no hay duda de que las direcciones de correo electrónico contienen el símbolo “@“.

Lo mismo se aplica a la extracción de números de teléfono, ya que se ajustan a una determinada estructura fija, a la que Regex puede apuntar en un gran número de datos de información de acuerdo con una determinada estructura.

Si puedes escribir una RegEx que especifique el mismo patrón para estos números de teléfono, puedes introducir el código a través de la función “Buscar” de un editor de texto que maneje expresiones regulares (como Notepad++), y los datos que buscas aparecerán ante tus ojos.

III. ¿Cómo escribir RegEx? (reglas básicas de las expresiones regulares)

Si desea utilizar una expresión regular para extraer números de teléfono pero no sabe cómo escribir dicha expresión, este artículo puede proporcionarle algunas buenas herramientas regex que le ayudarán a escribir rápidamente la expresión regular correcta.

Aprendiendo los Fundamentos de la RegEx

Aprender la RegEx desde cero lleva tiempo. Sin embargo, si usas la RegEx mucho en tu trabajo diario y puede mejorar significativamente tu productividad, entonces vale la pena.

NotaciónExplicación
[abc]Los corchetes “[” y “]” definen la selección de caracteres. Indica que se ha encontrado un campo que contiene estos caracteres.
[a-e]Un guión define un área específica. El ejemplo busca los caracteres a, b, c, d y e. Aquí también se aplica sólo uno de los caracteres.
[a-zA-Z0-9]La selección de caracteres también puede tener una pluralidad de grupos y caracteres individuales. En el ejemplo, la selección de caracteres corresponde a las letras minúsculas de la a a la z, las letras mayúsculas de la A a la Z y los números del 0 al 9.
[0-9]Los guiones también pueden utilizarse con números. Este ejemplo representa los números del 0 al 9.
[^a]El carácter “^” al principio de una selección de caracteres la niega. Esto significa que encontraría todos los caracteres excepto el que va después del “^”.
^aSi este carácter no está dentro de un corchete, significa que representa el principio de un texto.
a$Este carácter indica el final de una línea o de una cadena de caracteres.
.El punto representa cualquier carácter y, por tanto, puede encontrar cualquier carácter.
a*El carácter delante de la estrella puede aparecer tantas veces como quieras.
.*El punto y el asterisco en combinación pueden encontrarse en cualquier número de caracteres.
a+El carácter que precede al “+” debe aparecer al menos una vez.
ab{2}Los caracteres que lo preceden deben encontrarse exactamente dos veces.
ab?El signo de interrogación significa que el carácter puede aparecer, pero no es obligatorio.
(a|A)El “|” actúa como “O”. Sólo puede aparecer uno de los dos caracteres (cadenas).
$1Es la referencia hacia atrás de un grupo o un subpatrón. Especialmente importante para buscar y reemplazar. “$1” se refiere al primer grupo de corchetes.

Dado que las reglas básicas para principiantes son bastante complejas, no volveremos sobre ellas.

Si quieres aprovechar RegEx de una manera más sencilla, la herramienta RegEx será perfecta para ti.

Apóyate en la Inteligencia Artificial (ChatGPT)

Las herramientas de IA están tan avanzadas hoy en día que podemos escribir expresiones regulares con ChatGPT igual que puede escribir código de rastreo (artículo relacionado con Chatgpt). Es más adecuado para los no-codificadores y novatos.

O bien especificas lo que quieres, por ejemplo “Escríbeme una expresión regular para extraer todas las cadenas de números que empiecen por 0 y terminen por 1 hasta 9”, o das una petición con certeza, por ejemplo “Escribe una expresión criterio para encontrar números en el texto de una llamada telefónica en español…”, y la IA lo hará por ti. “, AI te proporcionará un buen código:

Uso de la herramienta de RegEx Octoparse

Octoparse es un software de extracción de datos que incluye una herramienta RegEx en su software que facilita la limpieza de datos. Puede utilizarla para extraer datos que empiecen o terminen con o contengan elementos específicos. (Descargar Octoparse ahora)

Ver más Tutoriales sobre RegEx:

Refinar los datos extraídos

Herramienta de Expresión Regular de Octoparse

Ejemplo de la extracción de número de teléfono con RegEx

Pueden ser varios números de teléfono en una sola cadena grande, y estos números de teléfono pueden estar en diferentes formatos. A continuación se muestra un ejemplo de formato de archivo:

– (021)1234567
– (123) 456 7899
– (123).456.7899
– (123)-456-7899
– 123-456-7899
– 123 456 7899
– 1234567899
– 0511-4405222
– 021-87888822
– +8613012345678
– ..

¿Cuál es el método más sencillo para extraer un número de teléfono como éste? Ahora vamos a utilizar la herramienta para generar expresiones regulares y encontrar todos los números de teléfono rápidamente.

En primer lugar, encontrar el carácter común que cada número de teléfono comienza y termina con. Por ejemplo, para el texto de destino anterior, encuentro el código fuente que se muestra a continuación.

<p>Este es un ejemplo de formato de archivo</p>
<ul>
<li>(021)1234567 </li>
<li>(123) 456 7899 </li>
<li>(123).456.7899 </li>
<li>(123)-456-7899 </li>
<li>123-456-7899 </li>
<li>123 456 7899 </li>
<li>1234567899 </li>
<li>0511-4405222 </li>
<li>021-87888822 </li>
<li>+8613012345678 </li>
<li>... </li>
</ul>

Cada número de teléfono empieza por <li> y termina por </li>.

Podemos utilizar la herramienta RegEx de Octoparse para extraer rápidamente todos los números de teléfono.

  • Inicie Octoparse y abra la herramienta RegEx.
  • Copie el código fuente y péguelo en el campo “Texto original“.
  • A continuación, seleccione la opción “Empezar con” y escriba “<li>”.
  • A continuación, seleccione la opción “Terminar con” y escriba “</li>”.
  • No olvides seleccionar la opción “Coincidir todo”.
  • Haga clic en “Match”.

Conclusión

El progreso tecnológico nunca es fácil, y la historia del origen de las expresiones regulares Regex lo demuestra. (Qué son y cómo usar expresiones regulares RegEx)

En este artículo intentamos limpiar y extraer la información que necesitamos (como números de teléfono) usando expresiones regulares RegEx en Octoparse, y no se puede negar que nos aporta una mayor eficiencia. Si tienes conocimientos de Python o una base de programación, también puedes utilizar una de las bibliotecas de RegEx para filtrar y limpiar datos, que merece la pena explorar.

Espero que hayas disfrutado de este artículo y ¡muchas gracias por leerlo!


已发布

分类

作者:

标签

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注