Web scraping y procesamiento XML con PHP

web-scraping-xml-php

El web scraping es una técnica que permite leer el contenido de un sitio web mediante un software con la finalidad de extraer datos del sitio por ejemplo. Los motores de búsqueda como Google utilizan estas técnicas para analizar e indexar los contenidos de los sitios web. Además, entre los usos más comunes encontramos recolección de datos, comparación de precios, simulación de navegación, testing, etc.

Por otro lado, el uso del web scraping ha sido y es un poco controversial, debido a que muchas veces puede violar los términos y condiciones de uso de los sitios web; ya que como todas las tecnologías pueden ser usadas para bien o para mal.

En este artículo el objetivo es presentar la librería PHP Simple HTML DOM Parser ideal para realizar tareas de web scraping o manipulación y procesamiento de archivos XML. Lo particular de esta librería es que replica la forma de buscar elementos HTML de JQuery usando “selectors”, por lo que les resultará muy familiar a los usuarios del popular framework JavaScript.

Veamos un ejemplo de uso

Como ven es una librería extremadamente sencilla de usar y muy potente gracias a la combinación de PHP y JQuery. Puede ser empleada para procesar tanto contenido HTML extraído de sitios web como contenido XML recibido desde web services por ejemplo.

Funcionalidades interesantes

Permite modificar elementos HTML

Selectores descendientes

Selectores anidados

Uso de atributos mágicos

Además de todas las funcionalidades vistas en este artículo la librería Simple Html DOM parser proporciona muchas más características muy interesantes; también destacamos que es de libre uso bajo licencia MIT por lo que les recomiendo que la descarguen y prueben.

Manual:
http://simplehtmldom.sourceforge.net/manual.htm
Descarga:
http://simplehtmldom.sourceforge.net

GD Star Rating
loading...
Web scraping y procesamiento XML con PHP, 10.0 out of 10 based on 1 rating

Related Posts

Leave A Comment

Security Code:

Leer entrada anterior
8 temas premium HTML5 para clubes, ligas, torneos y eventos deportivos

En esta oportunidad les traemos un listado con 8 temas premium en HTML5, CSS y JavaScript para clubes, ligas, torneos...

Cerrar