Newsletter para devsEntra

Web scraping con Python: analizar el comportamiento del objetivo

Continuamos con nuestro #desafíoPython, ahora ya empezamos a observar como se comporta el ranking que queremos capturar y las herramientas de Python que tenemos para esta tarea.

¿Quieres disfrutar de todo el desafío con los problemas resueltos en vídeo?
Durante 9 horas de vídeo en castellano te cuento todos los detalles de como he creado esta aplicación. Apúntate al curso del Desafío Python

¿Qué hemos conseguido hasta ahora?

Hemos cumplidos los hitos 1 y 2 de la primera entrega. Puedes ver como avanza en la tercera y cuarta parte del desafío.

El código está disponible en este repositorio de GitHub, concretamente con la versión 0.1.

¿Qué dificultades nos hemos encontrado?

El requisito de conocer en profundidad muchos puntos de la sintaxis de Python puede provocar que nos quedemos algo atascados. Aconsejo practicar las cosas básicas en el intérprete en línea de Python (el que se ejecuta en el terminal) e intentar dejar lo más útil en una sandbox del proyecto.

Así lo hemos hecho en nuestro proyecto, concretamente en sandbox\basics.py con algunas referencias que nos parecieron interesantes:

# esto es una lista

[a,b]  =  (5,0)

print(type([a,b]))

# esto es una tupla

(x,y)  =  (5,0)

print(type((x,y)))

try:

  z = x/y

except  ZeroDivisionError:  # como no puede dividir por cero, este es el error que podemos capturar

  print('You can't divide by zero')

Eso sí, no te saltes cosas como los flujos de control o las expresiones porque crees que ya te las sabes. Practica al menos una vez.

Nos hemos centrado en conocer los tipos de datos de Python, con especial interés en listas, tuplas y diccionarios. Recuerda que en la entrega anterior recomendamos enlaces para comprender estos temas.

La librería BeautifulSoup es muy sencilla de manejar. Ahí aprendimos también que, según la Wikipedia, scraping se escribe con una sola “p” :)

Sobre el editor Visual Studio Code seguimos las recomendaciones para trabajar con Python, pero los linter me dieron algunos problemas de instalación y no nos paramos a repasar todas las opciones de configuración.

Análisis del HTML que queremos capturar

Como compartimos queremos construir un ranking en base a la clasificación ofrecida por ivoox. Esta sería la primera página para los programas de Internet y tecnología.

Si guardamos con el navegador esta página en nuestro proyecto, para que sea más rápido el acceso, podremos analizar el HTML con bastante facilidad.

Cada podcast está dentro de un bloque con la clase col-xs-12 col-sm-6 col-md-4 col-lg-3

A partir de ahi se nos ofrece un montón de información visible y, otra, dirigida a cumplir los microformatos, en concreto el de RadioSeries.

Esto es un gran descubrimiento, ya que este contenido ya está generado para que sea capturado por las arañas de internet. Para el caso del podcast “Daily” este es el HTML resultante de este microformato:

<meta  itemprop='name'  content='Daily'/>
<meta  itemprop='description'  content='Un podcast diario sobre tecnología en general, Apple en particular, redes sociales, productividad personal y, francamente, cualquier otra cosa que me interese. Presentado por Emilcar.'/>
<meta  itemprop='url'  content='https://www.ivoox.com/podcast-daily_sq_f145026_1.html'/>

Así podremos extraer varias cosas de esta información:

  • Nombre del podcast
  • Descripción
  • Identificador (145026)
  • Posición en la lista (viene dada por lo que captura nuestro scrapper)

Puedes ver los detalles de este desafío con todos los problemas resueltos y la aplicación real funcionando en el curso en vídeo (9 horas)

¿Cuando completaremos el hito 3 del proyecto?

Lo definimos así:

Hito 3. Comprender el funcionamiento de lo que queremos capturar y hacer el scrapping inicial de una de las páginas.

Así que lo tendríamos listo cuando:

  • Analicemos el HTML que podemos capturar.
  • “Scrapear” el contenido de cada página de una página estática y mostrarlo en pantalla.
  • El contenido sería título, descripción, posición… Podemos incluir otros elementos si nos es fácil conseguirlo.
  • Repetir el proceso utilizando la librería requests para capturar el contenido online.

Recursos para lograrlo

Los teníamos ya en la primera parte, añado algunos más:

¿Qué tal te ha ido?

Cuéntanos que tal te ha ido a través de los comentarios o en twitter con el hastag #desafioPython.

Escrito por:

Imagen de Daniel Primo

Daniel Primo

CEO en pantuflas de Web Reactiva. Programador y formador en tecnologías que cambian el mundo y a las personas. Activo en linkedin, en substack y canal @webreactiva en telegram

12 recursos para developers cada domingo en tu bandeja de entrada

Además de una skill práctica bien explicada, trucos para mejorar tu futuro profesional y una pizquita de humor útil para el resto de la semana. Gratis.