Obtenir une liste des liens d'une page HTML en python

Active 23 juillet 2014    /    Viewed 2868    /    Comments 0    /    Edit


Avec python il est possible d'obtenir une liste des liens provenant d'une page HTML en passant par le module beautifulsoup4. Dans cet exemple, on récupère tous les liens sur la page wikipedia sur Alan Turing:

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import urllib2
import re

html_page = urllib2.urlopen("http://fr.wikipedia.org/wiki/Alan_Turing")
soup = BeautifulSoup(html_page)

LinksList = []
for link in soup.findAll('a'):
    linkfound = link.get('href')
    LinksList.append(linkfound)
    print linkfound
print len(LinksList)

Recherches associées

Liens Site
Beautiful Soup Documentation Python Doc
beautifulsoup4 4.3.2 Python Doc
how can I get href links from html code stackoverflow


Card image cap
profile-image
Daidalos

Hi, I am Ben.

I have developed this web site from scratch with Django to share with everyone my notes. If you have any ideas or suggestions to improve the site, let me know ! (you can contact me using the form in the welcome page). Thanks!