Actualités

Extraire les liens d'une page

  • mercredi 08 octobre 2008
Image pour le titre du contenu
Pour extraire les liens d'une page (ou tout autre balise, en fait), vous avez trois approches :

  • DOM, avec getElementsByTagName

  • Xpath, avec query('//a')

  • Les expressions rationnelles, avec moult solutions publiques et privées



Au final, les deux premières sont acceptables si les pages sont valides d'un point de vue XML, ce qui est encore loin d'être le cas de toutes les sites. La dernière est moins performante et élégante, mais c'est un tout-terrain. Pour le choix final, il faudra alors s'adapter.
< Précédent   Suivant >

Commentaires

Vous pouvez ajouter votre commentaire!


Vous devez vous connecter pour commenter