Sisukord:

Kuidas sa Pythonis ilusat suppi kasutad?
Kuidas sa Pythonis ilusat suppi kasutad?

Video: Kuidas sa Pythonis ilusat suppi kasutad?

Video: Kuidas sa Pythonis ilusat suppi kasutad?
Video: Придумала новый способ, как быстро сшить из полосок ткани "шахматку по диагонали" DIY мастер-класс 2024, Aprill
Anonim

Kui kasutate Debiani või Ubuntu Linuxi uusimat versiooni, saate installida Beautiful Soup süsteemipaketihalduriga

  1. $ apt-get install püüton -bs4 (ehk Python 2)
  2. $ apt-get install python3-bs4 (for Python 3)
  3. $ easy_install beautifulsoup4.
  4. $ pip install beautifulsoup4.
  5. $ püüton setup.py installimine.

Samamoodi küsitakse, kuidas Pythonis ilusat suppi teha?

Kasutada ilus supp , peate selle installima: $ pip install beautifulsoup4. Ilus supp tugineb ka parserile, vaikimisi on lxml. Sa võid juba on seda, kuid peaksite kontrollima (avage IDLE ja proovige importida lxml). Kui ei, tehke järgmist: $ pip install lxml või $ apt- saada installida püüton -lxml.

Samuti, kuidas impordite ilusat suppi? Alustada, importida a Ilus supp raamatukogu, avage HTML-fail ja edastage see aadressile Ilus supp ja seejärel printige ilus ” versioon terminalis. Peaksite nägema, kuidas teie terminali aken täitub originaalse html-teksti kenasti taandega versiooniga (vt joonis 3).

Samamoodi küsitakse, milleks kasutatakse ilusat suppi?

Ilus supp on Pythoni pakett HTML- ja XML-dokumentide sõelumiseks (sealhulgas väära vorminguga märgistusega, st mittesuletud sildid, mis on nimetatud sildi järgi supp ). See loob sõelumispuu sõelutud lehtede jaoks, mida saab kasutatud HTML-ist andmete eraldamiseks, mis on kasulik veebi kraapimiseks.

Kuidas Pythoni ja BeautifulSoupiga veebisaiti kraapida?

Esiteks peame importima kõik teegid, mida kavatseme kasutada. Järgmisena deklareerige lehe URL-i jaoks muutuja. Seejärel kasutage Python urllib2, et saada deklareeritud URL-i HTML-leht. Lõpuks sõeluge leht sisse Ilus supp vormingus, et saaksime kasutada Ilus supp selle kallal töötada.

Soovitan: