BeautifulSoup 安裝啟用

  1. CentOS 6 的 python 2.6 無法直接以 pip install beautifulsoup4 安裝,先下載 beautifualsoup 套件。,解壓縮後將 bs 目錄複製到 python2.6 的套件目錄中。
    [root@dywmac ~]# cd /usr/src/
    [root@dywmac src]# wget https://www.crummy.com/software/BeautifulSoup/bs4/\
    download/4.0/beautifulsoup4-4.1.0.tar.gz
    [root@dywmac src]# tar zxvf beautifulsoup4-4.1.0.tar.gz 
    [root@dywmac ~]# cp -a beautifulsoup4-4.1.0/bs4 /usr/lib/python2.6/site-packages/
    
  2. 導入 bs4 模組,使用 lxml 方式解析 HTML 文件。
    [dywang@dywmac zzz]$ cat crawler5.py
    #!/usr/bin/env python
    # coding: utf-8
    import requests, bs4
    
    url = 'http://dywang.csie.cyut.edu.tw/dywang/rhce7/'
    htmlfile = requests.get(url)
    soup = bs4.BeautifulSoup(htmlfile.text, 'lxml')
    
  3. 執行程式,輸出型態是 bs4.BeautifulSoup 物件,表示成功。
    [dywang@dywmac zzz]$ ./crawler5.py 
    <class 'bs4.BeautifulSoup'>
    
  4. 下載測試網頁 node2.html。
    [dywang@dywmac zzz]$ wget https://dywang.csie.cyut.edu.tw/dywang/pythonProgram/node2.html
    
  5. 直接讀取 node2.html 網頁原始碼檔,列印類別型態及 title。
    [dywang@dywmac zzz]$ cat crawler6.py 
    #!/usr/bin/env python
    # coding: utf-8
    import bs4
    
    htmlfile = open('node2.html')
    soup = bs4.BeautifulSoup(htmlfile, 'lxml')
    print("class tyep: ", type(soup))
    print("title: ", soup.title)
    
  6. 執行程式,輸出型態是 bs4.BeautifulSoup 物件,抬頭是「認識 Python」。
    [dywang@dywmac zzz]$ ./crawler6.py 
    ('class tyep: ', <class 'bs4.BeautifulSoup'>)
    ('title: ', <title>認識 Python</title>)