Tutorial Data Science Dengan Pyhton : Cara Membaca Format HTML di Python
perpustakaan yang dikenal sebagai beautifulsoup. Dengan menggunakan pustaka ini, kita dapat mencari nilai tag html dan mendapatkan data spesifik seperti judul halaman dan daftar header di halaman.
Pasang Beautifulsoup
Gunakan manajer paket Anaconda untuk menginstal paket yang diperlukan dan paket dependennya.
conda install Beaustifulsoap
Membaca file HTML
Pada contoh di bawah ini kami membuat permintaan ke url untuk dimuat ke lingkungan python. Kemudian gunakan parameter parser html untuk membaca seluruh file html. Selanjutnya, kami mencetak beberapa baris pertama dari halaman html.
import urllib2 from bs4 import BeautifulSoup # Fetch the html file response = urllib2.urlopen('http://tutorialspoint.com/python/python_overview.htm') html_doc = response.read() # Parse the html file soup = BeautifulSoup(html_doc, 'html.parser') # Format the parsed html file strhtm = soup.prettify() # Print the first few characters print (strhtm[:225])
Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.
<!DOCTYPE html> <!--[if IE 8]><html class="ie ie8"> <![endif]--> <!--[if IE 9]><html class="ie ie9"> <![endif]--> <!--[if gt IE 9]><!--> <html> <!--<![endif]--> <head> <!-- Basic --> <meta charset="utf-8"/> <title>
Mengekstrak Nilai Tag
Kita dapat mengekstrak nilai tag dari contoh pertama tag menggunakan kode berikut.
impor urllib2 dari bs4 impor BeautifulSoup respon = urllib2 . urlopen ( 'http://tutorialspoint.com/python/python_overview.htm' ) html_doc = respon . baca () soup = BeautifulSoup ( html_doc , 'html.parser' ) print ( soup . title ) print ( soup . title . string ) print ( soup . a . string ) print ( soup . b . string )
Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.
Python Overview None Python is Interpreted
Mengekstrak Semua Tag
Kita dapat mengekstrak nilai tag dari semua contoh tag menggunakan kode berikut.
import urllib2 from bs4 import BeautifulSoup response = urllib2.urlopen('http://tutorialspoint.com/python/python_overview.htm') html_doc = response.read() soup = BeautifulSoup(html_doc, 'html.parser') for x in soup.find_all('b'): print(x.string)
Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.
Python is Interpreted Python is Interactive Python is Object-Oriented Python is a Beginner's Language Easy-to-learn Easy-to-read Easy-to-maintain A broad standard library Interactive Mode Portable Extendable Databases GUI Programming Scalable
Post a Comment for "Tutorial Data Science Dengan Pyhton : Cara Membaca Format HTML di Python"