忍者ブログ
     2008年11月14日 開始
[17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27]
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

#import urllib
import urllib2
import urlparse
import BeautifulSoup

url = 'http://mixi.jp'
url='http://hiw.oo.kawai-juku.ac.jp/nyushi/honshi/08/'
url='http://hiw.oo.kawai-juku.ac.jp/nyushi/honshi/07/t01.html'
soup = BeautifulSoup.BeautifulSoup(urllib2.urlopen(url))
base=url
#縲€url縺ョ蜿門セ・
for _a in soup.findAll('a'):
    url_fragments=_a.get('href')
    print 'url_fragments = ' + str(_a.get('href'))
    print '      urljoin = ' + urlparse.urljoin(base, url_fragments)

# 繝輔Ξ繝シ繝縺ョ蜿門セ・
for _a in soup.findAll('frame'):
    url_fragments=_a.get('src')
    print 'url_fragments = ' + str(_a.get('src'))
    print '      urljoin = ' + urlparse.urljoin(base, url_fragments)

===以下は訂正版===

# -*- coding: utf-8 -*-

import urllib
import BeautifulSoup
#import urllib
import urllib2
import urlparse
import BeautifulSoup

url = 'http://mixi.jp'
url='http://hiw.oo.kawai-juku.ac.jp/nyushi/honshi/08/'
url='http://hiw.oo.kawai-juku.ac.jp/nyushi/honshi/07/t01.html'
soup = BeautifulSoup.BeautifulSoup(urllib2.urlopen(url))
base_url='http://hiw.oo.kawai-juku.ac.jp/nyushi/honshi/07/t01.html'

base_url='http://hiw.oo.kawai-juku.ac.jp/nyushi/honshi/07/'
#print soup
#print soup.prettify
#縲€url縺ョ蜿門セ・
for _a in soup.findAll('frame'):
    url_fragments=_a.get('src')
    print 'url_fragments =' , url_fragments

    print 'url_fragments = ' , str(url_fragments)
    print '      urljoin = ' + urlparse.urljoin(base_url, str(url_fragments))


PR


忍者ブログ [PR]
お天気情報
カレンダー
03 2024/04 05
S M T W T F S
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
リンク
フリーエリア
最新CM
最新TB
プロフィール
HN:
No Name Ninja
性別:
非公開
バーコード
ブログ内検索
P R
カウンター
ブログの評価 ブログレーダー