代碼如下:
fromcreepyimportCrawler
fromBeautifulSoupimportBeautifulSoup
importurllib2
importjson
classMyCrawler(Crawler):
defprocess_document(self,doc):
ifdoc.status==200:
print‘[%d]%s’%(doc.status,doc.url)
try:
soup=BeautifulSoup(doc.text.decode(‘gb18030’).encode(‘utf-8’))
exceptExceptionase:
printe
soup=BeautifulSoup(doc.text)
printsoup.find(id=”product-intro”).div.h1.text
url_id=urllib2.unquote(doc.url).decode(‘utf8’).split(‘/’)[-1].split(‘.’)[0]
f=urllib2.urlopen(‘?skuid=J_’+url_id,timeout=5)
price=json.loads(f.read())
f.close()
printprice[0][‘p’]
else:
pass
crawler=MyCrawler()
crawler.set_follow_mode(Crawler.F_SAME_HOST)
crawler.set_concurrency_level(16)
crawler.add_url_filter(‘\.(jpg|jpeg|gif|png|js|css|swf)$’)
crawler.crawl(‘’)

轉(zhuǎn)載請注明:seo-網(wǎng)站優(yōu)化-網(wǎng)站建設(shè)?python抓取京東價格分析京東商品價格走勢

文章地址:http://61py.com/article/online/13193.html

- 1互聯(lián)網(wǎng)對傳統(tǒng)企業(yè)的沖擊有多大
- 2美團(tuán)再因不正當(dāng)競爭敗訴新反法互聯(lián)網(wǎng)專條首次適用外賣領(lǐng)域!
- 32021互聯(lián)網(wǎng)十件大事對不起賈躍亭你只能排第四
- 4互聯(lián)網(wǎng)宣傳做的就是用戶體驗
- 5互聯(lián)網(wǎng)創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個副業(yè)(適合上班族的互聯(lián)網(wǎng)副業(yè))
- 7互聯(lián)網(wǎng)的世界沒有永遠(yuǎn)的敵人只有永遠(yuǎn)的利益
- 8押唄進(jìn)駐天線貓助力互聯(lián)網(wǎng)數(shù)碼產(chǎn)品寄存行業(yè)經(jīng)濟(jì)持續(xù)發(fā)展
- 9互聯(lián)網(wǎng)公司如何做好品牌定位
- 102021年互聯(lián)網(wǎng)金融發(fā)展回顧冬去春欲來改弦當(dāng)更張