Unsplash是個高清攝影圖片的網站,里面的照片非常精美,分辨率也很高。最重要的是,所有的照片都沒有版權,無須向原作者申請授權
貝特阿斯網站案例賞析,即可任意使用。
最近閑暇的時候寫了個爬蟲爬了下Unsplash上的那些高贊的壁紙,爬蟲原理非常簡單
北京自適應網站建設,就是爬取所有的壁紙,然后篩選那些贊數(shù)最高的圖片。
第一步我們爬取Unsplash所有的壁紙圖片信息,并存入MongoDB。
代碼如下:
爬下來的數(shù)據里面包含了幾個重要的字段。
我們最關心的就是likes這個字段,這個里面存了圖片的贊數(shù),后續(xù)我們篩選高贊圖片的時候會用到。
還有兩個字段分別是width和height,這是圖片的寬度和高度,因為我們這里關注的是桌面壁紙,所以只關心寬度大于高度的那些壁紙。
爬完圖片信息后,接下來我們從數(shù)據庫篩選高贊圖片。
代碼如下:
這里我們會根據圖片信息里的URL去下載圖片。需要注意的是,如果過于頻繁地爬取Unsplash,會導致爬蟲被封,所以這里每次下載完都會睡個10秒鐘。
以上,就可以爬取出精美的高清壁紙啦。
作者沈仲強,資深Python程序員,先后供職于Morgan Stanley和ebay,擅長爬蟲、Web開發(fā)、數(shù)據分析。
(鄭重聲明:本文版權歸原作者沈仲強所有,轉載文章僅為傳播更多信息之目的,如有侵權
美國,請聯(lián)系我們刪除;如作者信息標記有誤,請聯(lián)系我們修改。)
,