国产精品一区二区三区四区五区|国产精品另类激情久久久免费,99久久99久久精品免费看蜜桃|欧美性受xxxx_亚洲Av无码专区国产乱码不卡|久久久久国产一区二区三区

返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 教程中心>沒有分頁號而是動態(tài)加載的列表頁怎么采集

前面學(xué)習(xí)了隱藏列表頁(欄目頁)抓包分析教程堅持好,但有時列表頁沒有分頁號并且是動態(tài)加載,本教程講解怎么采集這種列表頁

 本教程所使用到的天線貓軟件有:文章組合工具集  萬能文章采集

抓包工具:

 

抓包可選傲游瀏覽器或其他谷歌內(nèi)核瀏覽器或任何抓包工具大幅增加。

抓包時注意特性,在網(wǎng)頁上鼠標(biāo)右鍵-審查-網(wǎng)絡(luò)(Network)才能進(jìn)入抓包界面:

 網(wǎng)頁的訪問方法(Method):有GET和POST兩種,GET就是【一條網(wǎng)址】等特點,而POST是【一條網(wǎng)址+投遞參數(shù)】更加完善,一般都是GET方法,但是如果抓包列表頁地址時碰到POST方法(比如百度百科)就需要特殊處理下才能使用到軟件上進(jìn)行采集

抓包過程:

 以今日頭條為例建設應用,使用天線貓萬能文章采集器等多款軟件輔助

 1、開始抓包:

當(dāng)下拉滾動條到底部時日漸深入,該網(wǎng)頁就會刷新出新的新聞列表動力,通常抓包會抓到很多地址,可以通過響應(yīng)正文(Response)是否包含目標(biāo)內(nèi)容(如列表頁中的文章標(biāo)題互動式宣講、文章地址)效高性、響應(yīng)內(nèi)容的大小(一般注意大尺寸)來判斷哪個才是新聞列表的刷新讀取地址(后面簡稱刷新地址)。 

我這里抓包到的刷新地址是:http://toutiao.com/api/article/recent/?...

復(fù)制刷新地址的方法

可以右鍵單擊抓包列表中的刷新地址彈出菜單-Copy Link Address 

或者左鍵單擊刷新地址Headers-General-Request URL-選中地址-右鍵菜單-復(fù)制

然后繼續(xù)抓下一個的刷新地址:http://toutiao.com/api/article/recent/?... 

使用天線貓文章組合工具集比對-網(wǎng)址參數(shù)比對比較這2個刷新地址開展,可以發(fā)現(xiàn)有3個參數(shù)產(chǎn)生了變化互動互補。

 1.jpg

2、分析抓包數(shù)據(jù):

在抓包時可以發(fā)現(xiàn)新聞列表的響應(yīng)正文是JSON數(shù)據(jù)意向,因此使用天線貓Json解析助手來分析這3個參數(shù)是怎么來的:

復(fù)制響應(yīng)正文的方法

可以右鍵單擊抓包列表中的刷新地址彈出菜單-CopyResponse 

或者左鍵單擊刷新地址Response-右鍵菜單-全選-復(fù)制

 a1ffc496gw1f511qy6n2tj20f907zabb.jpg

可以看到意料之外,Json數(shù)據(jù)中的 next.max_behot_time 節(jié)點(diǎn)的值構(gòu)成了刷新地址中的第一個 max_behot_time 參數(shù)

 

而Json數(shù)據(jù)中的 data.[15].create_time 節(jié)點(diǎn)(也就是新聞列表中的最后一個即序號為15的項(xiàng)目的 create_time)的值構(gòu)成了刷新地址中的第二個 max_create_time 參數(shù)

 

而第三個 _ 參數(shù)我們可以使用一個動態(tài)時間戳(實(shí)際上這個參數(shù)沒什么作用,可以保留抓包時的原值形式,也可以使用一個動態(tài)值)置之不顧。

結(jié)果構(gòu)建出來的模板刷新地址:http://toutiao.com/api/article/recent/?source=2&count=15&category=__all__&max_behot_time=[#next.max_behot_time#]&utm_source=toutiao&offset=0&max_create_time=[#data.[15].create_time#]&_={#毫秒時間戳#}

然后發(fā)現(xiàn)這個今日頭條還要求提供Cookies,否則抓取到的新聞列表就不準(zhǔn)確數字化,因此在抓包時可以到請求里復(fù)制出Cookies:uuid="w:2336ce5e12794f1c9d90ea07c2d4dc47"; tt_webid=19421740959; csrftoken=19f08b2051f0abbb85ee449e648fb3ad; CNZZDATA1258609184=1681606143-1466332000-%7C1466337400; _ga=GA1.2.451981020.1466332236; utm_source=toutiao

 

3方便、最后采集列表頁:

 3.jpg

采集好列表頁后,在萬能文章采集器的【采集文章URL列表】對這些列表頁采集出文章地址列表時各領域,請保持【采集列表頁URL(動態(tài)加載)】窗口處于打開狀態(tài)應用領域,這樣才能調(diào)用該窗口中的Cookies設(shè)置,因?yàn)榻袢疹^條刷新新聞列表時要求Cookies進行培訓。

下面是采集文章地址的設(shè)置:

 4.jpg

如果您覺得 沒有分頁號而是動態(tài)加載的列表頁怎么采集 這篇文章對您有用發展機遇,請分享給您的好友,謝謝
文章地址:http://61py.com/course/1045.html
解放雙手無盡可能,有問題添加天線貓微信
格尔木市| 衢州市| 哈巴河县| 乌兰县| 宁都县| 哈密市| 和林格尔县| 景德镇市| 许昌县| 安龙县| 西贡区| 和平区| 贵溪市| 濮阳县| 饶平县| 隆林| 成安县| 黄浦区| 武邑县| 长垣县| 长汀县| 枣庄市| 临湘市| 敖汉旗| 纳雍县| 古交市| 建瓯市| 嘉峪关市| 广宁县| 黄陵县| 大同县| 元朗区| 贵德县| 望谟县| 昭通市| 义马市| 云龙县| 阜康市| 西和县| 青浦区| 兴义市|