深夜免费福利男女爱视频|久久国产精品久久国产品这里|中文字幕在线中文乱码不卡24|欧美漫画一区二区精品

  • <thead id="c46tp"><legend id="c46tp"><form id="c46tp"></form></legend></thead>
    <code id="c46tp"><noframes id="c46tp"></noframes></code>

    <delect id="c46tp"></delect>
    <code id="c46tp"></code>

      當(dāng)前位置:首頁 >  站長 >  建站經(jīng)驗(yàn) >  正文

      火車頭采集動(dòng)態(tài)加載Ajax數(shù)據(jù)(無分頁瀑布流網(wǎng)站)

       2025-04-21 16:39  來源: A5專欄   我來投稿 撤稿糾錯(cuò)

        阿里云優(yōu)惠券 先領(lǐng)券再下單

      為了先填充好數(shù)據(jù)在上線,在本地搭建了一個(gè)網(wǎng)站,并用火車頭采集數(shù)據(jù)填充到里面。

      開始很上手,因?yàn)檎业木W(wǎng)站的分類中是有分頁的。很快捷的找到頁面標(biāo)識(shí)。

      但是問題來了,如今很多網(wǎng)站都是采用的Ajax加載數(shù)據(jù),根本沒有分頁的URL。比如:CSDN,IT168等等,都是采用下拉到一定程度,自動(dòng)加載數(shù)據(jù)出來。

      在沒有頁碼的情況下,直接采集當(dāng)前首頁的20-30篇文章,后面的都無法采集到。

      經(jīng)過在網(wǎng)上查找教程,總算有了方法,但是相對(duì)直接加入頁碼采集,多了一個(gè)步驟。

      應(yīng)該如何做?

      1. 獲取目標(biāo)站API地址

      在目標(biāo)頁面按F12或Ctrl+Shift+C打開審查元素,然后點(diǎn)Network選項(xiàng)卡,通過下滑的操作實(shí)時(shí)監(jiān)控Network中出現(xiàn)的鏈接。

      然后點(diǎn)擊這個(gè)鏈接,查看規(guī)律后將他復(fù)制下來。

      2.利用火車頭采集這個(gè)API中的文章鏈接

      這里做一個(gè)假設(shè),實(shí)際填寫的是上面的API地址。

      采集內(nèi)容規(guī)則的設(shè)置

      從上圖可以指導(dǎo)鏈接地址在:linkurl:"" 里,然后進(jìn)入第二部采集內(nèi)容

      這里選擇循環(huán)匹配,不然只會(huì)采集到一個(gè)鏈接。

      數(shù)據(jù)處理一下編碼和斜杠(因?yàn)椴杉膗rl有很多 \ 的轉(zhuǎn)義,直接將這個(gè)剔除)

      測(cè)試一下頁面就可以獲取到文章的URL鏈接。

      獲取到文章的鏈接后,如何采集它們?

      當(dāng)采集到這些文章的URL后,我們先要在 第三步:發(fā)布內(nèi)容設(shè)置 ,將連接保存在桌面處理。

      我將他保存在Excel文件(主要是我導(dǎo)出的TXT不完整),然后在Excel中處理好在復(fù)制到TXT中。

      這個(gè)時(shí)候我們就要采集這些文字的鏈接了。

      新建一個(gè)采集任務(wù),然后將保存的TXT導(dǎo)入,然后依次進(jìn)行采集,后面的工序就不說了,和分頁采集的步驟是一樣的。

      本文由2號(hào)站長網(wǎng) 五車二原創(chuàng),原文地址:https://www.zz2zz.com/19852.html 轉(zhuǎn)載請(qǐng)注明出處。

      申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

      相關(guān)文章

      熱門排行

      信息推薦