1. <tr id="bhwsb"></tr>
    1. <tr id="bhwsb"></tr>
      <menuitem id="bhwsb"></menuitem>

      <output id="bhwsb"></output>

      信息提取模塊生成方法、信息提取方法及裝置與流程

      文檔序號:24543655發布日期:2021-04-02 10:51
      信息提取模塊生成方法、信息提取方法及裝置與流程

      本公開涉及計算機技術領域,尤其涉及人工智能領域中的智能搜索和知識圖譜技術領域。



      背景技術:

      網絡是計算機技術領域最基本的一種信息傳遞渠道和工具。網頁是向用戶提供網絡信息的一種重要的途徑。隨著互聯網的發展,網頁也越來越多樣化,網頁結構、網頁地址種類繁多,增長迅速。

      網頁信息提取,也可以稱為網頁內容提取,是分析網絡數據的一種重要手段。隨著網頁數量、網頁種類等迅速增加,網頁信息提取技術也需要隨之改進,以便更高效地提取網頁信息。



      技術實現要素:

      本公開提供了一種用于信息提取模塊生成方法、信息提取方法、裝置、設備以及存儲介質。

      根據本公開的一方面,提供了一種信息提取模塊生成方法,包括:

      獲取待提取信息的目標網頁;

      獲取目標網頁中待提取信息的節點,目標網頁包括至少一個節點;

      根據待提取信息的節點,獲取提取規則;

      根據提取規則,生成針對待提取信息的節點的第一信息提取模塊。

      根據本公開的另一方面,提供了一種信息提取方法,其中,包括:

      采用第一信息提取模塊,獲取對待提取信息的目標網頁所提取的信息;第一信息提取模塊為本公開任意一項實施例所提供的第一信息提取模塊。

      根據本公開的另一方面,提供了一種信息提取模塊生成裝置,包括:

      網頁獲取模塊,用于獲取待提取信息的目標網頁;

      節點獲取模塊,有益獲取目標網頁中待提取信息的節點,目標網頁包括至少一個節點;

      規則模塊,用于根據待提取信息的節點,獲取提取規則;

      生成模塊,用于根據提取規則,生成針對待提取信息的節點的第一信息提取模塊。

      根據本公開的另一方面,提供了一種信息提取裝置,其中,包括:

      待提取信息提取模塊,用于采用第一信息提取模塊,獲取對待提取信息的目標網頁所提取的信息;第一信息提取模塊為本公開任意一項實施例所提供的第一信息提取模塊。

      根據本公開的另一方面,提供了一種電子設備,包括:

      至少一個處理器;以及

      與該至少一個處理器通信連接的存儲器;其中,

      該存儲器存儲有可被該至少一個處理器執行的指令,該指令被該至少一個處理器執行,以使該至少一個處理器能夠執行本公開任一實施例中的方法。

      根據本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,該計算機指令用于使計算機執行本公開任一實施例中的方法。

      根據本公開的另一方面,提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現本公開任一實施例中的方法。

      根據本公開的技術提高了網頁的信息提取效率。

      應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

      附圖說明

      附圖用于更好地理解本方案,不構成對本公開的限定。其中:

      圖1是根據本公開一實施例的信息提取模塊生成方法示意圖;

      圖2是根據本公開一實施例的信息提取方法示意圖;

      圖3是根據本公開另一實施例的信息提取方法示意圖;

      圖4a是根據本公開一示例的信息提取方法示意圖;

      圖4b是根據本公開一示例的信息提取方法應用示意圖;

      圖5是根據本公開一實施例的信息提取模塊生成裝置示意圖;

      圖6是根據本公開另一實施例的信息提取模塊生成裝置示意圖;

      圖7是根據本公開又一實施例的信息提取模塊生成裝置示意圖;

      圖8是根據本公開又一實施例的信息提取模塊生成裝置示意圖;

      圖9是根據本公開一實施例的信息提取裝置示意圖;

      圖10是根據本公開另一實施例的信息提取裝置示意圖;

      圖11是用來實現本公開實施例的信息提取方法的電子設備的框圖。

      具體實施方式

      以下結合附圖對本公開的示范性實施例做出說明,其中包括本公開實施例的各種細節以助于理解,應當將它們認為僅僅是示范性的。因此,本領域普通技術人員應當認識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本公開的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結構的描述。

      本公開實施例提供一種信息提取模塊生成方法,如圖1所示,包括:

      步驟s11:獲取待提取信息的目標網頁;

      步驟s12:獲取目標網頁中待提取信息的節點,目標網頁包括至少一個節點;

      步驟s13:根據待提取信息的節點,獲取提取規則;

      步驟s14:根據提取規則,生成針對待提取信息的節點的第一信息提取模塊。

      本實施例中,待提取信息的目標網頁,可以是需要提取信息的網頁,具體可以是一個網頁或一系列具有共同特點的網頁。當目標網頁為具有共同特點的一系列網頁時,共同特點具體可以包括網址的內容、網頁的提供方等。

      比如,目標網頁可以是地址中帶有“http://xxx.yyy”內容字段的網頁。再如,目標網頁也可以是某個企業推出的任意網頁。

      目標網頁可以是各種類型的網頁,如,購物平臺的網頁、產品介紹的網頁。

      獲取待提取信息的目標網頁,具體可以根據對目標網頁的選擇信息獲取。還可以根據輸入的目標網頁的共同特征獲取。還可以根據預設的默認獲取規則獲取。

      目標網頁中待提取信息的節點,可以是包含待提取信息的目標網頁中的節點,可以是目標網頁中多個節點中的一個或多個。比如,可以是目標網頁中的文字、目標網頁中的圖像。

      在目標網頁為購物平臺的網頁的情況下,目標網頁中待提取信息的節點可以是目標網頁中的商品、某類商品、某個具體信號的商品、某個圖片、文字、標題、訪問數量等。

      具體例如,目標網頁為購物平臺的網頁,目標網頁中待提取信息的節點為目標網頁中的電子產品,則待提取信息的節點可以是目標網頁的商品展示界面中、細節展示界面中的電子產品。

      再如,目標網頁為購物平臺的網頁,目標網頁中待提取信息的節點為某個特定電子產品的銷售數量,則待提取信息的節點可以是購物平臺上所有包含該特定電子產品銷售數量信息的節點。

      根據待提取信息的節點,獲取提取規則,可以是根據對節點的操作,獲取提取規則。還可以是根據對節點預設的默認規則,獲取提取規則。

      比如,針對某一類網頁,提取網頁中圖片的屬性。再如,針對某個網頁,提取網頁中的銷售數量內容。

      根據提取規則,生成針對待提取信息的節點的第一信息提取模塊,具體可以是,生成能夠對同類別或具有共同特征的目標網頁的同類別或同系列待提取信息的節點,采用提取規則進行提取的信息提取模塊。

      本公開實施例中,能夠根據目標網頁的待提取信息的節點以及提取規則,生成目標網頁的信息提取模塊,從而,對所有的目標網頁、具有共同特診的網頁均能夠采用該信息提取模塊進行提取,當用于處理大量網頁數據時,能夠提高網頁的信息提取速度。

      在一種實施方式中,根據提取規則,生成針對待提取信息的節點的第一信息提取模塊,包括:

      根據提取規則,獲取預生成的第二信息提取模塊;

      采用第二信息提取模塊,預提取目標網頁的信息;

      在收到預提取信息符合要求的確認信息的情況下,將第二信息提取模塊作為第一信息提取模塊。

      本實施例中,第二信息提取模塊是預先生成、測試階段的第一信息提取模塊。

      在預先生成第二信息提取模塊后,可采用第二信息提取模塊對目標網頁中待提取信息的節點進行提取。

      在收到預提取信息符合要求的確認信息的情況下息,將第二信息提取模塊作為第一信息提取模塊,具體包括,在收到預提取信息符合設定的要求的確認信息的情況下,將第二信息提取模塊作為第一信息提取模塊,其中,預提取信息符合設定的要求的確認信息,可以是操作人員在確認了預提取信息之后發送的。

      在收到預提取的信息不符合設定要求的否定信息的情況下,可以返回,重新執行圖1中步驟s21-s24或s22-s24。

      本實施例中,能夠預生成第二信息提取模塊,在采用第二信息提取模塊提取的信息符合設定要求后,生成最終用于提取目標網頁的待提取信息的第一信息提取模塊,從而,能夠確保第一信息提取模塊的使用效果符合用戶預期。

      在一種實施方式中,獲取目標網頁中待提取信息的節點,包括:

      根據對目標網頁中的至少一個節點的選定操作,獲取待提取信息的節點。

      本實施例中,選定操作可以是操作人員對目標網頁中的至少一個節點進行點擊、圈選、篩選等操作。

      示例性的,可以將目標網頁呈現給操作人員,使得操作人員能夠對網頁中可以提取信息的節點進行選擇,將操作人員選中的節點作為待提取信息的節點。

      示例性的,還可以將目標網頁呈現給操作人員,使得操作人員在默認提取網頁中所有能夠提取信息的節點的情況下,對不需要提取信息的節點進行篩除,將操作人員留下的節點作為待提取信息的節點。

      本實施例中,能夠根據選定操作,獲得待提取信息的節點,從而能夠適用于多種類的網頁,適用于多樣化的信息提取需求。

      在一種實施方式中,根據對所述目標網頁中的至少一個節點的選定操作,獲取所述待提取信息的節點,包括:

      根據對至少一個節點的選定操作,確定選定的節點;

      根據選定的節點,顯示至少一個信息提取操作的類型;

      根據對至少一個信息提取操作的類型的選定操作,確定選定的信息提取操作的類型;

      根據選定的節點,和選定的信息提取操作的類型,獲取待提取信息的節點。

      對至少一個節點的選定操作,可以是對目標網頁中能夠提取信息的節點的選定操作。

      根據選定的節點,顯示至少一個信息提取操作的類型,可以包括下述至少一種:顯示信息提取操作的內容類型,顯示信息提取操作的操作類型。內容類型具體比如可以是:提取屬性、提取數據、提取標題、提取文字、提取圖片等。操作類型具體比如可以是:提取同類節點、提取單個節點等。

      本實施例中,能夠選定待提取信息的節點,同時能夠選擇信息提取操作的類型,使得信息提取模塊的可定制性得到提高,在提高信息提取效率的同時,能夠滿足多樣化的信息提取需求。

      在一種實施方式中,信息提取操作的類型為對同類別的節點進行提取或對單個節點進行提取。

      同類別的節點,可以是同一個商品的節點、同一類商品的節點、具有同一類內容的所有節點等。

      單個節點,可以是一系列目標網頁中,每個目標網頁的單個節點。也可以是單獨的目標網頁中的單個節點。

      本實施例中,能夠對同類別的節點進行提取,也可以對單個節點進行提取,從而簡化了節點選擇時的操作,減少操作量,提高信息提取模塊的生成效率。

      在一種實施方式中,獲取目標網頁中待提取信息的節點,包括:

      根據與目標網頁對應的節點規則,獲取待提取的節點。

      節點規則可以是默認的待提取信息的節點確定規則,比如,在某種類別的目標網頁中,默認所有商品的節點為待提取信息的節點。

      通過本實施例,能夠通過節點規則,覆蓋節點提取的一般情況,使得針對較常見的用戶需求,無需專門選擇待提取信息的節點,減少操作量,提高效率。

      本公開實施例還提供一種信息提取方法,如圖2所示,包括:

      步驟s21:采用第一信息提取模塊,獲取對待提取信息的目標網頁所提取的信息。第一信息提取模塊為本公開任意一項實施例所提供的第一信息提取模塊。

      本實施例中,采用第一信息提取模塊對目標網頁中待提取信息進行提取,從而,無需對網頁專門編寫信息提取代碼,提高對網頁的信息提取效率。

      在一種實施方式中,如圖3所示,信息提取方法還包括:

      步驟s31:根據接收到的瀏覽器插件啟動信息,調用第一信息提取模塊,并將瀏覽器打開的網頁作為目標網頁。

      本實施例中,可以將信息提取模塊采用瀏覽器插件的形式進行設置。用戶需要對目標網頁中待提取信息的節點進行信息提取時,通過啟動瀏覽器插件即可調用第一信息提取模塊,便于用戶操作。

      本公開一種示例中,可以基于chrome(谷歌瀏覽器)插件系統,實現了可視化、智能化操作軟件,將復雜的腳本生成過程簡化為點擊圈選和智能匹配相結合生成的方式,大幅度降低腳本編寫門檻并提升了編寫效率。

      參照圖4a,本示例包括如下操作步驟:

      步驟s41:安裝。支持通過chrome擴展程序加載已解壓的擴展程序方式安裝插件,啟動信息提取模塊的定制流程。

      步驟s42:啟動。打開需要提取的展現網頁。

      步驟s43:選擇節點。然后點擊插件圖標,可選【手動抓取】、【pna(productnavigationads,產品導航廣告)列表智能匹配】、【編輯模式】等類型,點擊后即可操作選取站點內容。

      其中,【手動抓取】模式下,通過鼠標點擊網頁上的節點,點擊后可通過左側視圖區域顯示抓取的節點的內容,確認無誤后可選擇節點的類型,進行同一目標網頁或同類目標網頁上同類內容的自動匹配。點擊創建可生成一個待提取的點位,可與目標網頁中的能夠提取信息的節點進行對應,依次進行,直到選取完所有待提取信息的節點。

      【pna列表智能匹配】下,無需用戶操作,將通過智能算法對目標網頁的特征進行分析,精確匹配站點列表類的內容并自動生成對應待提取信息的點位。

      【編輯模式】如需其他類型的智能匹配諸如上述的pna列表,則可通過該模式創建內容規則。

      步驟s44:驗證。待提取節點選定完后,點擊腳本測試,即可在左側視圖區域查看腳本執行后產出的頁面結構化數據,確認數據無誤后即可提交測試腳本,從而能夠根據測試腳本生成信息提取模塊。

      步驟s45:任務推送。

      點擊腳本提交可將生成后的腳本推送到服務端進行任務部署,部署后,可針對同類別的目標網頁進行信息提取。

      本公開實施例能夠應用于多種技術領域,包括智能搜索和知識圖譜??稍O計的場景包括:無技術能力的廣告投放客戶的數據內容對接;站點內容檢測分析;數據基礎收集工具。

      在本公開另一種示例中,如圖4b所示,用戶通過一個或多個目標網頁的地址確定目標網頁,在彈出(popup)選項中,通過模式選擇,確定節點規則。在后臺(background)中進行節點分析、智能匹配和數據測試,結合目標網頁的一個或多個地址,在運行過程(runtime)中進行預提取,通過對預提取信息的確認,產出信息提取模塊的腳本。最終根據腳本產出信息提取模塊,可部署在服務器(sever)側,接收任務隊列中的任務,通過對瀏覽器的無頭運行方式(headlessruntime)進行信息提取,提取的信息經過數據清洗后,在數據存儲模塊中存儲。

      本公開實施例還提供一種信息提取模塊生成裝置,如圖5所示,包括:

      網頁獲取模塊51,用于獲取待提取信息的目標網頁;

      節點獲取模塊52,有益獲取目標網頁中待提取信息的節點,目標網頁包括至少一個節點;

      規則模塊53,用于根據待提取信息的節點,獲取提取規則;

      生成模塊54,用于根據提取規則,生成針對待提取信息的節點的第一信息提取模塊。

      在一種實施方式中,如圖6所示,生成模塊包括:

      預生成單元61,用于根據提取規則,獲取預生成的第二信息提取模塊;

      預提取單元62,用于采用第二信息提取模塊,預提取目標網頁的信息;

      預提取判斷單元63,用于在收到預提取信息符合要求的確認信息的情況下,將第二信息提取模塊作為第一信息提取模塊。

      在一種實施方式中,如圖7所示,節點獲取模塊包括:

      選定單元71,用于根據對目標網頁中的至少一個節點的選定操作,獲取待提取信息的節點。

      在一種實施方式中,選定單元還用于:

      根據對至少一個節點的選定操作,確定選定的節點;

      根據選定的節點,顯示至少一個信息提取操作的類型;

      根據對至少一個信息提取操作的類型的選定操作,確定選定的信息提取操作的類型;

      根據選定的節點,和選定的信息提取操作的類型,獲取待提取信息的節點。

      在一種實施方式中,信息提取操作的類型為對同類別的節點進行提取或對單個節點進行提取。

      在一種實施方式中,如圖8所示,節點獲取模塊包括:

      規則單元81,用于根據與目標網頁對應的節點規則,獲取待提取的節點;

      和/或,編輯單元82,用于根據編輯內容,獲取待提取的節點。

      本公開實施例還提供一種信息提取裝置,如圖9所示,包括:

      待提取信息獲取模塊91,用于采用第一信息提取模塊,獲取對待提取信息的目標網頁所提取的信息;第一信息提取模塊為本公開任意一項實施例所提供的第一信息提取模塊。

      在一種實施方式中,如圖10所示,信息提取裝置還包括:

      調用模塊101,用于根據接收到的瀏覽器插件啟動信息,調用第一信息提取模塊,并將瀏覽器打開的網頁作為目標網頁。

      本公開實施例各數據處理裝置中的各單元、模塊或子模塊的功能可以參見上述數據處理方法實施例中的對應描述,在此不再贅述。

      根據本公開的實施例,本公開還提供了一種電子設備、一種可讀存儲介質和一種計算機程序產品。

      圖11示出了可以用來實施本公開的實施例的示例電子設備110的示意性框圖。電子設備旨在表示各種形式的數字計算機,諸如,膝上型計算機、臺式計算機、工作臺、個人數字助理、服務器、刀片式服務器、大型計算機、和其它適合的計算機。電子設備還可以表示各種形式的移動裝置,諸如,個人數字處理、蜂窩電話、智能電話、可穿戴設備和其它類似的計算裝置。本文所示的部件、它們的連接和關系、以及它們的功能僅僅作為示例,并且不意在限制本文中描述的和/或要求的本公開的實現。

      如圖11所示,設備110包括計算單元111,其可以根據存儲在只讀存儲器(rom)112中的計算機程序或者從存儲單元118加載到隨機訪問存儲器(ram)113中的計算機程序來執行各種適當的動作和處理。在ram113中,還可存儲設備110操作所需的各種程序和數據。計算單元111、rom112以及ram113通過總線114彼此相連。輸入輸出(i/o)接口115也連接至總線114。

      設備110中的多個部件連接至i/o接口115,包括:輸入單元116,例如鍵盤、鼠標等;輸出單元117,例如各種類型的顯示器、揚聲器等;存儲單元118,例如磁盤、光盤等;以及通信單元119,例如網卡、調制解調器、無線通信收發機等。通信單元119允許設備110通過諸如因特網的計算機網絡和/或各種電信網絡與其他設備交換信息/數據。

      計算單元111可以是各種具有處理和計算能力的通用和/或專用處理組件。計算單元111的一些示例包括但不限于中央處理單元(cpu)、圖形處理單元(gpu)、各種專用的人工智能(ai)計算芯片、各種運行機器學習模型算法的計算單元、數字信號處理器(dsp)、以及任何適當的處理器、控制器、微控制器等。計算單元111執行上文所描述的各個方法和處理,例如信息提取模塊生成方法。例如,在一些實施例中,信息提取模塊生成方法可被實現為計算機軟件程序,其被有形地包含于機器可讀介質,例如存儲單元118。在一些實施例中,計算機程序的部分或者全部可以經由rom112和/或通信單元119而被載入和/或安裝到設備110上。當計算機程序加載到ram113并由計算單元111執行時,可以執行上文描述的信息提取模塊生成方法的一個或多個步驟。備選地,在其他實施例中,計算單元111可以通過其他任何適當的方式(例如,借助于固件)而被配置為執行信息提取模塊生成方法。

      本文中以上描述的系統和技術的各種實施方式可以在數字電子電路系統、集成電路系統、場可編程門陣列(fpga)、專用集成電路(asic)、專用標準產品(assp)、芯片上系統的系統(soc)、負載可編程邏輯設備(cpld)、計算機硬件、固件、軟件、和/或它們的組合中實現。這些各種實施方式可以包括:實施在一個或者多個計算機程序中,該一個或者多個計算機程序可在包括至少一個可編程處理器的可編程系統上執行和/或解釋,該可編程處理器可以是專用或者通用可編程處理器,可以從存儲系統、至少一個輸入裝置、和至少一個輸出裝置接收數據和指令,并且將數據和指令傳輸至該存儲系統、該至少一個輸入裝置、和該至少一個輸出裝置。

      用于實施本公開的方法的程序代碼可以采用一個或多個編程語言的任何組合來編寫。這些程序代碼可以提供給通用計算機、專用計算機或其他可編程數據處理裝置的處理器或控制器,使得程序代碼當由處理器或控制器執行時使流程圖和/或框圖中所規定的功能/操作被實施。程序代碼可以完全在機器上執行、部分地在機器上執行,作為獨立軟件包部分地在機器上執行且部分地在遠程機器上執行或完全在遠程機器或服務器上執行。

      在本公開的上下文中,機器可讀介質可以是有形的介質,其可以包含或存儲以供指令執行系統、裝置或設備使用或與指令執行系統、裝置或設備結合地使用的程序。機器可讀介質可以是機器可讀信號介質或機器可讀儲存介質。機器可讀介質可以包括但不限于電子的、磁性的、光學的、電磁的、紅外的、或半導體系統、裝置或設備,或者上述內容的任何合適組合。機器可讀存儲介質的更具體示例會包括基于一個或多個線的電氣連接、便攜式計算機盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦除可編程只讀存儲器(eprom或快閃存儲器)、光纖、便捷式緊湊盤只讀存儲器(cd-rom)、光學儲存設備、磁儲存設備、或上述內容的任何合適組合。

      為了提供與用戶的交互,可以在計算機上實施此處描述的系統和技術,該計算機具有:用于向用戶顯示信息的顯示裝置(例如,crt(陰極射線管)或者lcd(液晶顯示器)監視器);以及鍵盤和指向裝置(例如,鼠標或者軌跡球),用戶可以通過該鍵盤和該指向裝置來將輸入提供給計算機。其它種類的裝置還可以用于提供與用戶的交互;例如,提供給用戶的反饋可以是任何形式的傳感反饋(例如,視覺反饋、聽覺反饋、或者觸覺反饋);并且可以用任何形式(包括聲輸入、語音輸入、或者觸覺輸入來接收來自用戶的輸入。

      可以將此處描述的系統和技術實施在包括后臺部件的計算系統(例如,作為數據服務器)、或者包括中間件部件的計算系統(例如,應用服務器)、或者包括前端部件的計算系統(例如,具有圖形用戶界面或者網絡瀏覽器的用戶計算機,用戶可以通過該圖形用戶界面或者該網絡瀏覽器來與此處描述的系統和技術的實施方式交互)、或者包括這種后臺部件、中間件部件、或者前端部件的任何組合的計算系統中??梢酝ㄟ^任何形式或者介質的數字數據通信(例如,通信網絡)來將系統的部件相互連接。通信網絡的示例包括:局域網(lan)、廣域網(wan)和互聯網。

      計算機系統可以包括客戶端和服務器??蛻舳撕头掌饕话氵h離彼此并且通常通過通信網絡進行交互。通過在相應的計算機上運行并且彼此具有客戶端-服務器關系的計算機程序來產生客戶端和服務器的關系。

      應該理解,可以使用上面所示的各種形式的流程,重新排序、增加或刪除步驟。例如,本公開中記載的各步驟可以并行地執行也可以順序地執行也可以不同的次序執行,只要能夠實現本公開公開的技術方案所期望的結果,本文在此不進行限制。

      上述具體實施方式,并不構成對本公開保護范圍的限制。本領域技術人員應該明白的是,根據設計要求和其他因素,可以進行各種修改、組合、子組合和替代。任何在本公開的精神和原則之內所作的修改、等同替換和改進等,均應包含在本公開保護范圍之內。

      再多了解一些
      當前第1頁1 2 3 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1
      国产在线拍揄自揄视频不卡