[00336415]網頁信息塊提取方法和裝置
交易價格:
面議
所屬行業:
分析儀器
類型:
發明專利
技術成熟度:
通過小試
專利所屬地:中國
專利號:CN200410057064.1
交易方式:
資料待完善
聯系人:
南京大學
進入空間
所在地:江蘇南京市
- 服務承諾
- 產權明晰
-
資料保密
對所交付的所有資料進行保密
- 如實描述
技術詳細介紹
本發明提出了一種網頁信息塊提取裝置和方法。在本發明中,首先生成網頁的結構信息塊樹,并對結構信息塊進行分類歸并和合并,對結果塊的語義進行標記,從而根據內容和功能把網頁分割為信息塊。特別地,結構層次的自動重復模式發現和語義層次的分類歸并是實現本發明的方法和裝置的基礎和保證。根據本發明的方法和裝置,網頁處理的粒度從整個頁面擴展為頁面內的信息塊,使網頁更容易由機器處理。本發明的方法和裝置可以應用于幾乎所有類型的網頁。
本發明提出了一種網頁信息塊提取裝置和方法。在本發明中,首先生成網頁的結構信息塊樹,并對結構信息塊進行分類歸并和合并,對結果塊的語義進行標記,從而根據內容和功能把網頁分割為信息塊。特別地,結構層次的自動重復模式發現和語義層次的分類歸并是實現本發明的方法和裝置的基礎和保證。根據本發明的方法和裝置,網頁處理的粒度從整個頁面擴展為頁面內的信息塊,使網頁更容易由機器處理。本發明的方法和裝置可以應用于幾乎所有類型的網頁。