網頁地理資訊檢索與探勘—以民宿主題為例
網際網路上散佈了各式主題與大量的網頁資料,其中隱含了非常多的知識,但是這
些內容大多是半結構性,甚至是非結構性的資料,如何能夠有效率的管理這些資料,並
且進行資訊與知識的擷取,一直是研究與開發的重點,因此也就有各式各樣的網路搜尋
引擎、資料探勘以及網路行銷技術的開發。但是目前一般的網路搜尋技術大多只著重於
關鍵字的檢索,對於網頁內容與主題的分析,則仍未盡理想。另外,對於網頁內容中的
地理資訊,也未能進行有效的檢索與分析,以致於犧牲了許多內含的地理資訊。
本研究以網頁中的民宿主題為例,使用Google Search Web Service 為網路搜尋的基
礎,結合中央研究院詞庫小組開發的斷詞斷字系統與文字資料探勘的技術,對於Google
所搜尋到的網頁,進行空間與語意內容的探勘、檢索與排序,找出與所查詢主題在內容
與地理資訊上最相關的網頁。接著,透過地理資訊檢索與正規表示式,由這些篩選過的
網頁內容中,檢索出有用的地理資訊,再透過Google Map API地址對位的技術,將檢索
出來的地理資訊與文字內容結合顯示於Google Map地圖上。以這樣的方式所搜尋出來的
結果,將是包含了地理資訊的圖與文,且更貼近需求的查詢結果,將可應用於各種與空
間主題相關之內容的查詢、分析、地理資料蒐集與空間知識的管理上。
些內容大多是半結構性,甚至是非結構性的資料,如何能夠有效率的管理這些資料,並
且進行資訊與知識的擷取,一直是研究與開發的重點,因此也就有各式各樣的網路搜尋
引擎、資料探勘以及網路行銷技術的開發。但是目前一般的網路搜尋技術大多只著重於
關鍵字的檢索,對於網頁內容與主題的分析,則仍未盡理想。另外,對於網頁內容中的
地理資訊,也未能進行有效的檢索與分析,以致於犧牲了許多內含的地理資訊。
本研究以網頁中的民宿主題為例,使用Google Search Web Service 為網路搜尋的基
礎,結合中央研究院詞庫小組開發的斷詞斷字系統與文字資料探勘的技術,對於Google
所搜尋到的網頁,進行空間與語意內容的探勘、檢索與排序,找出與所查詢主題在內容
與地理資訊上最相關的網頁。接著,透過地理資訊檢索與正規表示式,由這些篩選過的
網頁內容中,檢索出有用的地理資訊,再透過Google Map API地址對位的技術,將檢索
出來的地理資訊與文字內容結合顯示於Google Map地圖上。以這樣的方式所搜尋出來的
結果,將是包含了地理資訊的圖與文,且更貼近需求的查詢結果,將可應用於各種與空
間主題相關之內容的查詢、分析、地理資料蒐集與空間知識的管理上。
回應(0)