智慧城市與空間大數據分析實驗室


城市時空大數據分析

時空大數據分析是利用各種空間大數據(如基於位置的社交網絡、軌跡數據、手機數據、WIFI數據等)進行建模、分析、挖掘的新興技術。我們團隊致力於提升城市時空大數據分析技術的可靠性,並將知識應用現實應用案例中。

時空數據模式挖掘與知識發現

模式挖掘,指從數據中提取揭示數據隱含規律、異常及其他相互作用關係的模式,這些模式最終可以轉化為知識,幫助用戶理解研究對象或做出決策。我們致力於對時空數據模式挖掘方法進行創新,以提高數據挖掘過程和所得知識的可靠性。從算法而言,我們的研究重點包括時空關聯規則挖掘,以及人類移動軌跡中的序列模式挖掘。

明確-模糊空間關聯規則挖掘:空間關聯規則挖掘是從空間數據中挖掘關聯規則,即形如 “X -> Y”的數據模式的過程。例如,规则“(房屋靠近水源&房齡小->呎價高)”表示,靠近水景且房齡較小的房屋,其尺價(每平方英呎價格)往往較高。規則的有用程度可以通過定量的規則興趣度指標值來衡量,同時,統計檢驗是避免虛假規則的主要技術,虛假規則指規則的產生純粹出於偶然,而非出於現實世界中實體特征之間的關聯。

我們提出了明確-模糊空間關聯規則挖掘這一新算法,該方法可以提高所得規則的可靠性。該方法首先利用可靠的統計檢驗方法,基於所涉及的數據模式的明確支持度來剔除虛假規則,接著利用模糊支持度,對通過統計檢驗的規則進行興趣度指標的評估。該方法可以從三個方面提高空間關聯規則挖掘結果的可靠性:a)比傳統模糊空間關聯規則挖掘算法多發現至少50%的顯著規則;b)將整個空間關聯規則挖掘結果中包含任何虛假規則的概率(即族錯誤率)控制在用戶指定的任意閾值以下,如5%以下;c)相較於明確空間關聯規則挖掘,可以避免興趣度指標值的較大正誤差。該方法已在基於社交媒體數據的商業網點熱度區位因素分析中得到應用。

使用明確-模糊混合時空關聯規則挖掘進行商業選址評估
左圖:研究區域(局部) 右圖:對餐飲網點受歡迎幾率最重要的五條規則(即五項區位因素)

基於差分進化算法的顯著性模糊關聯規則挖掘(DESigDAR):我們提出了DESigFAR這一關聯規則挖掘新算法,該算法利用差分進化來挖掘優化的顯著性模糊關聯規則,差分進化是進化算法中表現最好的算法之一。相較於未經優化的傳統關聯規則挖掘算法,DESigFAR所得的顯著規則和興趣度指標值優度可達傳統算法的2-10倍。同時,通過新提出的兩種可靠性統計顯著檢驗,即實驗調節法和每代調節法,DESigFAR首次在進化算法環境下將族錯誤率和虛假規則率控制在用戶指定的任意水平 (如5%)以下。該方法已在酒店房價因素和火災風險因素的研究中得到應用。

DESigFAR算法流程
DESigFAR在酒店房價因素研究中的應用

高吸引力主题区域推荐

基於位置的社交網絡為研究者挖掘推薦高吸引力地點提供了新工具,並可以進而改善用戶的旅遊和交互體驗。然而,社交網絡數據仍然面臨著雜亂短文本及缺少先驗知識等挑戰。這種挑戰限制了傳統語義建模方法的有效性。另一挑戰是,如何準確地預測區域吸引力。為了解決以上挑戰,我們提出了一個工作流,對主題區域進行挖掘和推薦。其關鍵模塊描述如下:

1.地理主題挖掘

地理主題挖掘是在地理背景下,對空間大數據進行主題建模,常用的數據包括GPS數據和社交網絡數據等。社交媒體數據夾雜著大量的短文本和噪聲,傳統統計建模方法無法有效處理。我們提出了一種非監督數據驅動的主題建模方法,可以提高社交媒體環境下的地理主題挖掘準確性。具體而言,我們將社交文本數據的標簽作為網路節點,將標簽間的共同出現頻率作為節點間邊的權重,進而構造了一個無向標簽網路。我們使用貪心優化算法,對標簽網路進行分割。被分割到同一社區的標簽享有相同的主題。我們的方法是數據驅動,並且不需要組織良好的文本訓練數據或者是諸如主題數量等先驗知識,因此可以減少潛在誤差。

基於社區檢測的地理主題挖掘

2. 基于HITS模型的區域吸引力預測

在確定了帶有地理標簽的社交媒體數據的主題後,各主題區域可以通過空間聚類獲得。但是,我們仍然面臨的一項挑戰是,如何有效地對區域進行打分和推薦。鑒於此,我們提出了一種新型的區域排名及推薦策略,可以更準確地對高吸引力區域進行預測。我們提出的策略是基於Hyper-Induced Topic Search (HITS)模型。區域的空間尺度及用戶經驗和區域吸引力的交互增強關系也都被模型考慮在內。因此,本模型可以更準確地確定高吸引力區域。

基于HITS模型的區域排名建模

3. 基於神經網絡模型的區域吸引力預測

區域吸引力預測面臨的一大問題是,傳統方法通常使用經驗公式。這些經驗公式往往是基於直覺及假設,其準確性仍然存疑。為了解決這一難題,我們提出了一種新型神經網絡模型。該模型首先使用編碼器學習特征表達,進而使用全連接神經網絡層預測區域吸引力。我們的神經網絡模型可以自適應地學習隱含特徵間的未知關係,相比傳統經驗模型,可以取得了更好的預測表現。

基於神經網絡的區域吸引力預測模型

相關專利:
[1] Shi W, Liu Z*, An Z, et al. RegNet: a neural network model for predicting regional desirability with VGI data [J]. International Journal of Geographical Information Science (accepted)
[1] Liu Z, Zhou X, Shi W*, et al. Recommending attractive thematic regions by semantic community detection with multi-sourced VGI data[J]. International Journal of Geographical Information Science, 2019, 33(8): 1520-1544.