研究資料首頁-> 研討會論文

研究資料明細

論文名稱 20061017--以 FAT 演算法挖掘頻繁學習序列
發表日期 2006-10-17


[摘要] :
序列模式(Sequential Pattern)的運用層面很廣泛,是資料挖掘的重要研究
領域之一。研究這類型主題的主要問題之一就是在挖掘的過程中產生太多的候選
序列(candidates),增加記憶體需求的負擔以及處理這些序列的時間以及CPU 資
源。本研究提出快速累計樹(Fast Accumulation Tree,FAT)演算法,僅需掃描
序列資料庫一次,以序列資料庫內之序列為累計樹之節點(node),建立準壓縮之
累計樹狀結構。FAT 的優點有:可以減少掃描資料庫的次數,降低累計樹的累計
次數及搜尋次數,減小演算法對於記憶體的需求,而有效的尋找頻繁序列
(Frequent Sequence)及最大頻繁序列(Maximal Frequent Sequence)。
FAT 分為三個階段:產生累計樹階段(Generation Phase)、修剪階段(Pruning
Phase)及最大序列階段(Maximal Phase)。FAT 掃描資料庫一次即可建立累計樹
ATree,過程中無須產生過多的候選序列(Candidates),因此FAT 演算法可以在
記憶體中執行,可迅速、有效率的從學習歷程中尋找頻繁序列。不同於AprioriALL
方法,須要多次掃描資料庫,產生大量的候選序列(candidates)降低執行效率,
而且比較不受到最小支持率(minimum support)變化的影響,越低的最小支持率
產生越多的候選序列,需要更多的記憶體,及更長的運算時間。
數位學習系統記錄學員(Learner)之學習歷程(Portfolio),包括學習成績、
修習課程、以及修習課程的學習序列(Learning Sequence) ,又稱為學習路徑。
根據"英雄所見略同"(Great mind think alike),成功族群的學習序列值得作
為新學員的參考,亦可以預測學生學習狀況。從學生學習歷程(Portfolio)挖掘
出頻繁序列(Frequent Sequences) 。
數位學習標準如SCORM2004 讓教學設計者可以依據學生狀況及教材內容編
定學生學習路徑,不過這過於偏重於教學設計者的主觀想法,若以成功族群的學
習序列編定的學習路徑及教材單元(SCO)之組合,稱為活動樹(Activity Tree),
將會提供新學員更客觀的成功學習路徑。