0 引言
數(shù)據挖掘從20世紀80年代提出到現(xiàn)在,不過短短20多年的時間,但其應用已非常廣泛,不僅用于科研領域,在商業(yè)領域的應用也毫不遜色,尤其是用于銀行、電信、保險、交通、零售(如超級市場)等領域。數(shù)據挖掘在醫(yī)學領域的應用也有著廣泛的前景。在醫(yī)學領域存在著大量的數(shù)據,包括病人病史、診斷、檢驗、和治療的臨床信息,藥品管理信息,醫(yī)院管理信息等。數(shù)據挖掘應用到醫(yī)學領域,對醫(yī)學數(shù)據進行分析,提取隱含的有價值的信息能夠促進醫(yī)院管理者作出明智決策、醫(yī)生對病人的正確診斷和治療。這對促進人類健康、保持健康的生活質量都有積極的意義。
1 基于關聯(lián)規(guī)則數(shù)據挖掘技術分析
1.1 數(shù)據挖掘概述
1.1.1 數(shù)據挖掘的定義
數(shù)據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。這個定義包含幾層含義,數(shù)據源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海而皆準的知識,僅需支持特定的發(fā)現(xiàn)問題。
1.1.2 數(shù)據挖掘的過程
數(shù)據挖掘過程一般需要經歷數(shù)據準備、數(shù)據開采、結果表述和解釋三個主要步驟。
(1)數(shù)據準備。數(shù)據準備是數(shù)據挖掘中的一個重要步驟,數(shù)據準備是否做好將直接影響到數(shù)據挖掘的效率、準確度以及最終模式的有效性。這個階段又可以進一步分為三個子步驟:數(shù)據集成、數(shù)據選擇、數(shù)據預處理。
(2)數(shù)據開采。數(shù)據開采階段選定某個特定的數(shù)據挖掘算法(如關聯(lián)規(guī)則、分類、回歸、聚類等算法),用于搜索數(shù)據中的模式。這是數(shù)據挖掘過程中最關鍵的一步,也是技術難點。
(3)結果表述和解釋。根據最終用戶的決策目的,對提取的信息進行分析,把最有價值的信息區(qū)分出來,并且通過決策支持工具提交給決策者。因此,這一步驟的任務不僅是把結果表達出來,還要對信息進行過濾處理。如果不能令決策者滿意,需要重復以上的數(shù)據挖掘過程。
1.2 關聯(lián)規(guī)則概述
給定一個事務(交易)數(shù)據庫,人們往往希望發(fā)現(xiàn)事務中的關聯(lián)事實,即事務中一些項目的出現(xiàn)必定隱含著同次事務中其他項目的出現(xiàn),這是關聯(lián)規(guī)則的一個簡單的描述。
設I ={t1,t2 ,-,tm} 是由m 個不同項目組成的集合,D 是交易數(shù)據庫(交易數(shù)據庫又稱事務數(shù)據庫),其中每一個交易或事務T 是I 中一些項目的集合,即T- I.每一個交易或事務T 都與一個惟一的標識符TID相聯(lián)。
對于項目集X-I,如果X-T,則交易或事務T 支持X.
如果X 中有k 個項目,則又稱X 為k- 項目集,或X 的長度為k.
關聯(lián)規(guī)則是指形式如下的一種數(shù)據隱含關系:X -Y,其中X - I,Y-I,且X-Y = -.
關聯(lián)規(guī)則挖掘的任務是:在給定的交易或事務數(shù)據庫D 中,發(fā)現(xiàn)D 中所有的頻繁關聯(lián)規(guī)則。所謂頻繁關聯(lián)規(guī)則是指這些規(guī)則的支持度、置信度分別不低于用戶給定的最小支持度和最小置信度。