正文

數(shù)據(jù)挖掘的定義（簡述數(shù)據(jù)挖掘的定義）

發(fā)布時(shí)間：2023-04-14 09:16:23 稿源：創(chuàng)意嶺閱讀： 131

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于數(shù)據(jù)挖掘的定義的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、什么是數(shù)據(jù)挖掘？數(shù)據(jù)挖掘怎么做啊
2、傳統(tǒng)的數(shù)據(jù)挖掘和大數(shù)據(jù)的區(qū)別是什么
3、數(shù)據(jù)挖掘名詞解釋？
4、數(shù)據(jù)挖掘概念綜述

數(shù)據(jù)挖掘的定義（簡述數(shù)據(jù)挖掘的定義）

一、什么是數(shù)據(jù)挖掘？數(shù)據(jù)挖掘怎么做啊

關(guān)于什么是數(shù)據(jù)挖掘，很多學(xué)者和專家給出了不同的定義，以下我們列出幾種常見的說法：

“簡單地說，數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或‘挖掘’知識(shí)。該術(shù)語實(shí)際上有點(diǎn)用詞不當(dāng)。數(shù)據(jù)挖掘應(yīng)當(dāng)更正確地命名為‘從數(shù)據(jù)中挖掘知識(shí)’，不幸的是它有點(diǎn)長。許多人把數(shù)據(jù)挖掘視為另一個(gè)常用的術(shù)語‘?dāng)?shù)據(jù)庫中知識(shí)發(fā)現(xiàn)’或KDD的同義詞。而另一些人只是把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。” ——《數(shù)據(jù)挖掘：概念與技術(shù)》（J. Han and M. Kamber）

“數(shù)據(jù)挖掘就是對觀測到的數(shù)據(jù)集（經(jīng)常是很龐大的）進(jìn)行分析，目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對其有價(jià)值的新穎方式來總結(jié)數(shù)據(jù)?！薄稊?shù)據(jù)挖掘原理》（David Hand, et al）

“運(yùn)用基于計(jì)算機(jī)的方法，包括新技術(shù)，從而在數(shù)據(jù)中獲得有用知識(shí)的整個(gè)過程，就叫做數(shù)據(jù)挖掘?！薄稊?shù)據(jù)挖掘－－概念、模型、方法和算法》（Mehmed Kantardzic）

“數(shù)據(jù)挖掘，簡單地說，就是從一個(gè)數(shù)據(jù)庫中自動(dòng)地發(fā)現(xiàn)相關(guān)模式?！薄稑?gòu)建面向CRM的數(shù)據(jù)挖掘應(yīng)用》（Alex Berson, et al）

“數(shù)據(jù)挖掘(DM)是從大型數(shù)據(jù)庫中將隱藏的預(yù)測信息抽取出來的過程。”——《數(shù)據(jù)挖掘：機(jī)遇與挑戰(zhàn)》（John Wang）

而作為數(shù)據(jù)挖掘領(lǐng)域的華人第一人，韓家煒教授在《數(shù)據(jù)挖掘：概念與技術(shù)》的教學(xué)幻燈片中，給出一個(gè)更清晰的定義：“數(shù)據(jù)挖掘，就是從大型數(shù)據(jù)庫中抽取有意義的（非平凡的，隱含的，以前未知的并且是有潛在價(jià)值的）信息或模式的過程?！?/p>

這里我們可以看到數(shù)據(jù)挖掘具有以下幾個(gè)特點(diǎn)：

基于大量數(shù)據(jù)：并非說小數(shù)據(jù)量上就不可以進(jìn)行挖掘，實(shí)際上大多數(shù)數(shù)據(jù)挖掘的算法都可以在小數(shù)據(jù)量上運(yùn)行并得到結(jié)果。但是，一方面過小的數(shù)據(jù)量完全可以通過人工分析來總結(jié)規(guī)律，另一方面來說，小數(shù)據(jù)量常常無法反映出真實(shí)世界中的普遍特性。

非平凡性：所謂非平凡，指的是挖掘出來的知識(shí)應(yīng)該是不簡單的，絕不能是類似某著名體育評論員所說的“經(jīng)過我的計(jì)算，我發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象，到本場比賽結(jié)束為止，這屆世界杯的進(jìn)球數(shù)和失球數(shù)是一樣的。非常的巧合！”那種知識(shí)。這點(diǎn)看起來勿庸贅言，但是很多不懂業(yè)務(wù)知識(shí)的數(shù)據(jù)挖掘新手卻常常犯這種錯(cuò)誤。

隱含性：數(shù)據(jù)挖掘是要發(fā)現(xiàn)深藏在數(shù)據(jù)內(nèi)部的知識(shí)，而不是那些直接浮現(xiàn)在數(shù)據(jù)表面的信息。常用的BI工具，例如報(bào)表和OLAP，完全可以讓用戶找出這些信息。

新奇性：挖掘出來的知識(shí)應(yīng)該是以前未知的，否則只不過是驗(yàn)證了業(yè)務(wù)專家的經(jīng)驗(yàn)而已。只有全新的知識(shí)，才可以幫助企業(yè)獲得進(jìn)一步的洞察力。

價(jià)值性：挖掘的結(jié)果必須能給企業(yè)帶來直接的或間接的效益。有人說數(shù)據(jù)挖掘只是“屠龍之技”，看起來神乎其神，卻什么用處也沒有。這只是一種誤解，不可否認(rèn)的是在一些數(shù)據(jù)挖掘項(xiàng)目中，或者因?yàn)槿狈γ鞔_的業(yè)務(wù)目標(biāo)，或者因?yàn)閿?shù)據(jù)質(zhì)量的不足，或者因?yàn)槿藗儗Ω淖儤I(yè)務(wù)流程的抵制，或者因?yàn)橥诰蛉藛T的經(jīng)驗(yàn)不足，都會(huì)導(dǎo)致效果不佳甚至完全沒有效果。但大量的成功案例也在證明，數(shù)據(jù)挖掘的確可以變成提升效益的利器。

“數(shù)據(jù)挖掘”這個(gè)術(shù)語是在什么時(shí)候被大家普遍接受的，已經(jīng)難以考證，大約在上世紀(jì)90年代開始興起。其中還有一段趣話。在科研界，最初一直沿用“數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)”（即KDD，Knowledge Discovery in Database）。在第一屆KDD國際會(huì)議中，委員會(huì)曾經(jīng)展開討論，是繼續(xù)沿用KDD，還是改名為Data Mining（數(shù)據(jù)挖掘）？最后大家決定投票表決，采納票數(shù)多的一方的選擇。投票結(jié)果頗有戲劇性，一共14名委員，其中7位投票贊成KDD，另7位贊成Data Mining。最后一位元老提出“數(shù)據(jù)挖掘這個(gè)術(shù)語過于含糊，做科研應(yīng)該要有知識(shí)”，于是在科研界便繼續(xù)沿用KDD這個(gè)術(shù)語。而在商用領(lǐng)域，因?yàn)椤皵?shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)”顯得過于冗長，就普遍采用了更加通俗簡單的術(shù)語——“數(shù)據(jù)挖掘”。

嚴(yán)格地說，數(shù)據(jù)挖掘并不是一個(gè)全新的領(lǐng)域，它頗有點(diǎn)“新瓶裝舊酒”的意味。組成數(shù)據(jù)挖掘的三大支柱包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫等領(lǐng)域內(nèi)的研究成果，其它還包含了可視化、信息科學(xué)等內(nèi)容。數(shù)據(jù)挖掘納入了統(tǒng)計(jì)學(xué)中的回歸分析、判別分析、聚類分析以及置信區(qū)間等技術(shù)，機(jī)器學(xué)習(xí)中的決策樹、神經(jīng)網(wǎng)絡(luò)等技術(shù)，數(shù)據(jù)庫中的關(guān)聯(lián)分析、序列分析等技術(shù)。

二、傳統(tǒng)的數(shù)據(jù)挖掘和大數(shù)據(jù)的區(qū)別是什么

大數(shù)據(jù)具有“高維、海量、實(shí)時(shí)”的特點(diǎn)，就是說數(shù)據(jù)量大，數(shù)據(jù)源和數(shù)據(jù)的維度高，并且更新迅速的特點(diǎn)，傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)可能很難解決，需要從算法的改進(jìn)和方案的框架等多方面去提升處理能力。

數(shù)據(jù)挖掘基于數(shù)據(jù)庫理論，機(jī)器學(xué)習(xí)，人工智能，現(xiàn)代統(tǒng)計(jì)學(xué)的迅速發(fā)展的交叉學(xué)科，在很多領(lǐng)域中都有應(yīng)用。涉及到很多的算法，源于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，決策樹，也有基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)，分類回歸樹，和關(guān)聯(lián)分析的諸多算法。數(shù)據(jù)挖掘的定義是從海量數(shù)據(jù)中找到有意義的模式或知識(shí)。如果想要全部掌握有關(guān)的知識(shí)，必須要進(jìn)行系統(tǒng)的學(xué)習(xí)，建議報(bào)名相關(guān)的專業(yè)機(jī)構(gòu)進(jìn)行線上或者線下課程的學(xué)習(xí)。

想要了解更多有關(guān)數(shù)據(jù)挖掘的信息，可以了解一下CDA數(shù)據(jù)分析師的課程。課程內(nèi)容兼顧培養(yǎng)解決數(shù)據(jù)挖掘流程問題的橫向能力以及解決數(shù)據(jù)挖掘算法問題的縱向能力。要求學(xué)生具備從數(shù)據(jù)治理根源出發(fā)的思維，通過數(shù)字化工作方法來探查業(yè)務(wù)問題，通過近因分析、宏觀根因分析等手段，再選擇業(yè)務(wù)流程優(yōu)化工具還是算法工具，而非“遇到問題調(diào)算法包”點(diǎn)擊預(yù)約免費(fèi)試聽課。

三、數(shù)據(jù)挖掘名詞解釋？

數(shù)據(jù)挖掘的意思就是說要找出一件事物當(dāng)中的具體問題，需要分析它的數(shù)據(jù)，挖掘數(shù)據(jù)才能分析

四、數(shù)據(jù)挖掘概念綜述

數(shù)據(jù)挖掘概念綜述

數(shù)據(jù)挖掘又稱從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)（KDD）、數(shù)據(jù)分析、數(shù)據(jù)融合（Data Fusion）以及決策支持。KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。隨后在1991年、1993年和1994年都舉行KDD 專題討論會(huì)，匯集來自各個(gè)領(lǐng)域的研究人員和應(yīng)用開發(fā)者，集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識(shí)表示、知識(shí)運(yùn)用等問題。隨著參與人員的不斷增多，KDD國際會(huì)議發(fā)展成為年會(huì)。1998 年在美國紐約舉行的第四屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù) 挖掘國際學(xué)術(shù)會(huì)議不僅進(jìn)行了學(xué)術(shù)討論，并且有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品，不少軟件已在北美、歐洲等國得到應(yīng)用。

一、什么是數(shù)據(jù)挖掘

1.1、數(shù)據(jù)挖掘的歷史

近十幾年來，人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高，千萬萬個(gè)數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等，這一勢頭仍將持續(xù)發(fā)展下去。于是，一個(gè)新的挑戰(zhàn)被提了出來：在這被稱之為信息爆炸的時(shí)代，信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒，從中及時(shí)發(fā)現(xiàn)有用的知識(shí)，提高信息利用率呢？要想使數(shù)據(jù)真正成為一個(gè)公司的資源，只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行，否則大量的數(shù)據(jù)可能成為包袱，甚至成為垃圾。因此，面對”人們被數(shù)據(jù)淹沒，人們卻饑餓于知識(shí)”的挑戰(zhàn)。另一方面計(jì)算機(jī)技術(shù)的另一領(lǐng)域——人工智能自1956年誕生之后取得了重大進(jìn)展。經(jīng)歷了博弈時(shí)期、自然語言理解、知識(shí)工程等階段，目前的研究熱點(diǎn)是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是用計(jì)算機(jī)模擬人類學(xué)習(xí)的一門科學(xué)，比較成熟的算法有神經(jīng)網(wǎng)絡(luò)、遺傳算法等。用數(shù)據(jù)庫管理系統(tǒng)來存儲(chǔ)數(shù)據(jù)，用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù)，挖掘大量數(shù)據(jù)背后的知識(shí)，這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)（KDD：Knowledge Discovery in Databases）的產(chǎn)生，因此，數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)（DMKD）技術(shù)應(yīng)運(yùn)而生，并得以蓬勃發(fā)展，越來越顯示出其強(qiáng)大的生命力。

2.2數(shù)據(jù)挖掘的概念

從1989年到現(xiàn)在，KDD的定義隨著人們研究的不斷深入也在不斷完善，目前比較公認(rèn)的定義是Fayyad 等給出的：KDD是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的以及最終可理解模式的高級(jí)處理過程。從定義可以看出，數(shù)據(jù)挖掘（DataMining）就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉，就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的，如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)，也可以是半結(jié)構(gòu)化的，如文本、圖形、圖像數(shù)據(jù)，甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的，也可以是非數(shù)學(xué)的；可以是演繹的，也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等，還可以用于數(shù)據(jù)自身的維護(hù)。因此，數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科，它匯聚了不同領(lǐng)域的研究者，尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。

特別要指出的是，數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用，而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理，以指導(dǎo)實(shí)際問題的求解，企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián)，甚至利用已有的數(shù)據(jù)對未來的活動(dòng)進(jìn)行預(yù)測。

一般來說在科研領(lǐng)域中稱為KDD，而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘。

二、數(shù)據(jù)挖掘的步驟

KDD包括以下步驟：

1、數(shù)據(jù)準(zhǔn)備

KDD的處理對象是大量的數(shù)據(jù)，這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中，是長期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上面進(jìn)行知識(shí)挖掘，需要做數(shù)據(jù)準(zhǔn)備工作，一般包括數(shù)據(jù)的選擇（選擇相關(guān)的數(shù)據(jù)）、凈化（消除噪音、冗余數(shù)據(jù)）、推測（推算缺失數(shù)據(jù)）、轉(zhuǎn)換（離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換，數(shù)據(jù)值的分組分類，數(shù)據(jù)項(xiàng)之間的計(jì)算組合等）、數(shù)據(jù)縮減（減少數(shù)據(jù)量）。如果KDD的對象是數(shù)據(jù)倉庫，那么這些工作往往在生成數(shù)據(jù)倉庫時(shí)已經(jīng)準(zhǔn)備妥當(dāng)。數(shù)據(jù)準(zhǔn)備是KDD 的第一個(gè)步驟，也是比較重要的一個(gè)步驟。數(shù)據(jù)準(zhǔn)備是否做好將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。

2、數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是KDD最關(guān)鍵的步驟，也是技術(shù)難點(diǎn)所在。研究KDD的人員中大部分都在研究數(shù)據(jù)挖掘技術(shù)，采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。數(shù)據(jù)挖掘根據(jù)KDD的目標(biāo)，選取相應(yīng)算法的參數(shù)，分析數(shù)據(jù)，得到可能形成知識(shí)的模式模型。

3、評估、解釋模式模型

上面得到的模式模型，有可能是沒有實(shí)際意義或沒有實(shí)用價(jià)值的，也有可能是其不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義，甚至在某些情況下是與事實(shí)相反的，因此需要評估，確定哪些是有效的、有用的模式。評估可以根據(jù)用戶多年的經(jīng)驗(yàn)，有些模式也可以直接用數(shù)據(jù)來檢驗(yàn)其準(zhǔn)確性。這個(gè)步驟還包括把模式以易于理解的方式呈現(xiàn)給用戶。

4、鞏固知識(shí)

用戶理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式模型形成了知識(shí)。同時(shí)還要注意對知識(shí)做一

致性檢查，解決與以前得到的知識(shí)互相沖突、矛盾的地方，使知識(shí)得到鞏固。

5、運(yùn)用知識(shí)

發(fā)現(xiàn)知識(shí)是為了運(yùn)用，如何使知識(shí)能被運(yùn)用也是KDD的步驟之一。運(yùn)用知識(shí)有兩種方法：一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果，就可以對決策提供支持；另一種是要求對新的數(shù)據(jù)運(yùn)用知識(shí)，由此可能產(chǎn)生新的問題，而需要對知識(shí)做進(jìn)一步的優(yōu)化

三、數(shù)據(jù)挖掘的特點(diǎn)及功能

3.1、數(shù)據(jù)挖掘的特點(diǎn)

數(shù)據(jù)挖掘具有如下幾個(gè)特點(diǎn)，當(dāng)然，這些特點(diǎn)與數(shù)據(jù)挖掘要處理的數(shù)據(jù)和目的是密切相關(guān)的。

1、處理的數(shù)據(jù)規(guī)模十分巨大。

2、查詢一般是決策制定者（用戶）提出的即時(shí)隨機(jī)查詢，往往不能形成精確的查詢要求。

3、由于數(shù)據(jù)變化迅速并可能很快過時(shí)，因此需要對動(dòng)態(tài)數(shù)據(jù)作出快速反應(yīng)，以提供決策支持。

4、主要基于大樣本的統(tǒng)計(jì)規(guī)律，其發(fā)現(xiàn)的規(guī)則不一定適用于所有數(shù)據(jù)

3.2、數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識(shí)有如下幾種：

廣義型知識(shí)，反映同類事物共同性質(zhì)的知識(shí)；

特征型知識(shí)，反映事物各方面的特征知識(shí)；

差異型知識(shí)，反映不同事物之間屬性差別的知識(shí) ;關(guān)聯(lián)型知識(shí)，反映事物之間依賴或關(guān)聯(lián)的知識(shí)；

預(yù)測型知識(shí)，根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù)；偏離型知識(shí)，揭示事物偏離常規(guī)的異?，F(xiàn)象。

所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn)，隨著概念樹的提升，從微觀到中觀再到宏觀，以滿足不同用戶、不同層次決策的需要。例如，從一家超市的數(shù)據(jù)倉庫中，可以發(fā)現(xiàn)的一條典型關(guān)聯(lián)規(guī)則可能是”買面包和黃油的顧客十有八九也買牛奶”，也可能是”買食品的顧客幾乎都用信用卡”，這種規(guī)則對于商家開發(fā)和實(shí)施客戶化的銷售計(jì)劃和策略是非常有用的。至于發(fā)現(xiàn)工具和方法，常用的有分類、聚類、減維、模式識(shí)別、可視化、決策樹、遺傳算法、不確定性處理等。歸納起來，數(shù)據(jù)挖掘有如下幾個(gè)功能：

預(yù)測/驗(yàn)證功能：預(yù)測/驗(yàn)證功能指用數(shù)據(jù)庫的若干已知字段預(yù)測或驗(yàn)證其他未知字段值。預(yù)測方法有統(tǒng)計(jì)分析方法、關(guān)聯(lián)規(guī)則和決策樹預(yù)測方法、回歸樹預(yù)測方法等。

描述功能：描述功能指找到描述數(shù)據(jù)的可理解模式。描述方法包括以下幾種：數(shù)據(jù)分類、回歸分析、簇聚、概括、構(gòu)造依賴模式、變化和偏差分析、模式發(fā)現(xiàn)、路徑發(fā)現(xiàn)等。

四、數(shù)據(jù)挖掘的模式

數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式。模式是一個(gè)用語言L來表示的一個(gè)表達(dá)式E，它可用來描述數(shù)據(jù)集F中數(shù)據(jù)的特性，E 所描述的數(shù)據(jù)是集合F的一個(gè)子集FE。E作為一個(gè)模式要求它比列舉數(shù)據(jù)子集FE中所有元素的描述方法簡單。例如，“如果成績在81 ～90之間，則成績優(yōu)良”可稱為一個(gè)模式，而“如果成績?yōu)?1、82、83、84、85、86、87、88、89 或90，則成績優(yōu)良”就不能稱之為一個(gè)模式。

模式有很多種，按功能可分有兩大類：預(yù)測型（Predictive）模式和描述型（Descriptive）模式。

預(yù)測型模式是可以根據(jù)數(shù)據(jù)項(xiàng)的值精確確定某種結(jié)果的模式。挖掘預(yù)測型模式所使用的數(shù)據(jù)也都是可以明確知道結(jié)果的。例如，根據(jù)各種動(dòng)物的資料，可以建立這樣的模式：凡是胎生的動(dòng)物都是哺乳類動(dòng)物。當(dāng)有新的動(dòng)物資料時(shí)，就可以根據(jù)這個(gè)模式判別此動(dòng)物是否是哺乳動(dòng)物。

描述型模式是對數(shù)據(jù)中存在的規(guī)則做一種描述，或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分組。描述型模式不能直接用于預(yù)測。例如，在地球上，70 ％的表面被水覆蓋，30 ％是土地。

在實(shí)際應(yīng)用中，往往根據(jù)模式的實(shí)際作用細(xì)分為以下6 種：

1、分類模式

分類模式是一個(gè)分類函數(shù)（分類器），能夠把數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類上。分類模式往往表現(xiàn)為一棵分類樹，根據(jù)數(shù)據(jù)的值從樹根開始搜索，沿著數(shù)據(jù)滿足的分支往上走，走到樹葉就能確定類別。

2、回歸模式

回歸模式的函數(shù)定義與分類模式相似，它們的差別在于分類模式的預(yù)測值是離散的，回歸模式的預(yù)測值是連續(xù)的。如給出某種動(dòng)物的特征，可以用分類模式判定這種動(dòng)物是哺乳動(dòng)物還是鳥類；給出某個(gè)人的教育情況、工作經(jīng)驗(yàn)，可以用回歸模式判定這個(gè)人的年工資在哪個(gè)范圍內(nèi)，是在6000元以下，還是在6000元到1萬元之間，還是在1萬元以上。

3、時(shí)間序列模式

時(shí)間序列模式根據(jù)數(shù)據(jù)隨時(shí)間變化的趨勢預(yù)測將來的值。這里要考慮到時(shí)間的特殊性質(zhì)，像一些周期性的時(shí)間定義如星期、月、季節(jié)、年等，不同的日子如節(jié)假日可能造成的影響，日期本身的計(jì)算方法，還有一些需要特殊考慮的地方如時(shí)間前后的相關(guān)性（過去的事情對將來有多大的影響力）等。只有充分考慮時(shí)間因素，利用現(xiàn)有數(shù)據(jù)隨時(shí)間變化的一系列的值，才能更好地預(yù)測將來的值。

4、聚類模式

聚類模式把數(shù)據(jù)劃分到不同的組中，組之間的差別盡可能大，組內(nèi)的差別盡可能小。與分類模式不同，進(jìn)行聚類前并不知道將要?jiǎng)澐殖蓭?個(gè)組和什么樣的組，也不知道根據(jù)哪一（幾）個(gè)數(shù)據(jù)項(xiàng)來定義組。一般來說，業(yè)務(wù)知識(shí)豐富的人應(yīng)該可以理解這些組的含義，如果產(chǎn)生的模式無法理解或不可用，則該模式可能是無意義的，需要回到上階段重新組織數(shù)據(jù)。

5、關(guān)聯(lián)模式

關(guān)聯(lián)模式是數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是如下形式的一種規(guī)則：“在無力償還貸款的人當(dāng)中，60％的人的月收入在3000元以下?！?/p>

6、序列模式

序列模式與關(guān)聯(lián)模式相仿，而把數(shù)據(jù)之間的關(guān)聯(lián)性與時(shí)間聯(lián)系起來。為了發(fā)現(xiàn)序列模式，不僅需要知道事件是否發(fā)生，而且需要確定事件發(fā)生的時(shí)間。例如，在購買彩電的人們當(dāng)中，60％的人會(huì)在3個(gè)月內(nèi)購買影碟機(jī)

五、數(shù)據(jù)挖掘的發(fā)現(xiàn)任務(wù)

數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多，有多種分類法。根據(jù)挖掘任務(wù)分，可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等；根據(jù)挖掘?qū)ο蠓郑嘘P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分，可粗分為：機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。機(jī)器學(xué)習(xí)中，可細(xì)分為：歸納學(xué)習(xí)方法（決策樹、規(guī)則歸納等）、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法中，可細(xì)分為：回歸分析（多元回歸、自回歸等）、判別分析（貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等）、聚類分析（系統(tǒng)聚類、動(dòng)態(tài)聚類等）、探索性分析（主元分析法、相關(guān)分析法等）等。神經(jīng)網(wǎng)絡(luò)方法中，可細(xì)分為：前向神經(jīng)網(wǎng)絡(luò)（BP算法等）、自組織神經(jīng)網(wǎng)絡(luò)（自組織特征映射、競爭學(xué)習(xí)等）等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP 方法，另外還有面向?qū)傩缘臍w納方法。

從挖掘任務(wù)和挖掘方法的角度而言有數(shù)據(jù)總結(jié)、分類發(fā)現(xiàn)、聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)四種非常重要的發(fā)現(xiàn)任務(wù)。

5.1、數(shù)據(jù)總結(jié)

數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進(jìn)行濃縮，給出它的緊湊描述。傳統(tǒng)的也是最簡單的數(shù)據(jù)總結(jié)方法是計(jì)算出數(shù)據(jù)庫的各個(gè)字段上的求和值、平均值、方差值等統(tǒng)計(jì)值，或者用直方圖、餅狀圖等圖形方式表示。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。由于數(shù)據(jù)庫上的數(shù)據(jù)或?qū)ο笏男畔⒖偸亲钤?、基本的信息（這是為了不遺漏任何可能有用的數(shù)據(jù)信息）。人們有時(shí)希望能從較高層次的視圖上處理或?yàn)g覽數(shù)據(jù)，因此需要對數(shù)據(jù)進(jìn)行不同層次上的泛化以適應(yīng)各種查詢要求。數(shù)據(jù)泛化目前主要有兩種技術(shù)：多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。

1、多維數(shù)據(jù)分析方法是一種數(shù)據(jù)倉庫技術(shù)，也稱作聯(lián)機(jī)分析處理（OLAP）。數(shù)據(jù)倉庫是面向決策支持的、集成的、穩(wěn)定的、不同時(shí)間的歷史數(shù)據(jù)集合。決策的前提是數(shù)據(jù)分析。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作，這類操作的計(jì)算量特別大。因此一種很自然的想法是，把匯集操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來，以便于決策支持系統(tǒng)使用。存儲(chǔ)匯集操作結(jié)果的地方稱作多維數(shù)據(jù)庫。多維數(shù)據(jù)分析技術(shù)已經(jīng)在決策支持系統(tǒng)中獲得了成功的應(yīng)用，如著名的SAS數(shù)據(jù)分析軟件包、Business Object公司的決策支持系統(tǒng)Business Object,以及IBM公司的決策分析工具都使用了多維數(shù)據(jù)分析技術(shù)。

采用多維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)總結(jié)，它針對的是數(shù)據(jù)倉庫，數(shù)據(jù)倉庫存儲(chǔ)的是脫機(jī)的歷史數(shù)據(jù)。

2、為了處理聯(lián)機(jī)數(shù)據(jù)，研究人員提出了一種面向?qū)傩缘臍w納方法。它的思路是直接對用戶感興趣的數(shù)據(jù)視圖（用一般的SQL查詢語言即可獲得）進(jìn)行泛化，而不是像多維數(shù)據(jù)分析方法那樣預(yù)先就存儲(chǔ)好了泛化數(shù)據(jù)。方法的提出者對這種數(shù)據(jù)泛化技術(shù)稱之為面向?qū)傩缘臍w納方法。原始關(guān)系經(jīng)過泛化操作后得到的是一個(gè)泛化關(guān)系，它從較高的層次上總結(jié)了在低層次上的原始關(guān)系。有了泛化關(guān)系后，就可以對它進(jìn)行各種深入的操作而生成滿足用戶需要的知識(shí)，如在泛化關(guān)系基礎(chǔ)上生成特性規(guī)則、判別規(guī)則、分類規(guī)則，以及關(guān)聯(lián)規(guī)則等。

5.2、分類發(fā)現(xiàn)

分類在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù)，目前在商業(yè)上應(yīng)用最多。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型（也常常稱作分類器），該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。分類和回歸都可用于預(yù)測。預(yù)測的目的是從利用歷史數(shù)據(jù)紀(jì)錄中自動(dòng)推導(dǎo)出對給定數(shù)據(jù)的推廣描述，從而能對未來數(shù)據(jù)進(jìn)行預(yù)測。和回歸方法不同的是，分類的輸出是離散的類別值，而回歸的輸出則是連續(xù)數(shù)值。

要構(gòu)造分類器，需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成，每個(gè)元組是一個(gè)由有關(guān)字段（又稱屬性或特征）值組成的特征向量，此外，訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可為：（ v1, v2, …， vn; c ）；其中vi表示字段值，c表示類別。

分類器的構(gòu)造方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。統(tǒng)計(jì)方法包括貝葉斯法和非參數(shù)法（近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)），對應(yīng)的知識(shí)表示則為判別函數(shù)和原型事例。機(jī)器學(xué)習(xí)方法包括決策樹法和規(guī)則歸納法，前者對應(yīng)的表示為決策樹或判別樹，后者則一般為產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡(luò)方法主要是BP算法，它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型（由代表神經(jīng)元的節(jié)點(diǎn)和代表聯(lián)接權(quán)值的邊組成的一種體系結(jié)構(gòu)），BP算法本質(zhì)上是一種非線性判別函數(shù)。另外，最近又興起了一種新的方法：粗糙集（rough set），其知識(shí)表示是產(chǎn)生式規(guī)則。

不同的分類器有不同的特點(diǎn)。有三種分類器評價(jià)或比較尺度：1 預(yù)測準(zhǔn)確度；2 計(jì)算復(fù)雜度；3 模型描述的簡潔度。預(yù)測準(zhǔn)確度是用得最多的一種比較尺度，特別是對于預(yù)測型分類任務(wù)，目前公認(rèn)的方法是10番分層交叉驗(yàn)證法。計(jì)算復(fù)雜度依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境，在數(shù)據(jù)挖掘中，由于操作對象是巨量的數(shù)據(jù)庫，因此空間和時(shí)間的復(fù)雜度問題將是非常重要的一個(gè)環(huán)節(jié)。對于描述型的分類任務(wù)，模型描述越簡潔越受歡迎；例如，采用規(guī)則表示的分類器構(gòu)造法就更有用，而神經(jīng)網(wǎng)絡(luò)方法產(chǎn)生的結(jié)果就難以理解。

另外要注意的是，分類的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān)，有的數(shù)據(jù)噪聲大，有的有缺值，有的分布稀疏，有的字段或?qū)傩蚤g相關(guān)性強(qiáng)，有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認(rèn)為不存在某種方法能適合于各種特點(diǎn)的數(shù)據(jù)。

5.3、聚類

聚類是把一組個(gè)體按照相似性歸成若干類別，即”物以類聚”。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小，而不同類別上的個(gè)體間的距離盡可能的大。聚類方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法。

在統(tǒng)計(jì)方法中，聚類稱聚類分析，它是多元數(shù)據(jù)分析的三大方法之一（其它兩種是回歸分析和判別分析）。它主要研究基于幾何距離的聚類，如歐式距離、明考斯基距離等。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。這種聚類方法是一種基于全局比較的聚類，它需要考察所有的個(gè)體才能決定類的劃分；因此它要求所有的數(shù)據(jù)必須預(yù)先給定，而不能動(dòng)態(tài)增加新的數(shù)據(jù)對象。聚類分析方法不具有線性的計(jì)算復(fù)雜度，難以適用于數(shù)據(jù)庫非常大的情況。

在機(jī)器學(xué)習(xí)中聚類稱作無監(jiān)督或無教師歸納；因?yàn)楹头诸悓W(xué)習(xí)相比，分類學(xué)習(xí)的例子或數(shù)據(jù)對象有類別標(biāo)記，而要聚類的例子則沒有標(biāo)記，需要由聚類學(xué)習(xí)算法來自動(dòng)確定。很多人工智能文獻(xiàn)中，聚類也稱概念聚類；因?yàn)檫@里的距離不再是統(tǒng)計(jì)方法中的幾何距離 ,而是根據(jù)概念的描述來確定的。當(dāng)聚類對象可以動(dòng)態(tài)增加時(shí)，概念聚類則稱是概念形成。

在神經(jīng)網(wǎng)絡(luò)中，有一類無監(jiān)督學(xué)習(xí)方法：自組織神經(jīng)網(wǎng)絡(luò)方法；如Kohonen自組織特征映射網(wǎng)絡(luò)、競爭學(xué)習(xí)網(wǎng)絡(luò)等等。在數(shù)據(jù)挖掘領(lǐng)域里，見報(bào)道的神經(jīng)網(wǎng)絡(luò)聚類方法主要是自組織特征映射方法，IBM在其發(fā)布的數(shù)據(jù)挖掘白皮書中就特別提到了使用此方法進(jìn)行數(shù)據(jù)庫聚類分割。

5.4、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則，”在購買面包和黃油的顧客中，有90%的人同時(shí)也買了牛奶”（面包+黃油（牛奶）。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對象是事務(wù)型數(shù)據(jù)庫，其中針對的應(yīng)用則是售貨數(shù)據(jù)，也稱貨籃數(shù)據(jù)。一個(gè)事務(wù)一般由如下幾個(gè)部分組成：事務(wù)處理時(shí)間 ,一組顧客購買的物品，有時(shí)也有顧客標(biāo)識(shí)號(hào)（如信用卡號(hào)）。

由于條形碼技術(shù)的發(fā)展，零售部門可以利用前端收款機(jī)收集存儲(chǔ)大量的售貨數(shù)據(jù)。因此，如果對這些歷史事務(wù)數(shù)據(jù)進(jìn)行分析，則可對顧客的購買行為提供極有價(jià)值的信息。例如，可以幫助如何擺放貨架上的商品（如把顧客經(jīng)常同時(shí)買的商品放在一起），幫助如何規(guī)劃市場（怎樣相互搭配進(jìn)貨）。由此可見，從事務(wù)數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則，對于改進(jìn)零售業(yè)等商業(yè)活動(dòng)的決策非常重要。

如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度，那么在事務(wù)數(shù)據(jù)庫中存在無窮多的關(guān)聯(lián)規(guī)則。事實(shí)上，人們一般只對滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。在文獻(xiàn)中，一般稱滿足一定要求的（如較大的支持度和可信度）的規(guī)則為強(qiáng)規(guī)則。因此，為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則，需要給定兩個(gè)閾值：最小支持度和最小可信度。前者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度，它表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度；后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小可信度，它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。

在實(shí)際情況下，一種更有用的關(guān)聯(lián)規(guī)則是泛化關(guān)聯(lián)規(guī)則。因?yàn)槲锲犯拍铋g存在一種層次關(guān)系，如夾克衫、滑雪衫屬于外套類，外套、襯衣又屬于衣服類。有了層次關(guān)系后，可以幫助發(fā)現(xiàn)一些更多的有意義的規(guī)則。例如，”買外套，買鞋子”（此處，外套和鞋子是較高層次上的物品或概念，因而該規(guī)則是一種泛化的關(guān)聯(lián)規(guī)則）。由于商店或超市中有成千上萬種物品，平均來講，每種物品（如滑雪衫）的支持度很低，因此有時(shí)難以發(fā)現(xiàn)有用規(guī)則；但如果考慮到較高層次的物品（如外套），則其支持度就較高，從而可能發(fā)現(xiàn)有用的規(guī)則。另外，關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時(shí)，除了具有上述關(guān)聯(lián)規(guī)律，還有時(shí)間上或序列上的規(guī)律，因?yàn)椋芏鄷r(shí)候顧客會(huì)這次買這些東西，下次買同上次有關(guān)的一些東西，接著又買有關(guān)的某些東西。

以上就是關(guān)于數(shù)據(jù)挖掘的定義相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。