10 資料探勘
撰寫中
10.1 什麼是資料探勘
資料探勘(Data mining)是用人工智慧、機器學習、統計學和資料庫的交叉方法在相對較大型的資料集中發現模式的計算過程。使用資料探勘技術可以建立從輸入資料學習新資訊,變成智慧的演算法或資料模式,預測事件或協助決策。所以,當資料太少
或太髒
的時候,資料探勘的效力會被影響。
資料探勘要派上用場,必須有以下條件:
- 有一些模式/模型可
學
- 很難定義這些模式/模型
- 有資料可
學
這些模式/模型
資料探勘可應用在:
- 天氣預測
- 搜尋建議、購物建議
- 股市預測
- 臉部辨識、指紋辨識
- 垃圾郵件標記
- 尿布啤酒
資料探勘的步驟
資料探勘的種類 (依資料性質)
- Supervised learning 監督式學習
- Regression 迴歸:真實的’值’(股票、氣溫)
- Linear Regression 線性迴歸
- Logistic Regression 羅吉斯迴歸、邏輯迴歸
- Classification 分類:分兩類(P/N, Yes/No, M/F, Sick/Not sick)/分多類 (A/B/C/D)
- Support Vector Machines 支持向量機
- Decision Trees 決策樹
- Neural Networks 神經網路
- K-Nearest Neighbor
- Regression 迴歸:真實的’值’(股票、氣溫)
- Unsupervised learning 非監督式學習
- Clustering 分群
- Hierarchical clustering 階層式分群
- K-means clustering
- Association Rules 關聯式規則
- Clustering 分群