數據挖掘是所有有關的組織的存儲或數據倉庫中提取模式。這些模式可以用來洞察組織的運作的各個方面,並預測結果為今後的情況下以協助決策。
模式經常關切地分類的所屬情況。例如,為貸款申請人資信與否?將人口的某一部分忽略mailout或回應?將過程給予高,中,低產量?
See5(視窗XP / Vista / 7/8),其對應的Unix C5.0 ,劃定類別的圖案,將它們組裝成分類,並用它們來進行預測複雜的數據挖掘工具。
產品特色:
- See5 / C5.0已被設計來分析大量的數據庫包含數千到數百萬條記錄和幾十到幾百的數字,時間,日期,或名義字段。See5 / C5.0還利用電腦多達八核心中的一個或多個CPU(包括Intel Hyper-Threading),以加快分析。
- 為了最大限度地提高可解釋性,See5 / C5.0分類表示為 決策樹或if-then rules,這通常是容易比神經網絡的理解方式。
- See5 / C5.0適用於Windows XP / Vista / 7/8和Linux。
- See5 / C5.0是易於使用,並且不需要統計或機器學習等任何專業知識
- RuleQuest提供的C原始碼,以便通過See5 / C5.0構造分類器可以嵌入在組織自己的系統。
新的2.10版本
加速比和更低的內存使用情況
See5 / C5.0的進一步方面已經並行化和閱讀數百萬的記錄數據集已修正當一些效率低下。這些改進是最明顯的有較大的應用程序,特別是基於規則和基於提振分類。
稀有類別的改善
那些在訓練數據非常低的表示形式類是所有的數據挖掘系統出了問題。See5 / C5.0的啟發式算法進行了改進,使得它現在發現一些模式被忽視在以前的版本中。
Bug修復
早期版本中有時會遇到與10M +的記錄和非常多類應用程序的問題。這是由整數溢出可能導致崩潰或空規則集所引起的。
為了提振分類,其中增壓被提前終止,訓練數據的誤差分析和混淆矩陣可能是不正確的。結果為測試數據,以及分類器本身,並沒有受到影響。