支持向量机是借助最优化方法来解决机器学习问题的新工具,建立在统计学理论的VC维理论和结构风险最小原理基础之上,根据有限样本在模型的复杂性和学习能力之间寻求最佳折中。它在解决小样本、非线性及高维度模式识别中表现出许多优势,并能推广应用到函数拟合等其他机器学习问题中。
more >>读万卷书,行万里路
决策树分为两个主要类型:分类树和回归树。分类树是针对目标为离散型的情况,即最终目标是预测各样本的所属类别;回归树适用于目标变量为连续型。
决策树的常用算法:CART
(Classification and Regression Trees)和C4.5
(successor of ID3)。
分类回归树CART是既可以建立分类树,也可以构造回归树的算法,是许多集成分类算法的基分类器。根节点或中间节点的字段选择指标是基尼指数。
C4.5是ID3(Iterative Dichotomiser 3)的改进算法,两者都以熵(Entropy)理论和信息增益理论为基础。其中,ID3的字段选择指标是信息增益,C4.5的字段选择指标是信息增益率。两者都只能针对离散型因变量进行分类。
Kmeans聚类算法有两个缺点,一是聚类效果容易受到异常样本点的影响,二是该算法无法准确地将非球形样本进行合理的聚类,而基于密度的聚类DBSCAN(Density-Based Special Clustering of Applications with Noise)可以弥补这两个缺点。“密度”可以理解为样本点的紧密程度,而紧密度的衡量需要使用半径和最小样本量进行评估,如果在指定的半径领域内,实际样本量超过给定的最小样本量阈值,则认为是密度高的对象。该算法可以非常方便地发现样本集中的异常点,故可以通常使用该算法实现异常点的检测。
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true