计算智能导论作业——感知器实现二分类
目 录1 背景知识 11.1 基本定义 11.2 感知器的损失函数 11.3 感知器的训练 12 数据集 23 代码实现 24 结果展示与分析 44.1 数据集一 44.2 数据集二 54.3 数据集三 55 探究 66 总结 7A 程序代码 8
1 背景知识1.1 基本定义感知器可以实现简单的布尔运算, 可以拟合任何的线性函数, 任何线性分类或线性问题都可以用感知器来解决, 布尔运算就可以看作是一个二分类问题, 用一条直线将两类分开。感知器无法实现异或运算, 因为异或运算不是线性的, 无法用一条直线将两类分开。与逻辑斯蒂回归从概率的角度判别不同, 感知机可以理解为从几何的角度上做判断, 即求得一个分离超平面, 可以将对应输入空间中的实例划分为正负两类。一个感知器有如下组成部分:
输入权值: 一个感知器可以接收多个输入 $(x_{1},x_{2},\ldots,x_{n} | x_{i} \in \mathbb{R})$, 每个输入上有一个权值 $\omega_{i} \in \mathbb{R}$, 此外还有一个偏置项 $b \in \mathbb{R}$, 就是上图中的 $\om ...
计算智能导论作业——FCM 聚类的实现
目 录1 背景知识 11.1 FCM 算法原理 12 数据集简介 12.1 Iris 数据集 13 实验环境 14 代码实现 25 结果分析 46 总结 4A Iris FCM 程序代码 5
1 背景知识1.1 FCM 算法原理FCM 算法 (Fuzzy c-Means) 也称为模糊 $C$ 均值算法,是一种基于划分的聚类算法,他的思想就是使得被划分到同一簇的对象之间相似度最大, 而不同簇之间的相似度最小。模糊 $C$ 均值算法是普通 $C$ 均值算法的改进,普通 $C$ 均值算法对于数据的划分是硬性的,而 FCM 则是一种柔性的模糊划分。通过隶属度函数来描述样本属于某个集合的程度, 其自变量范围是所有样本点的所有值,值域范围是 $[0,1]$ ,即 $0 \leq \mu_A(x) \leq 1$。
有了模糊集合的概念, 一个元素属于某个类就不是硬性的, 而是属于某个聚类的隶属度是区间 $[0,1]$ 之间的值,样本属于所有类的隶属度之和应该等于 1,可以表示为
$$J(U,z_{1},z_{2},\ldots,z_{c}) = \sum_{j = 1}^c J_ ...
机器学习上机报告——聚类分析
摘 要本文使用了K-means和DBSCAN两种聚类方法,较好的完成了聚类任务,并将得到的结果使用了t-SNE和PCA两种方法进行降维可视化,从而更好的得到聚类的效果,并计算了轮廓系数、CH score、DBI这些聚类指标,对于K-means方法还使用了图片进行聚类,使得效果更加直观,实验效果非常好。
在这次实验中,使用的两种聚类方法,K-means是基于原型的方法,而DBSCAN是基于密度的聚类方法。本文首先介绍了两种聚类方法的背景知识以及相关指标的知识,随后简单介绍了Iris数据集,然后展示出实验环境。
在代码实现部分,本文分别对两种聚类方法列出了重点的代码,并进行简要的介绍,说明这些部分是如何通过代码实现的。
在实验结果部分,本文展示了两种聚类方法的结果,对于K-means方法,使用Iris数据集进行了降维可视化,并算出Iris的轮廓系数为0.4976,对图片进行聚类,得到着色后的效果图,并进行降维可视化。对于DBSCAN方法,这里使用了八组数据进行展示,分别对八组数据求出其轮廓系数、CH score、DBI这些聚类指标,并得到了较好的实验效果,数据较多,具体数据以及聚类效果图见 ...
机器学习作业——高光谱遥感特征选择
目 录1 实验说明 12 数据集 13 特征选择 23.1 基本方法 23.2 单变量选择法 23.3 递归特征消除法 24 代码实现 24.1 获取数据 24.2 数据预处理 34.3 定义单变量选择函数 34.4 定义递归特征选择法函数 44.5 定义获得数据函数 44.6 定义评定函数 54.7 主函数 55 结果分析 66 优缺点分析 66.1 Filter 66.2 Wrapper 77 总结 7A 作业代码 8
1 实验说明本次实验的目标为利用提供的高光谱遥感数据集进行特征选择, 有以下实验要求:
利用给定的数据集, 进行数据特征 (波段) 选择。
具体选择方法和策略不限制。
实验结果度量标准不少于 4 种, 结合课程学习中的指标。
建议对比不同类型的选择方法, 给出各种方法的优缺点。数据集给出的数据维数较高, 其中存在了许多冗余的信息以及无关信息, 如果把这些实际的数据直接放到神经网络中则很难得出较好的结果, 而且计算量大大增加, 因此需要进行特征提取, 把影响实验效果的特征清除掉, 用较少的特征对实验结果进行分析。
2 数据集在本次实验中, 提供了多种数据可以选择, ...
计算智能导论作业——遗传算法的实现
目 录1 背景知识 11.1 最优化问题 11.2 进化算法 11.3 遗传算法的基本知识 11.3.1 生物背景 21.3.2 基本思想 21.4 遗传算法的组成部分 21.4.1 编码机制 31.4.2 种群初始化 31.4.3 适应度函数 31.4.4 遗传算子 32 算法步骤 43 实验过程 43.1 代码实现 44 结果分析 55 总结 5A 程序代码 7
1 背景知识1.1 最优化问题工程设计中最优化问题 (optimization problem) 的一般提法是要选择一组参数 (变量),在满足一系列有关的限制条件 (约束) 下, 使设计指标 (目标) 达到最优值。最优化问题一般包括两方面问题: 线性问题和非线性问题。一方面是线性问题的求解, 主要在经济活动及工程技术中出现。这类问题一般采用单纯形法来求解。另一方面是非线性问题的求解, 这类问题在工程中经常碰到, 是最为常见的一类问题, 尤其是在物理学和决策中, 许多问题常常可以归结为非线性规划问题。这类问题一般需要先建立一个数学模型, 再进行求解。最优化问题的求解实质就是将物理问题数学化, 把最优化问题的求解转化为目标函数 ...
机器学习报告——数据分类的实现
目 录1 数据集 12 logistic 回归与神经网络 12.1 背景知识 12.1.1 线性及 sigmoid 函数 12.1.2 计算误差及修正参数 12.2 代码实现及结果分析 23 高斯判别分析 33.1 背景知识 33.2 代码实现 44 贝叶斯分类 44.1 背景知识 44.2 代码实现 45 性能分析 46 时效分析 47 影响因素分析 57.1 logistic 分类 58 总结 5A logistic 分类代码 6B GDA 分类代码 8C 贝叶斯分类代码 11D 贝叶斯库函数调用分类代码 12
1 数据集在本次作业中, 在 UCI 中选取了 Sonar 数据集进行分类, 该数据集具有 208 个样本,一共 60 个维度。任务是训练网络以区分反弹的声纳信号从金属圆柱上弹下来和从大致呈圆柱形的岩石弹起。每个模式是一组 60 个数字, 范围在 0.0 到 1.0 之间。每个数字代表在特定时间段内积分的特定频段内的能量。较高频率的积分孔径在时间上较晚出现, 因为这些频率是在线性调频期间稍后传输的。如果对象是岩石,则与每个记录关联的标签包含字母 “ $\mathrm{R}$ ...
数据挖掘报告——MIMC数据集的预处理
摘 要在本次的大作业中,这里首先利用 MySQL 对数据进行整合,并提取出包含 $CO_2$ 和 $O_2$ 相应指标的数据,然后将提取的数据导出,并导入到 Python 中。然后利用第一组数据为示例分别进行缺失值、离群点处理,并完成去噪以及插值处理。随后选出另两组为示例进行可视化,最后得出实验感想与分析,这里去噪利用了 $3\sigma$ 原则。
关键词: $\quad$ MySQL Python $\quad 3\sigma$ 原则
目 录1 数据处理 11.1 数据提取 11.2 数据具体处理 11.3 数据合并 11.4 缺失值处理 21.5 离群点处理 21.6 去噪 41.7 插值 52 第二组数据 52.1 离群点处理 52.2 去噪 62.3 插值 73 第三组数据 83.1 离群点处理 83.2 去噪 93.3 插值 94 总结 10A SQL 程序代码 1 11B SQL 程序代码 2 11(\mathrm{C}) 主程序代码 11D 作业要求 14D. 1 数据集说明 14D. 2 任务说明 14
1 数据处理1.1 数据提取这次作业中数据较大, 直接读取很难看出 ...
记录我的第一次搭建博客
艰难的第一次搭博客其实我在很早之前就想搭博客,大概大一开始的时候,就想着做一些有意义,有兴趣的事,结果一直拖到了现在才开始真正意义上的实践,我也是趁着这次对大一的培训搭建博客,顺便才开始做,看上去不是很难的一件事,实际去做,我却遇到了很多困难,就光配置markdown的front-matter的时候,因为不知道里面还有其他东西,就一直报错,而且和其他一起弄的,我还找不到原因,就导致我花了很大的时间,最后遇到的一个问题是图片的在线存储问题,最后用的码云的仓库来放的,最后头像也解决了,我才能说,我基本才算是搭建成了一个基本的框架。
哎,之前跟现在相比,其实并不忙的,但也是懒,还有各种找的原因,结果到现在,对这样搭博客的基本知识都还都不太了解,有点小愧疚,以后还是得加把劲了。
现在还有一堆大作业要去写,剩下的时间也不多了,就先这样吧。
配置起来不是访问有问题需要外网就是图片的问题,真是很难。