通知公告 - 智能信息处理中心

2023年08月11日：Random Forest vs Logistic Regression: Binary Classification for Heterogeneous Datasets

主页 /
通知公告 /
通知公告

2023年08月11日：Random Forest vs Logistic Regression: Binary Classification for Heterogeneous Datasets

【报告内容】

汇报人：姜照航

汇报单位：太原理工大学

主题：《Random Forest vs Logistic Regression: Binary Classification for Heterogeneous Datasets》

1、Introduction

2、Related Algorithms

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

机器学习算法在具有不同数据特征的数据集上的相对性能还没有很好地记录下来。大多数已发表的研究比较了单个数据集上几个模型之间的整体性能，而不是对由不同维度、多重共线性、输入特征类型以及数值变量分布组成的数据集的整体模型性能进行基准测试。

2.相关创新方案

通过评估由不同底层结构组成的数据集在随机森林和逻辑回归之间的整体分类性能来解决模型选择的困难:(1)增加解释变量和噪声变量的方差，(2)增加噪声变量的数量，(3)增加解释变量的数量，(4)增加观测的数量。

3.实验总结

当增加解释变量和噪声变量的方差时，与随机森林相比，逻辑回归具有更高的总体精度。然而，随机森林的真阳性率高于逻辑回归，随着噪声变量的增加，数据集的假阳性率更高。在所有的模拟案例研究中，一致发现100棵树的随机森林的假阳性率与逻辑回归有统计学差异。一般情况下，当噪声变量数小于或等于解释变量数时，逻辑回归的性能较好，而随机森林随着解释变量数的增加具有较高的真假阳性率。逻辑回归和随机森林对于小于1000个观测值的较小数据集具有可比性。

4.未来工作

未来的发展是合并其他算法，如朴素贝叶斯、XGBootst和人工神经网络。此外，该应用程序可以扩展到二进制分类之外的多标签数据集，并进化到包括回归。为随机森林模型中的树数量指定值是用户需要调优的输入，以提高性能。用户可以选择一个应用网格搜索选项，而不是硬编码树的数量，这是一种详尽的优化方法，它扫描所有可能的参数组合，以找到产生最高精度或其他指定指标的最佳估计器。

报告时间：2023年08月11日19:30

腾讯会议：371 3868 6615

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)