网站首页 > 技术文章 正文
11本电子书放文末,自取~
1、样本不平衡问题怎么处理的,有什么方法?
- 重采样方法:通过欠采样(随机删除多数类样本)或过采样(复制少数类样本或生成合成样本)来平衡样本分布。常见的方法包括随机欠采样、SMOTE(Synthetic Minority Over-sampling Technique)等。
- 类别权重调整:通过调整分类算法中不同类别的权重,使得分类器更加关注少数类样本。一些分类算法(如逻辑回归、支持向量机)提供了设置类别权重的参数。
- 集成方法:使用集成学习算法,如随机森林或梯度提升树(例如XGBoost和LightGBM),能够处理样本不平衡问题。这是因为集成算法可以从多个子模型中综合考虑不同类别的情况。
2、快速排序时间复杂度?稳定性怎么样?为什么是不稳定的
快速排序(QuickSort)的平均时间复杂度为O(n log n),最坏情况下的时间复杂度为O(n^2)。快速排序的稳定性取决于具体的实现方式。通常情况下,快速排序是不稳定的,因为在分区过程中,元素的相对顺序可能会改变。
快速排序的不稳定性是由于分区过程中的元素交换操作引起的。在分区过程中,我们选择一个基准元素(通常是第一个或最后一个元素),将小于基准的元素放在基准的左边,大于基准的元素放在基准的右边。在交换元素的过程中,相等元素的相对顺序可能发生改变,从而导致排序结果的不稳定性。
3、各种评估指标?
- 准确率(Accuracy):分类正确的样本数与总样本数之比。
- 精确率(Precision):在被分类为正例的样本中,真正例的比例。
- 召回率(Recall):在所有正例中,被正确分类为正例的比例。
- F1分数(F1 Score):精确率和召回率的调和均值,综合考虑了两者。
- ROC曲线(Receiver Operating Characteristic curve)和AUC(Area Under the Curve):绘制真正例率(TPR)和假正例率(FPR)之间的关系曲线,并计算曲线下面积。
- 混淆矩阵(Confusion Matrix):展示分类结果的四个统计数字:真正例(True Positive, TP)、假正例(False Positive, FP)、真反例(True Negative, TN)和假反例(False Negative, FN)。
4、xgboost算法介绍?
XGBoost是一种基于梯度提升树(Gradient Boosting Tree)算法的集成学习模型,它在梯度提升树的基础上进行了优化和改进。
XGBoost的主要特点和优势包括:
- 正则化:XGBoost引入了正则化项来控制模型的复杂度,防止过拟合。它通过控制叶子节点的权重以及树的复杂度来实现正则化,避免单棵树过于复杂。
- 自定义损失函数:XGBoost允许用户自定义损失函数,从而能够灵活地适应不同的任务需求。
- 特征选择:XGBoost通过计算特征的重要性得分,可以帮助识别和选择最具预测能力的特征。
- 高效并行:XGBoost在训练过程中支持并行计算,可以利用多线程和分布式计算加速模型的训练。
- 缺失值处理:XGBoost能够自动学习如何处理缺失值,无需对缺失值进行特殊处理。
- 特征交叉:XGBoost支持特征交叉,可以通过组合特征创建新的特征,提升模型的表达能力。
5、评分卡建模全流程?
- 数据准备:收集并清洗需要建模的数据,包括缺失值处理、异常值处理、变量转换等。
- 变量选择:通过特征分析、相关性分析、变量筛选方法(如IV值、WOE值)等,选择最具预测能力的变量作为建模输入。
- 数据切分:将数据集切分为训练集和验证集(测试集),用于模型训练和验证。
- 建立评分卡模型:根据业务需求选择适当的分类算法,如逻辑回归、决策树等,建立评分卡模型。在建模过程中,需要进行特征工程、变量转换、变量融合等步骤。
- 模型评估和验证:使用验证集对模型进行评估,包括计算评分卡的各项指标,如准确率、精确率、召回率、F1分数等。根据评估结果对模型进行调优和验证。
看完本篇如果对你有用请三连,你的支持是我持续输出的动力,感谢,笔芯~
↓ ↓ ↓以下11本书电子版免费领,直接送 ,想要哪本私我下说声,我发你↓ ↓ ↓
以上8本+《2022年Q3最新大厂面试题》+《2022年Q4最新大厂面试题》电子书,部分截图如下:
第11本电子书《2023年最新大厂面试题Q1版》>>>
https://www.julyedu.com/course/getDetail/484
猜你喜欢
- 2025-09-14 面试滴滴科技,被按在地上摩擦,鬼知道我经历了什么?
- 2025-09-14 五年自学前端到京东终面:我才明白自己不是范进,连范进都不如
- 2025-09-14 【干货】网工常见面试题集锦(一)_网工面试自我介绍
- 2025-09-14 历经4面,60w“跳”进腾讯!(附面试流程+真题)
- 2025-09-14 《关于横扫一线厂的那些面试真题》滴滴Java岗(附答案)
- 2024-12-10 产品小白会被问到的十道面试题
- 2024-12-10 封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题
- 2024-12-10 47道网络工程师常见面试题,看看有没有你不会的!
- 2024-12-10 员工去滴滴面试测试岗,因题目太难挂了,一年后见到面试官他蒙了
- 2024-12-10 滴滴2024.2月面试题汇总
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- 前端设计模式 (75)
- 前端性能优化 (51)
- 前端模板 (66)
- 前端跨域 (52)
- 前端缓存 (63)
- 前端aes加密 (58)
- 前端脚手架 (56)
- 前端md5加密 (54)
- 前端路由 (61)
- 前端数组 (73)
- 前端js面试题 (50)
- 前端定时器 (59)
- Oracle RAC (76)
- oracle恢复 (77)
- oracle 删除表 (52)
- oracle 用户名 (80)
- oracle 工具 (55)
- oracle 内存 (55)
- oracle 导出表 (62)
- oracle约束 (54)
- oracle 中文 (51)
- oracle链接 (54)
- oracle的函数 (58)
- oracle面试 (55)
- 前端调试 (52)
本文暂时没有评论,来添加一个吧(●'◡'●)