悠悠
2021-01-06
1、目标变量:性别的概率,男标记为0,女标记为1,阈值为0.5; 2、数据样本1000条,分成训练集900条和测试集50条,验证集50条(不确定总消费额是否要加入模型,男女一样的能花钱); 3、训练模型,性别=美妆x+零食y+母婴z+服装k,使用平滑函数; 4、输入新的用户行为数据,输出大于等于0.5为女性,小于0.5为男性。
共 2 条评论
14
追希
2021-10-17
1.本身想用k邻近算法,但考虑到特征比较多,不适合用k邻近算法。 2.前几个特征单位都是PV,后面一个是消费金额单位元,所以量纲不一致,需要特征归一化,归一化特征值=(原值-最小特征值)/(最大特征值-最小特征值)。 3.设线性回归函数Y=X+a*PV1+ b*PV2+c*PV3+ d*PV4+ e*Money。 4.然后用平滑函数处理函数Y,目标变量是性别的概率,可以定义0为男,1为女,如果平滑函数结果大于0.5则是女,小于0.5则是男。 5.再用交叉熵函数处理平滑函数。 6.用800条数据训练,100条数据验证,100条数据测试。
10
热寂
2022-05-28
step1:模型设计 目标变量:确定用户性别 数据样本:1000个 step2:特征工程 数据清洗:用归一化让量纲一致 特征提取:已提供的数据都是数值型特征,无需继续处理 特征选择:选择的特征有美妆PV、服装PV、零食PV、母婴PV、消费额 训练集500、测试集300、验证集200 step3:模型训练 选择算法:把选择出来的特征做成散点图,确定特征之间是线性关系,决定采用逻辑回归的算法 模型训练:公式y=a1x1+a2x2+a3x3+a4x4+a5x5+b,且用平滑函数P处理y,P=f(y),P大于0.5为女性,小于0.5为男性 将训练集代入模型进行训练,找到让损失函数即交叉熵函数L最小的参数a1、a2、a3、a4、a5、b step4:模型验证 将测试集的数据代入确定参数的模型中,找到拟合能力和泛化能力的平衡点,该过程可用的评估指标:判断模型性能的有召回率、F1、KS、AUC;判断模型稳定性的有PSI step5:模型融合 利用投票方法进行模型融合 step6:模型部署 根据模型所服务的业务是实时响应类型的还是可以非实时响应的,确定交付给开发人员的接口类型
展开
6
Justin
2021-01-06
1、性别=x美妆+y服装+z零食+k母婴+h总消费额。 2、给这个线性回归函数加一个sgmod函数 3、根据后续输入的值预估概率,美妆、零食概率、总消费额加权概率大的为女性;美妆小、零食小、总金额加权概率小的为男性?
4
Rosa rugosa
2021-03-12
【借鉴悠悠同学的】 1、目标变量:性别的概率,男标记为0,女标记为1,阈值为0.5; 2、数据样本1000条,分成训练集600条和测试集200条,验证集200条; 3、训练模型,性别=美妆x+零食y+服装k,使用平滑函数; 4、输入新的用户行为数据,输出大于等于0.5为女性,小于0.5为男性
3
escray
2022-04-13
刚才发现自己犯了一个新手错误,LR 代表逻辑回归 Logistic Regression,而不是线性回归 Linear Regression。 另外一点,逻辑回归处理的是分类问题,而线性回归属于回归问题。 看的有一点迷糊,我怎么感觉逻辑回归就是在线性回归的基础上,增加了一个平滑函数,比如 sigmod?结果从一个数值,变成了从 0 到 1 的一个概率值? 比如,线性回归,可以预测房价在 1 年后涨到多少;如果是逻辑回归,那么可能就是预测房价 1 年后是涨是跌(或者上涨是否超过某一个阈值)? 查询平滑函数 sigmod 的时候,发现 sigmoid 也是同样的意思,在神经网络中也经常使用,被称为激活函数或者激励函数。 除了 Sigmoid 之外,常见的激活函数还有 Tanh、ReLu、leaky relu 等。
1
我不过是善良
2021-01-12
总额消费不应该算在x里吧,它是前面几个的线性和
共 1 条评论
1
Jove
2021-01-07
对数几率函数,Sigmoid 均方误差,MSE 交叉熵误差,CEE
1
liqin
2022-10-15
来自广东
道理我都懂,但为什么大家如此自觉认为大于0.5就是女性,小于0.5就是男性?哈哈
共 1 条评论
热寂
2022-05-20
平滑函数sigmod 函数减小误差的原理是什么呢?