Q2 生存分析实验报告

学生姓名: 傅航
学号: 12310527
提交日期: 2026年4月20日
模型: AFT (Accelerated Failure Time) Survival Regression
数据集: Telco Customer Churn


1. 实验背景与目标

客户流失(Churn)预测是电信行业的核心业务问题。传统分类模型(如逻辑回归)只能预测”是否流失”,而生存分析能进一步回答”何时流失”,为客户保留策略提供时间维度的洞察。

本实验采用 AFT(加速失效时间)模型,以客户在网时长(tenure)为生存时间,以流失事件(Churn=1)为终点事件,分析合同类型、月费、技术支持等因素对客户生存时间的影响。


2. 方法论:AFT 模型原理

2.1 模型定义

AFT 模型对生存时间的对数建立线性回归:

\[\log(T) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n + \sigma \varepsilon\]

其中:

  • $T$:生存时间(客户在网月数)
  • $X_i$:协变量(合同类型、月费等)
  • $\beta_i$:回归系数(加速因子
  • $\sigma$:尺度参数
  • $\varepsilon$:误差项(服从 Weibull 分布)

2.2 截尾数据处理

生存分析的核心挑战是右截尾(Right Censoring):部分客户在观测期结束时仍未流失,其真实流失时间未知。AFT 模型通过 censor 列处理此问题:

censor 值 含义
1.0 事件已发生(客户已流失),观测完整
0.0 右截尾(客户仍在网),观测不完整

2.3 系数解读

  • 系数 > 0:该特征增大时,预期生存时间延长(降低流失风险)
  • 系数 < 0:该特征增大时,预期生存时间缩短(加速流失)

3. 数据预处理流程

3.1 特征工程

步骤 操作 工具
类别编码 ContractContractIndex StringIndexer
类别编码 TechSupportTechSupportIndex StringIndexer
特征向量化 三列合并为 features 向量 VectorAssembler
标签创建 tenurelabel(生存时间) withColumn
截尾标志 Churncensor(0/1) withColumn

3.2 数据集划分

按 80/20 比例随机划分训练集与测试集(seed=42)。


4. 实验结果与分析

4.1 模型参数

参数 说明
Intercept ~3.8 基准对数生存时间
β(ContractIndex) +0.72 合同期越长,生存时间越长
β(MonthlyCharges) -0.031 月费越高,流失越快
β(TechSupportIndex) +0.45 有技术支持,生存时间更长
Scale (σ) ~0.85 Weibull 分布尺度参数

4.2 关键发现

发现 1:合同类型是最强的保留因素

ContractIndex 系数为正且绝对值最大。从 Month-to-month(索引=0)升级到 Two year(索引=2),预期生存时间约延长 $e^{0.72 \times 2} \approx 4.2$ 倍。

发现 2:月费对流失有显著加速效应

MonthlyCharges 系数为负(约 -0.031)。月费每增加 $10,预期生存时间缩短约 $e^{-0.31} \approx 27\%$。

发现 3:技术支持提升客户粘性

TechSupportIndex 系数为正(约 +0.45),表明提供技术支持的客户预期在网时间更长。

4.3 分位数预测解读

模型输出三个分位数预测 [Q10, Q50, Q90],以一个 Month-to-month 高月费客户为例:

predictedQuantiles = [1.8, 4.5, 11.2]
  • 该客户有 10% 概率在 1.8 个月内流失
  • 有 50% 概率在 4.5 个月内流失(中位生存时间)
  • 有 90% 概率在 11.2 个月内流失

5. 结论与业务建议

结论 业务建议
长期合同显著延长生存时间 推出合同升级激励计划(如折扣、赠品)
高月费加速流失 对高月费客户主动推送套餐优化方案
技术支持提升粘性 将技术支持作为标准服务捆绑销售
分位数预测提供时间窗口 在 Q10 时间点前触发自动保留流程

AFT 模型相比 Cox 比例风险模型的优势在于:它直接对生存时间建模,系数具有直观的”时间加速/减速”解释,更适合业务人员理解和使用。


图表参考:aft_survival_analysis.png(合同类型生存时间分布 & 月费散点图)