Test
1. 试题类别与知识点总结
Question 1: 数据处理与模型指标(23分)
考察核心:
- 土壤-景观范式(Soil-Landscape Paradigm):理解土壤与地形、气候等环境因素的关系。
- 数据预处理:处理栅格数据(如高程模型、遥感影像)的流程与技术。
- 异常值检测:针对点数据与栅格数据的异常值识别与处理方法。
- 模型评估:计算回归模型的 ( R^2 ) 和 RMSE,理解数据分布与协变量之间的关系。
Question 2: 应用机器学习(22分)
考察核心:
- 机器学习优缺点:算法适用性、过拟合与黑箱问题。
- CART模型:分裂规则、剪枝策略、变量选择与决策树结构。
- 随机森林与CART对比:模型输出的空间连续性差异及原因。
- 模型解释:特征重要性分析、实践中的注意事项(如误用关联性)。
Question 3: 轨迹分析(23分)
考察核心:
- 粗糙时空棱镜(Rough Space-Time Prisms):上下近似区域$P_L, P_U$与不确定性边界$\Delta P$。
- 时间与空间不确定性计算:基于时空参数(位置误差、时间误差、速度限制)判断点的可达性。
- 障碍物约束棱镜:地形或人工障碍对移动路径的硬性限制。
–
Question 4: 连续场与信息价值(22分)
考察核心:
- 期望信息价值(EVOI):先验效用(Prior Utility)与后验效用(Posterior Utility)的区别。
- 试验数据(Trial Data):采样对决策优化的作用。
- 动态时空采样复杂性:对比静态(药物试验)与动态(毒气团扩散)场景的信息优化难度。
2. 典型题目解析与答案
Question 1: 数据处理与模型指标
a) 土壤-景观范式是什么?为什么在数字土壤制图(DSM)中重要?
- 答案:土壤-景观范式认为土壤性质与地形、气候、母质等环境因子存在系统性关联。其重要性在于通过地形(高程、坡度)和气候(温度、降水)数据预测土壤属性(如有机碳),减少实地采样成本。
- 考点:环境变量与土壤形成的关联性。
b) 列举至少3个栅格数据(如DEM)的预处理步骤,并解释原因。
- 答案:
- 缺失值填充:网状数据可能因传感器故障存在空值,需插值或边缘填充。
- 异常值滤波:使用滑动窗口统计法(如中值滤波)去除噪声。
- 标准化/归一化:消除量纲差异(如DEM与温度数据结合时)。
- 考点:数据清洗对模型稳定性的影响。
c) 如何在点数据中检测异常值?
- 答案:可结合统计方法(如3σ准则)和空间聚类(如DBSCAN)检测孤立点;对土壤有机碳(SOC)数据,土壤类型分组的箱线图分析更有效。
- 考点:多维数据异常值检测逻辑。
d) 如何在DEM中检测与去除异常值?
- 答案:通过地形分析(坡度突变、邻域高差对比)识别异常点;采用局部插值(如反距离加权IDW)修复异常值。
- 考点:栅格数据空间连续性修复技术。
g) 给出线性回归模型的预测图,计算 ( R^2 ) 和 RMSE。
- 答案:假设残差平方和(RSS)= 25,总平方和(TSS)= 100,则: $$ R^2 = 1 - \frac{RSS}{TSS} = 1 - 0.25 = 0.75 $$ 若标准差为 $\sqrt{\frac{RSS}{n}} = \sqrt{25/50} = 0.707$,则 RMSE = 0.707。
- 考点:回归指标的实际计算。
Question 2: 应用机器学习
b) 解释CART的校准过程(分裂、剪枝、变量选择、终节点)。
- 答案:
- 分裂:选择使信息增益(如基尼系数)最大的变量和阈值分割数据。
- 剪枝:通过交叉验证,移除增加复杂性的分支以减少过拟合。
- 变量选择:递归分割过程中自动筛选重要性高的变量。
- 终节点:每个叶节点代表一个预测类别或回归值。
- 绘图示意(树形结构,逐层分裂示例)。
d) CART结果图为何呈“块状”?随机森林更平滑的原因?
- 答案:CART通过硬阈值分割数据,每个节点的预测值为区域内均值;随机森林通过多棵树的平均预测,“软分割”边界。
- 考点:模型结构的粒度差异。
f) 根据变量重要性图分析SOC的空间变异驱动因子。
- 答案:若高程、温度重要性高,说明SOC沿地形梯度变化(高海拔低温促进有机质积累);若坡度贡献低,则表层侵蚀可能较次要。
- 考点:环境因子与土壤过程的耦合解释。
Question 3: 轨迹分析
c) 判断各点是否属于粗糙时空棱镜 $P_L, \Delta P, \backslash P^{\downarrow U}$:
- p1(x=5m, y=15m, t=10:30:09):
- 时间误差:目标时间范围为 $10:30:10 ± 1s$ → p1时间=09,超前目标时间下限(不满足时间约束)。
- 结论:不可达$\backslash P^{\downarrow U}$。
- p3(x=15m, y=17m, t=10:30:15):
- 原点至p3距离:$\sqrt{(15-10)^2 + (17-10)^2} = \sqrt{74} ≈ 8.6m$。
- 允许最大速度下的可达距离:$v_U \cdot \Delta t = 5m/s \cdot (15-10.5)s = 22.5m$.
- 距离 < 速度允许范围,且空间误差允许 ±5m → 可达(P_L)。
- 考点:确定性场景下的时空约束计算。
Question 4: 连续场与EVOI
g) 毒气团EVOI案例复杂于药物试验的原因?
- 答案:
- 时空动态性:毒气团随时间扩散,传感器需动态优化采样路径。
- 空间异质性:EVOI需通过插值(IDW)扩展至整个区域,而非单一样本。
- 指标聚合:误分类代价随空间位置(人口密度)与时间(扩散方向)变化。
- 考点:动态系统的信息价值多维性。
3. 模拟题与答案
出题示例: 问题: 使用贝叶斯公式计算 $P(R=toxic|S=safe)$,已知 $P(S=safe|R=toxic)=0.05$,$P(R=toxic)=0.1$,$P(S=safe)=0.86$。 答案: $$ P(R=toxic|S=safe) = \frac{P(S=safe|R=toxic) \cdot P(R=toxic)}{P(S=safe)} = \frac{0.05 \cdot 0.1}{0.86} ≈ 0.0058. $$
总结:试卷全面考察了时空建模、机器学习、EVOI的核心理论与实际应用,需强化贝叶斯分析、时空插值与动态决策三大模块。