learning/r-dfl.html at main · BobWang21/learning · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>R-DFL 读书笔记 — 递归决策聚焦学习</title>
    <link rel="stylesheet" href="styles.css">
    <script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
    <script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
    <script>
        MathJax = {
            tex: {
                inlineMath: [['$', '$'], ['\\(', '\\)']],
                displayMath: [['$$', '$$'], ['\\[', '\\]']],
                processEscapes: true
            },
            svg: { fontCache: 'global', scale: 1.1, minScale: 0.8 },
            startup: { pageReady: function() { return MathJax.typesetPromise(); } }
        };
    </script>
    <style>
        .ai-section {
            background: white;
            border-radius: 8px;
            padding: 30px;
            margin-bottom: 30px;
            box-shadow: 0 2px 8px rgba(0, 0, 0, 0.05);
        }
        .ai-section h1 {
            color: #1e40af;
            border-bottom: 3px solid #1e40af;
            padding-bottom: 15px;
            margin-top: 0;
            font-size: 1.8rem;
        }
        .ai-section h2 {
            color: #1e40af;
            border-bottom: 2px solid #e2e8f0;
            padding-bottom: 10px;
            margin-top: 35px;
        }
        .ai-section h3 {
            color: #7c3aed;
            margin-top: 25px;
            margin-bottom: 12px;
        }
        .ai-section h4 {
            color: #1e293b;
            margin-top: 20px;
            margin-bottom: 10px;
            font-weight: 600;
        }
        .ai-section p {
            line-height: 1.8;
            margin-bottom: 15px;
        }
        .ai-section ul, .ai-section ol {
            margin-bottom: 15px;
            padding-left: 1.5rem;
        }
        .ai-section li {
            margin-bottom: 6px;
            line-height: 1.8;
        }
        .breadcrumb {
            color: #64748b;
            font-size: 0.95rem;
            margin-bottom: 20px;
        }
        .breadcrumb a {
            color: #1e40af;
            text-decoration: none;
        }
        .breadcrumb a:hover {
            text-decoration: underline;
        }
        .summary-box {
            background: linear-gradient(135deg, rgba(30, 64, 175, 0.05), rgba(124, 58, 237, 0.05));
            border-left: 4px solid #1e40af;
            padding: 15px 20px;
            margin: 20px 0;
            border-radius: 4px;
        }
        .summary-box h4 {
            margin-top: 0;
            color: #1e40af;
        }
        .summary-box ul {
            margin: 10px 0;
            padding-left: 20px;
        }
        .summary-box li {
            margin: 4px 0;
        }
        .ai-section pre {
            background-color: #f8f9fa;
            color: #333;
            border: 1px solid #e2e8f0;
            padding: 15px;
            border-radius: 6px;
            overflow-x: auto;
            margin: 15px 0;
            font-size: 13px;
            line-height: 1.5;
            font-family: 'Courier New', 'Menlo', monospace;
        }
        .ai-section pre code {
            background: none;
            color: inherit;
            padding: 0;
            font-size: inherit;
        }
        .ai-section code {
            background-color: #f1f5f9;
            color: #7c3aed;
            padding: 2px 6px;
            border-radius: 3px;
            font-family: 'Courier New', 'Menlo', monospace;
            font-size: 0.9em;
        }
        .ai-section table {
            width: 100%;
            border-collapse: collapse;
            margin: 15px 0;
            background: white;
            border-radius: 8px;
            overflow: hidden;
            box-shadow: 0 1px 3px rgba(0,0,0,0.1);
        }
        .ai-section table thead {
            background: linear-gradient(135deg, #1e40af, #7c3aed);
            color: white;
        }
        .ai-section table th {
            padding: 10px 14px;
            text-align: left;
            font-weight: 600;
        }
        .ai-section table td {
            padding: 8px 14px;
            border-bottom: 1px solid #e2e8f0;
        }
        .ai-section table tbody tr:hover {
            background-color: rgba(30, 64, 175, 0.05);
        }
        .ai-section blockquote {
            border-left: 4px solid #e74c3c;
            background: #fdf2f2;
            padding: 10px 15px;
            margin: 15px 0;
            border-radius: 4px;
        }
        .page-toc {
            background: #f8fafc;
            border: 1px solid #e2e8f0;
            border-radius: 8px;
            padding: 15px 20px;
            margin: 20px 0;
        }
        .page-toc h4 {
            margin: 0 0 10px 0;
            color: #1e40af;
        }
        .page-toc ul {
            list-style: none;
            padding: 0;
            margin: 0;
        }
        .page-toc li {
            margin: 4px 0;
        }
        .page-toc a {
            color: #1e40af;
            text-decoration: none;
        }
        .page-toc a:hover {
            text-decoration: underline;
        }
        .page-toc a[href*="#"] {
            color: #7c3aed;
        }
        .back-link {
            display: inline-block;
            margin-bottom: 20px;
            padding: 10px 20px;
            background: #1e40af;
            color: white;
            text-decoration: none;
            border-radius: 6px;
            font-weight: 600;
        }
        .back-link:hover {
            background: #0c4a6e;
        }

        /* Override table colgroup setting null bg */
        .ai-section table colgroup { display: none; }
    </style>
</head>
<body>
    <div class="container">
        <div class="sidebar">
    <div class="logo">📚 索引</div>
    <ul class="toc">
        <li><a href="index.html">🏠 首页</a></li>
        <li><a href="index.html#e2e">🔄 端到端</a>
            <ul>
                <li><a href="decision.html">预测与决策结合的范式</a></li>
                <li><a href="r-dfl.html">R-DFL 递归决策聚焦学习</a></li>
            </ul>
        </li>
    </ul>
</div>
        <main class="content">
            <section class="ai-section">
<div class="breadcrumb">
    <a href="index.html">首页</a> &gt; <a href="index.html#e2e">端到端</a> &gt; R-DFL
</div>
<h1>《From Sequential to Recursive: Enhancing Decision-Focused Learning with Bidirectional Feedback》读书笔记</h1>
<div class="summary-box">
    <h4>📄 论文信息</h4>
    <ul>
        <li><strong>标题</strong>：From Sequential to Recursive: Enhancing Decision-Focused Learning with Bidirectional Feedback</li>
        <li><strong>作者</strong>：Xinyu Wang, Jinxiao Du, Yiyang Peng, Wei Ma (The Hong Kong Polytechnic University)</li>
        <li><strong>核心贡献</strong>：提出递归决策聚焦学习（R-DFL）框架，在预测与优化之间引入反馈回路，并给出两种梯度计算方法（显式展开与隐式微分）。</li>
    </ul>
</div>
<h2 id="section1">1 动机或问题背景</h2>
<h3 id="传统方法的局限">1.1 传统方法的局限</h3>
<p>现实世界中的决策问题（如车辆路径规划、库存管理、网约车匹配）通常面临<strong>不确定性</strong>。传统的”预测后优化”（Predict-then-Optimize,
PTO）框架采用两阶段方式：</p>
<ol type="1">
<li>用机器学习模型预测不确定参数</li>
<li>基于预测结果求解优化问题</li>
</ol>
<p><strong>核心问题</strong>：PTO
最小化的是<strong>预测误差</strong>，而非<strong>决策损失</strong>。预测误差小不一定带来决策质量高。</p>
<pre><code>PTO 流程（两阶段分离）:
┌─────────┐     ┌─────────┐     ┌─────────┐
│ 历史数据 │────→│ ML预测  │────→│ 优化求解 │────→ 决策
└─────────┘     └─────────┘     └─────────┘
                 ↑               ↑
            最小化预测误差   但决策可能次优</code></pre>
<h3 id="决策聚焦学习的出现">1.2 决策聚焦学习的出现</h3>
<p>决策聚焦学习（Decision-Focused Learning,
DFL）将优化模块作为可微分层嵌入神经网络，实现<strong>端到端</strong>训练，直接优化决策质量。</p>
<pre><code>S-DFL 流程（训练时闭环）:
┌─────────┐     ┌─────────┐     ┌─────────┐     ┌─────┐
│ 特征 v  │────→│ 预测 F  │────→│ 优化 G  │────→│ 损失 │
└─────────┘     └─────────┘     └─────────┘     └─────┘
                    ↑                 ↑
                    └─────── 梯度 ────┘
                 (训练时有梯度反馈，但推理时仍为开环)</code></pre>
<h3 id="现有-dfl-的根本缺陷">1.3 现有 DFL 的根本缺陷</h3>
<p>现有 DFL（论文称其为 Sequential DFL,
S-DFL）仍保持<strong>顺序结构</strong>：</p>
<blockquote>
<p><strong>单向假设</strong>：预测指导优化，但优化结果不影响后续预测</p>
</blockquote>
<p>这在复杂交互场景中失效。以<strong>网约车匹配</strong>为例：</p>
<ul>
<li>平台提出匹配方案</li>
<li>司机/乘客的接受/拒绝决策提供了<strong>即时反馈</strong></li>
<li>这些反馈本应<strong>反作用于</strong>后续匹配决策</li>
</ul>
<pre><code>S-DFL 在网约车匹配中的问题:
┌────────────────────────────────────────────────────────────┐
│  S-DFL 做法:                                                │
│  ┌──────┐    ┌──────┐    ┌──────┐    ┌──────────┐          │
│  │ 特征 │───→│预测  │───→│优化  │───→│ 执行匹配 │──→ 结束  │
│  └──────┘    └──────┘    └──────┘    └──────────┘          │
│                              ↑                              │
│                     (不接收用户拒绝的反馈)                    │
│                                                             │
│  问题：司机拒绝匹配的信息丢失，无法改进后续决策                 │
└────────────────────────────────────────────────────────────┘</code></pre>
<h3 id="研究问题">1.4 研究问题</h3>
<ol type="1">
<li><strong>如何建模双向预测-优化系统？</strong></li>
<li><strong>在循环结构中如何实现梯度传播？</strong></li>
</ol>

<h2 id="section2">2 解决方法</h2>
<h3 id="r-dfl-框架概述">2.1 R-DFL 框架概述</h3>
<p>论文提出<strong>递归决策聚焦学习</strong>（Recursive Decision-Focused
Learning,
R-DFL），核心创新是引入<strong>从优化返回预测的反馈回路</strong>。</p>
<h4 id="架构对比论文图1">架构对比（论文图1）</h4>
<pre><code>╔═══════════════════════════════════════════════════════════════════════════╗
║                        图1：S-DFL vs R-DFL 架构对比                        ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  S-DFL (顺序结构):                                                        ║
║  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐               ║
║  │ 特征 v  │───→│ 预测 Fθ │───→│   ĉ     │───→│ 优化 G  │───→ 决策 x     ║
║  └─────────┘    └─────────┘    └─────────┘    └─────────┘               ║
║                   (单向流动，无反馈回路)                                   ║
║                                                                           ║
║  ════════════════════════════════════════════════════════════════════════ ║
║                                                                           ║
║  R-DFL (递归结构):                                                        ║
║                              ┌─────────────────────────┐                  ║
║                              │   反馈回路 (决策反馈)     │                  ║
║                              ↓                         │                  ║
║  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐               ║
║  │ 特征 v  │───→│ 预测 Fθ │───→│   ĉ     │───→│ 优化 G  │───→ 决策 x     ║
║  └─────────┘    └─────────┘    └─────────┘    └─────────┘               ║
║                    ↑                            │                        ║
║                    └────────────────────────────┘                        ║
║                    (x 反馈回预测模型，形成闭环)                            ║
║                                                                           ║
║  R-DFL 预测模型输入:  ĉ = Fθ(x, v)   ← 同时依赖特征和上轮决策              ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝</code></pre>
<h4 id="框架组成">框架组成</h4>
<table>
<colgroup>
<col style="width: 33%" />
<col style="width: 33%" />
<col style="width: 33%" />
</colgroup>
<thead>
<tr>
<th style="text-align: left;">模块</th>
<th style="text-align: left;">功能</th>
<th style="text-align: left;">数学表达</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align: left;">预测模型 (_)</td>
<td style="text-align: left;">映射特征+决策 → 预测参数</td>
<td style="text-align: left;">( = _(x, v))</td>
</tr>
<tr>
<td style="text-align: left;">优化模型 ()</td>
<td style="text-align: left;">求解最优决策</td>
<td style="text-align: left;">(x^*() = _{x } g(x; ))</td>
</tr>
</tbody>
</table>
<h4 id="s-dfl-vs-r-dfl-核心差异">S-DFL vs R-DFL 核心差异</h4>
<table>
<colgroup>
<col style="width: 33%" />
<col style="width: 33%" />
<col style="width: 33%" />
</colgroup>
<thead>
<tr>
<th style="text-align: left;">维度</th>
<th style="text-align: left;">S-DFL</th>
<th style="text-align: left;">R-DFL</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align: left;">信息流向</td>
<td style="text-align: left;">单向：预测 → 优化</td>
<td style="text-align: left;"><strong>双向</strong>：预测 ⇄ 优化</td>
</tr>
<tr>
<td style="text-align: left;">预测模型输入</td>
<td style="text-align: left;">仅外部特征 (v)</td>
<td style="text-align: left;">外部特征 (v) + <strong>上一轮决策
(x)</strong></td>
</tr>
<tr>
<td style="text-align: left;">计算图结构</td>
<td style="text-align: left;">有向无环图 (DAG)</td>
<td style="text-align: left;">有向循环图 (DCG)</td>
</tr>
<tr>
<td style="text-align: left;">推理时反馈</td>
<td style="text-align: left;"><strong>无</strong></td>
<td
style="text-align: left;"><strong>有</strong>（决策结果持续修正预测）</td>
</tr>
<tr>
<td style="text-align: left;">适用场景</td>
<td style="text-align: left;">静态决策</td>
<td style="text-align: left;">闭环、交互式决策</td>
</tr>
</tbody>
</table>
<h3 id="梯度计算挑战">2.2 梯度计算挑战</h3>
<p>循环结构破坏了传统反向传播的 DAG 假设，需要特殊方法。</p>
<pre><code>梯度传播问题示意:
┌─────────────────────────────────────────────────────────────────────────┐
│                         循环结构导致的梯度问题                            │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  R-DFL 计算图:                                                          │
│                                                                         │
│      θ ──→ Fθ ──→ ĉ ──→ G ──→ x ──→ Loss                                │
│                ↑                       │                                │
│                └───────────────────────┘                                │
│                        循环依赖!                                         │
│                                                                         │
│  传统反向传播: 要求有向无环图 (DAG)                                       │
│  问题: 循环图无法直接应用链式法则                                         │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘</code></pre>
<h3 id="方法一显式展开explicit-unrolling">2.3 方法一：显式展开（Explicit
Unrolling）</h3>
<p><strong>核心思想</strong>：将循环展开为 (K)
个顺序层，每层执行一次”预测-优化”。</p>


<p><strong>数学形式</strong>： [ <em>i = </em>(x_{i-1}, v), x_i = (_i),
i = 1,2,…,K ]</p>
<p><strong>梯度计算</strong>（论文定理1）： [ = <em>{i=1}^K ( (
</em>{j=i+1}^K J_{<em>}|</em>{x_{j-1}} ) ) ]</p>
<h3 id="方法二隐式微分implicit-differentiation">2.4
方法二：隐式微分（Implicit Differentiation）</h3>
<p><strong>核心思想</strong>：将系统视为<strong>不动点问题</strong>，直接求解平衡点。</p>

<p><strong>不动点条件</strong>： [ x^* = (_(x^*, v)) = _(x^*, v) ]</p>
<p><strong>梯度计算</strong>（论文定理2，通过隐函数定理）： [ = (I -
J_{<em>}|</em>{x<sup>*})</sup>{-1} ]</p>
<h3 id="两种方法对比总结">2.5 两种方法对比总结</h3>
<pre><code>╔═══════════════════════════════════════════════════════════════════════════╗
║                   显式展开 vs 隐式微分 对比                                ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  ┌─────────────────┬─────────────────────────┬─────────────────────────┐  ║
║  │      维度        │     显式展开             │      隐式微分           │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 前向方式         │ 固定K层展开              │ 不动点迭代直到收敛       │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 反向方式         │ 通过所有层反向传播        │ 在平衡点处一次性计算     │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 时间复杂度       │ O(K)                    │ O(1) (与K无关)          │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 实现复杂度       │ 低 (自动微分)            │ 高 (需手动推导梯度)      │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 计算效率         │ 低 (大规模问题慢)        │ 高 (快约1.5倍)          │  ║
║  ├─────────────────┼─────────────────────────┼─────────────────────────┤  ║
║  │ 精度             │ 高                       │ 高 (理论上等价)          │  ║
║  └─────────────────┴─────────────────────────┴─────────────────────────┘  ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝</code></pre>
<h3 id="理论等价性论文定理3">2.6 理论等价性（论文定理3）</h3>
<p>当展开层数 (K ) 且谱半径 ((J_{<em>}|</em>{x^*}) &lt; 1)
时，两种方法的梯度等价：</p>
<p>[ <em>{K } ^{}</em>{} = ^{}_{} ]</p>
<pre><code>梯度等价性证明思路:
┌─────────────────────────────────────────────────────────────────────────┐
│  显式展开梯度 (K层):                                                     │
│  ∂x_K/∂θ = Σ_{i=1}^K J^{K-i} · (∂Φ/∂θ)                                  │
│                              ↓                                          │
│                    当 K → ∞, 且 ρ(J) &lt; 1                                 │
│                              ↓                                          │
│                     Σ_{i=0}^∞ J^i = (I - J)^{-1}                        │
│                              ↓                                          │
│  隐式微分梯度:                                                           │
│  ∂x*/∂θ = (I - J)^{-1} · (∂Φ/∂θ)                                        │
│                                                                         │
│  ∴ 两种方法梯度等价                                                       │
└─────────────────────────────────────────────────────────────────────────┘</code></pre>

<h2 id="section3">3 效果</h2>
<h3 id="实验设置">3.1 实验设置</h3>
<table>
<thead>
<tr>
<th style="text-align: left;">问题</th>
<th style="text-align: left;">数据集</th>
<th style="text-align: left;">规模</th>
<th style="text-align: left;">决策变量</th>
<th style="text-align: left;">约束数</th>
<th style="text-align: left;">Jacobian 维度</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align: left;">多产品报童问题</td>
<td style="text-align: left;">合成数据</td>
<td style="text-align: left;">Small</td>
<td style="text-align: left;">10</td>
<td style="text-align: left;">32</td>
<td style="text-align: left;">32×32</td>
</tr>
<tr>
<td style="text-align: left;"></td>
<td style="text-align: left;"></td>
<td style="text-align: left;">Mid</td>
<td style="text-align: left;">50</td>
<td style="text-align: left;">152</td>
<td style="text-align: left;">152×152</td>
</tr>
<tr>
<td style="text-align: left;"></td>
<td style="text-align: left;"></td>
<td style="text-align: left;">Large</td>
<td style="text-align: left;">100</td>
<td style="text-align: left;">302</td>
<td style="text-align: left;">302×302</td>
</tr>
<tr>
<td style="text-align: left;">二分图匹配</td>
<td style="text-align: left;">NYC TLC</td>
<td style="text-align: left;">Small</td>
<td style="text-align: left;">16</td>
<td style="text-align: left;">57</td>
<td style="text-align: left;">57×57</td>
</tr>
<tr>
<td style="text-align: left;"></td>
<td style="text-align: left;"></td>
<td style="text-align: left;">Mid</td>
<td style="text-align: left;">225</td>
<td style="text-align: left;">706</td>
<td style="text-align: left;">706×706</td>
</tr>
<tr>
<td style="text-align: left;"></td>
<td style="text-align: left;"></td>
<td style="text-align: left;">Large</td>
<td style="text-align: left;">900</td>
<td style="text-align: left;">2761</td>
<td style="text-align: left;">2761×2761</td>
</tr>
</tbody>
</table>
<p><strong>基线方法</strong>： - PTO：预测+优化分离 - S-DFL：顺序 DFL -
R-DFL-U：显式展开 - R-DFL-I：隐式微分</p>
<h3 id="主要结果论文表1">3.2 主要结果（论文表1）</h3>
<pre><code>╔══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╗
║                    表1：报童问题和二分图匹配问题上的性能对比                                                       ║
╠══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╣
║                                                                                                                  ║
║  ┌─────────────────────────────────────────┬─────────────────────────────────────────┐                          ║
║  │           报童问题 (Newsvendor)           │        二分图匹配 (Bipartite Matching)     │                          ║
║  ├──────────┬──────────┬──────────┬─────────┼──────────┬──────────┬──────────┬─────────┤                          ║
║  │  规模    │ Small    │  Mid     │ Large   │  Small   │   Mid    │  Large   │         │                          ║
║  │(决策变量)│   10     │   50     │  100    │   16     │   225    │   900    │         │                          ║
║  ├──────────┼──────────┼──────────┼─────────┼──────────┼──────────┼──────────┼─────────┤                          ║
║  │  PTO     │ 12.77    │ 12.75    │ 12.68   │  0.412   │    -     │    -     │  RMSE   │                          ║
║  ├──────────┼──────────┼──────────┼─────────┼──────────┼──────────┼──────────┼─────────┤                          ║
║  │  S-DFL   │ 12.25    │ 12.54    │ 12.65   │  0.408   │    -     │    -     │  (↓)    │                          ║
║  ├──────────┼──────────┼──────────┼─────────┼──────────┼──────────┼──────────┼─────────┤                          ║
║  │R-DFL-U   │ 8.98     │ 9.17     │ 9.34    │  0.396   │    -     │    -     │  RMSE   │                          ║
║  │          │ (135s)   │ (369s)   │ (422s)  │  (65s)   │          │          │  (时间)  │                          ║
║  ├──────────┼──────────┼──────────┼─────────┼──────────┼──────────┼──────────┼─────────┤                          ║
║  │R-DFL-I   │ 8.83     │ 9.11     │ 9.33    │  0.398   │    -     │    -     │  RMSE   │                          ║
║  │          │ (118s)   │ (254s)   │ (369s)  │  (26s)   │          │          │  (时间)  │                          ║
║  └──────────┴──────────┴──────────┴─────────┴──────────┴──────────┴──────────┴─────────┘                          ║
║                                                                                                                  ║
║  关键发现:                                                                                                        ║
║  1. R-DFL 在所有数据集上 RMSE 显著低于 S-DFL 和 PTO (↓约30%)                                                       ║
║  2. 隐式方法 (R-DFL-I) 比显式方法 (R-DFL-U) 快约 1.5 倍 (大规模问题: 369s vs 422s; 26s vs 65s)                    ║
║  3. 两种方法精度相当 (RMSE 差异 &lt; 0.03)                                                                           ║
║                                                                                                                  ║
╚══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╝</code></pre>

<figure style="margin: 20px 0; text-align: center;">
    <img src="images/r-dfl-table1.png" alt="Table 1: 报童问题和二分图匹配问题上的性能对比" style="max-width: 100%; height: auto; border-radius: 8px; box-shadow: 0 2px 8px rgba(0,0,0,0.1);">
    <figcaption style="margin-top: 8px; color: #64748b; font-size: 0.9rem;">表1：报童问题（左）和二分图匹配问题（右）上的性能对比</figcaption>
</figure>
<h3 id="精度对比论文图3qq图">3.3 精度对比（论文图3：QQ图）</h3>
<pre><code>╔═══════════════════════════════════════════════════════════════════════════╗
║              图3：R-DFL-U 与 R-DFL-I 决策分布 QQ 图对比                     ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  报童问题 - Small (n=10)        报童问题 - Mid (n=50)      报童问题 - Large (n=100)
║                                                                           ║
║    R-DFL-I 分位数                 R-DFL-I 分位数               R-DFL-I 分位数
║       ↑                              ↑                            ↑
║    10 │                   ↗         10 │                ↗       10 │            ↗
║       │                ↗              │             ↗             │         ↗
║     5 │             ↗                 │          ↗                │      ↗
║       │          ↗                    │       ↗                   │   ↗
║     0 ├─────→                   0 ├─────→                  0 ├─────→
║       0    5    10                 0    5    10                0    5    10
║                R-DFL-U 分位数                  R-DFL-U 分位数                 R-DFL-U 分位数
║                                                                           ║
║      (完美对齐)                     (轻微偏差)                    (尾部偏差)
║                                                                           ║
║  观察：                                                                   ║
║  • 小规模：两种方法决策分布几乎完全一致                                     ║
║  • 中规模：轻微偏差，整体仍保持高度一致                                     ║
║  • 大规模：尾部出现微小偏差，但总体分布仍相似                               ║
║  → 结论：两种方法在不同规模下都产生一致的决策结果                           ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝</code></pre>
<h3 id="敏感性分析论文图4不同展开层数的影响">3.4
敏感性分析（论文图4：不同展开层数的影响）</h3>
<pre><code>╔═══════════════════════════════════════════════════════════════════════════╗
║              图4：展开层数敏感性分析 (层数 = 5,10,15,20,25)                ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  精度 (RMSE)                         训练时间 (秒)                         ║
║                                                                           ║
║    9.6│                              500 ┤                               ║
║        │    ┌─── R-DFL-U                 │        ╱─ R-DFL-U              ║
║    9.4│   ╱│   R-DFL-I               400 ┤     ╱                          ║
║        │  ╱ │                            │    ╱                           ║
║    9.2│ ╱  │                            │  ╱                             ║
║        │╱  │                            │ ╱                              ║
║    9.0│───┘│                        200 ┤╱                               ║
║        │    │                            │                                ║
║    8.8│    │                         100 ┤───── R-DFL-I                  ║
║        │    │                            │                                ║
║        └────┴────┴────┴────┴──→           └────┴────┴────┴────┴──→        ║
║         5   10   15   20   25              5   10   15   20   25         ║
║               展开层数 (K)                         展开层数 (K)             ║
║                                                                           ║
║  关键观察:                                                                 ║
║  ┌─────────────────────────────────────────────────────────────────────┐ ║
║  │ 1. 精度随层数增加提升有限（边际效益递减）                              │ ║
║  │ 2. R-DFL-U 训练时间随层数线性增长                                     │ ║
║  │ 3. R-DFL-I 训练时间几乎恒定（与层数无关）                              │ ║
║  │ 4. 层数较大时，R-DFL-I 的效率和精度优势更明显                          │ ║
║  └─────────────────────────────────────────────────────────────────────┘ ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝</code></pre>
<h3 id="鲁棒性检验论文表2">3.5 鲁棒性检验（论文表2）</h3>
<pre><code>╔══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╗
║                    表2：不同预测模型下的性能对比 (LSTM / RNN / Transformer)                                       ║
╠══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╣
║                                                                                                                  ║
║  ┌──────────────┬─────────────────────────────┬─────────────────────────────────┐                              ║
║  │              │      报童问题 (Large)        │     二分图匹配 (Large)           │                              ║
║  ├──────────────┼──────────┬──────────┬───────┼──────────┬──────────┬───────────┤                              ║
║  │    模型      │  LSTM    │   RNN    │Transformer│  LSTM  │   RNN    │Transformer│                              ║
║  ├──────────────┼──────────┼──────────┼───────┼──────────┼──────────┼───────────┤                              ║
║  │  PTO         │  13.03   │  13.02   │ 12.58 │  0.411   │  0.405   │   0.412   │                              ║
║  ├──────────────┼──────────┼──────────┼───────┼──────────┼──────────┼───────────┤                              ║
║  │  S-DFL       │  12.69   │  12.58   │ 14.04 │  0.421   │  0.411   │   0.413   │                              ║
║  ├──────────────┼──────────┼──────────┼───────┼──────────┼──────────┼───────────┤                              ║
║  │  R-DFL-U     │  10.11   │  10.87   │ 11.23 │  0.401   │  0.397   │   0.405   │                              ║
║  │              │ (531s)   │ (510s)   │ (561s)│ (2704s)  │ (2821s)  │  (4130s)  │                              ║
║  ├──────────────┼──────────┼──────────┼───────┼──────────┼──────────┼───────────┤                              ║
║  │  R-DFL-I     │  10.10   │  10.81   │ 11.33 │  0.389   │  0.399   │   0.407   │                              ║
║  │              │ (355s)   │ (340s)   │ (360s)│ (2093s)  │ (2079s)  │  (2037s)  │                              ║
║  └──────────────┴──────────┴──────────┴───────┴──────────┴──────────┴───────────┘                              ║
║                                                                                                                  ║
║  关键发现:                                                                                                        ║
║  • R-DFL 在不同预测模型架构下均保持优势 (与模型无关)                                                               ║
║  • 隐式方法在所有模型上均比显式方法更快                                                                           ║
║  • R-DFL 的 RMSE 在所有配置下均优于 S-DFL 和 PTO                                                                  ║
║                                                                                                                  ║
╚══════════════════════════════════════════════════════════════════════════════════════════════════════════════════╝</code></pre>

<h2 id="后续规划">4 后续规划</h2>
<h3 id="论文提出的未来方向">4.1 论文提出的未来方向</h3>
<pre><code>╔═══════════════════════════════════════════════════════════════════════════╗
║                         论文提出的未来研究方向                              ║
╠═══════════════════════════════════════════════════════════════════════════╣
║                                                                           ║
║  ┌─────────────────────────────────────────────────────────────────────┐ ║
║  │ 方向1: 随机递归环境 (Stochastic Recursive Environments)               │ ║
║  │ • 当前假设：确定性环境                                                │ ║
║  │ • 扩展方向：不确定性同时来自参数估计和环境随机性                        │ ║
║  │ • 挑战：需要在递归框架中处理概率分布和期望                             │ ║
║  └─────────────────────────────────────────────────────────────────────┘ ║
║                                                                           ║
║  ┌─────────────────────────────────────────────────────────────────────┐ ║
║  │ 方向2: 整数规划 (Integer Programming)                                 │ ║
║  │ • 当前限制：仅处理连续决策变量 (凸优化)                                │ ║
║  │ • 扩展方向：处理离散决策变量                                          │ ║
║  │ • 挑战：非凸优化 → KKT条件不直接适用 → 需要新的梯度近似方法             │ ║
║  └─────────────────────────────────────────────────────────────────────┘ ║
║                                                                           ║
║  ┌─────────────────────────────────────────────────────────────────────┐ ║
║  │ 方向3: 更通用的框架 (More Versatile Framework)                        │ ║
║  │ • 当前：针对特定问题结构设计                                           │ ║
║  │ • 扩展方向：支持更广泛类别的闭环决策问题                                │ ║
║  │ • 目标：建立统一的递归决策聚焦学习范式                                 │ ║
║  └─────────────────────────────────────────────────────────────────────┘ ║
║                                                                           ║
╚═══════════════════════════════════════════════════════════════════════════╝</code></pre>

</section>
        </main>
    </div>
</body>
</html>