-
Notifications
You must be signed in to change notification settings - Fork 3
Expand file tree
/
Copy pathsearch.xml
More file actions
1350 lines (1350 loc) · 703 KB
/
search.xml
File metadata and controls
1350 lines (1350 loc) · 703 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
<?xml version="1.0" encoding="utf-8"?>
<search>
<entry>
<title>1、分布式文件系统HDFS操作</title>
<url>/2022/11/12/1%E3%80%81%E5%88%86%E5%B8%83%E5%BC%8F%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9FHDFS%E6%93%8D%E4%BD%9C/</url>
<content><![CDATA[<h1 id="分布式文件系统hdfs操作">分布式文件系统HDFS操作</h1>
<h2 id="hadoop安装">Hadoop安装:</h2>
<p>Mater
Hadoop虚拟机:Linux操作系统,主节点(名字节点,存储管理(元数据),作业(Job)调度))
Slave
Hadoop虚拟机:Linux操作系统,从节点(数据节点:数据存储、实际计算)。</p>
<p>建议大家采用Hadoop分布式模式。</p>
<h2 id="日志的作用">日志的作用</h2>
<p>(记录了对数据增、删、改等操作): 1)数据恢复 2)提高效率</p>
<p>该示例中: 1)每个数据节点有多少个数据块? 每个数据节点有3-4个数据块
-> 每个数据节点存储的块的个数基本一致 -> 保证负载平衡</p>
<p>2)每个数据块的副本分到了几个数据节点?
每个数据块的副本分到了2个数据节点 ->
2副本冗余(Hadoop一般是3副本冗余)</p>
<p>3)请自己设计另一种存储方案(三个数据节点分布保存1-5数据块,每数据块是2副本)。
DN1:1 2 3 5 DN2:1 3 4 DN3:2 4 5 ...</p>
<h2 id="hdfs">HDFS</h2>
<p>HDFS系统中,一个数据块一般有几个数据副本?
一个数据块一般有3个数据副本。</p>
<p>HDFS的一个数据块默认是多大? 64MB</p>
<h2 id="linux常用操作命令">Linux常用操作命令</h2>
<dl>
<dt>Ctrl + Shift + T:启动命令终端</dt>
<dd>
:用户主目录 / :根目录 ./:当前目录 ../:上一级目录
pwd:查看当前目录名称
</dd>
</dl>
<p>ls:查看文件/目录信息 (ll:查看文件/目录详细信息) cd:进入目录
rm:删除文件 mv:移动文件 cat:查看文件内容 cp:拷贝文件</p>
<p>vi、vim:创建和编辑文件 gedit:创建和编辑文件
(相当于Windows的记事本)</p>
<p>clear:清屏 history:显示历史命令</p>
<p>Hadoop常用操作命令 start-all.sh (Hadoop启动批处理命令,start-dfs.sh,
start-yarn.sh) stop-all.sh(Hadoop结束批处理命令) jps:查看Java进程
(master共有四个进程,如下: 5022 NameNode 5199 SecondaryNameNode 5345
ResourceManager 5664 Jps</p>
<p>slave共有三个进程: 4794 DataNode 4898 NodeManager 5056 Jps )</p>
<h2 id="hdfs常用操作命令">HDFS常用操作命令</h2>
<p>hadoop dfs -ls <path> :查看指定目录下文件信息 e.g. hadoop dfs -ls
/</p>
<p>hadoop dfs -mkdir <path> :创建指定目录</p>
<p>hadoop dfs -cat <path> :查看制定文件的内容 e.g. hadoop dfs -cat
/input-20200324/hello.txt</p>
<p>hadoop dfs -put <localsrc> <dfsdst>:将本地文件上传到分布式文件HDFS
hadoop dfs -copyfromlocal <localsrc> <dfsdst> e.g. hadoop dfs -put
./logs/<em>.</em> /input-20200324</p>
<p>hadoop dfs -get <dfsdst>
<localsrc>:将分布式文件HDFS的指定文件下载到本地文件</p>
<p>hadoop dfs -rm <path>:删除HDFS的指定目录或文件 e.g. hadoop dfs -rm
/input-20200324/*.out</p>
]]></content>
<categories>
<category>Big Data</category>
</categories>
<tags>
<tag>Big Data</tag>
</tags>
</entry>
<entry>
<title>1、数据仓库与数据挖掘概述</title>
<url>/2022/09/30/1%E3%80%81%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93%E4%B8%8E%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E6%A6%82%E8%BF%B0/</url>
<content><![CDATA[<h1 id="数据仓库与数据挖掘概述">数据仓库与数据挖掘概述</h1>
<h2 id="数据仓库的兴起">数据仓库的兴起</h2>
<h3 id="数据仓库产生原因">数据仓库产生原因</h3>
<p>A、 数据的大量积累</p>
<p>B、 关系数据库的局限(操作型数据库)</p>
<p>局限:TP(存取频率高、时间短)、AP(消耗资源)特性不同、数据集成度不高、质量问题、数据面向应用而非主题</p>
<p>C、 异构数据源共享问题(各类数据库产品增加导致异构环境数据增加)</p>
<h3 id="异构数据源解决方案">异构数据源解决方案</h3>
<p>一、 数据仓库</p>
<p><img src="../images/DataMining/202212132232.png" /></p>
<p>二、联邦数据库</p>
<p><img src="../images/DataMining/image-20221015105635006.png" /></p>
<h3 id="数据仓库与联邦数据库的区别">数据仓库与联邦数据库的区别</h3>
<p>数据仓库:</p>
<ul>
<li>优:查询速度快<br />
</li>
<li>缺:空间占用大,安全性一般,实时更新一般</li>
</ul>
<p>联邦数据库:</p>
<ul>
<li>优:隐私保护性好,空间占用小,实时更新较好</li>
<li>缺:查询处理复杂,速度慢</li>
</ul>
<h2 id="数据仓库的概念">数据仓库的概念</h2>
<h3 id="数据仓库的特点">数据仓库的特点</h3>
<p>一个面向主题的、集成的、时变的、非易失的数据集合。</p>
<p>A、面向主题的:与主题相关的数据导入数据仓库,由异构转换为同构;</p>
<p>B、集成的:集成的主要方法:</p>
<ul>
<li>统一:消除不一致的现象(数据清洗)</li>
<li>综合:对原有数据进行综合和计算</li>
</ul>
<p>C、时变的:数据仓库保存长期的字段、显/隐式时间类型数据、历史数据,而操作型数据库保留当前数据。</p>
<p>D、非易失的:以读为主,数据相对稳定,一般不执行“更新”操作,主要分析数据。</p>
]]></content>
<categories>
<category>Data Warehouse and Data Mining</category>
</categories>
<tags>
<tag>Data Warehouse and Data Mining</tag>
</tags>
</entry>
<entry>
<title>2、分布式数据库HBase理论</title>
<url>/2022/11/12/2%E3%80%81%E5%88%86%E5%B8%83%E5%BC%8F%E6%95%B0%E6%8D%AE%E5%BA%93HBase%E7%90%86%E8%AE%BA/</url>
<content><![CDATA[<h1 id="分布式数据库hbase理论">分布式数据库HBase理论</h1>
<h2 id="介绍">介绍</h2>
<p>HDFS:分布式文件系统。它是Google的GFS的开源实现。</p>
<p>HBase:分布式数据库,存储半结构化或非结构化数据,提供了高效访问。它是Google的BigTable的开源实现。</p>
<p>Zookeeper:分布式协调管理框架。它是Google的Chubby的开源实现。</p>
<p>Hadoop
MapReduce:分布式计算框架。它是Google的MapReduce的开源实现。</p>
<h2 id="大数据云计算计算模式">大数据/云计算计算模式</h2>
<p>批处理计算(离线计算):小时级响应, e.g. Hadoop (HDFS, MapReduce)
交互计算(在线计算):秒级、分钟级响应
实时计算(流数据计算):毫秒、秒级响应 e.g. HBase</p>
<h2 id="hbase与传统数据库">HBase与传统数据库</h2>
<p>传统数据库的问题(两个可扩展性差): 1)计算可扩展性差,例如:Oracle
RAC扩展多达到100台机器。
2)数据库定义可扩展性差,例如:增加列属性不便且有限。</p>
<h2 id="hbase访问接口">HBase访问接口</h2>
<p>1)Java API 2)Shell命令 3)SQL语句:Hive,Pig</p>
<h2 id="hbase数据模型">HBase数据模型</h2>
<p>传统关系数据库:(行、列)-> (单元格)值
HBase:(行键、列族、列(限定符)、时间戳)-> (单元格)值</p>
<p>e.g.</p>
<p>id=20 姓名:张三(time stamp 1)</p>
<p>id=20 姓名:李四 (time stamp 2)</p>
<h2 id="存储方式">存储方式</h2>
<p>行存储(Row Storage): 高事务处理效率
适用OLTP(联机事务处理),e.g.传统数据库 列存储(Column
Storage):高压缩率、高查询效率,适用OLAP(联机分析处理),e.g. HBase
HTAP(混合行列存储):</p>
<p>e.g. 25 28 30 32 36</p>
<p>run length code:25 3 2 2 4</p>
<p>select xh, name from student;</p>
<h2 id="hbase实现">HBase实现</h2>
<p>一主多从架构,例如: HDFS(NameNode, DataNodes), HBase(HMaster,
HRegionServer), MapReduce(Master, Slaves)</p>
<p>HBase的表由多个Region组成。</p>
<p>HBase的寻址访问: .Meta:Data Region id -> Region Server
.Root:Root id -> Meta Region id</p>
<p>形成了三级寻址访问结构: .Root -> .Meta -> Data</p>
<h2 id="hbase架构">HBase架构</h2>
<p>客户端:提供HBase的访问接口; Zookeeper:提供集群的协调管理服务;
HMaster:元数据管理;数据的管理(增删改查请求,负载均衡、Region的管理)
HRegionServer:提供了实际数据的读写访问</p>
<p>HRegionServer存储结构: 包括10 -
1000个Region和一个HLog,每个Region包括:MemStore、StoreFile(HFile)</p>
<h2 id="启动hbase命令">启动HBase命令</h2>
<p>start-hbase.sh stop-hbase.sh</p>
<p>确认启动成功: jps Web UI:http://master:60010</p>
<p>hbase shell:进入hbase的shell交互界面
exit:退出hbase的shell交互界面</p>
<p>create:创建表,create '表名','列族名1','列族名2','列族名N'</p>
<p>put:添加记录,put '表名','rowkey','列族:列','值'</p>
<p>get:查看记录rowkey下的所有数据,get '表名','rowkey' (
get:获取某个列族,get '表名','rowkey','列族'
get:获取某个列族的某个列,get '表名','rowkey','列族:列')</p>
<p>list:查看所有表<br />
desc:描述表信息,desc '表名' scan:查看所有记录,scan '表名'
(scan:查看某个表某个列中所有数据,scan
'表名',{COLUMNS=>'列族名:列名'})</p>
<p>count:查看表中的记录总数,count '表名'</p>
<p>delete:删除记录,delete '表名','行名','列族:列'
(删除整行,deleteall '表名','rowkey') drop:删除一张表<br />
(先要屏蔽该表,才能对该表进行删除:第一步 disable '表名',第二步 drop
'表名') truncate:清空表,truncate '表名'</p>
<p>更新记录 就是重新一遍,进行覆盖,hbase没有修改,都是追加</p>
<p>exists:判断表存在,exists '表名'</p>
<p>is_enabled / is_disabled:判断是否禁用启用表 is_enabled '表名'
is_disabled '表名'</p>
<p>status:查看hbase状态</p>
]]></content>
<categories>
<category>Big Data</category>
</categories>
<tags>
<tag>Big Data</tag>
</tags>
</entry>
<entry>
<title>3、NoSQL数据库理论</title>
<url>/2022/11/12/3%E3%80%81NoSQL%E6%95%B0%E6%8D%AE%E5%BA%93%E7%90%86%E8%AE%BA/</url>
<content><![CDATA[<h1 id="nosql数据库理论">NoSQL数据库理论</h1>
<h2 id="nosql">NoSQL</h2>
<p>Not Only SQL</p>
<p>可扩展性:
纵向扩展(垂直扩展):装备升级(成员不增加,提升单位成员的效率)
横向扩展(水平扩展):增加更多的成员(装备不一定升级;成员之间通讯增加,算力不是线性增长,近线性增长)</p>
<p>为什么NoSQL: 1. 计算和存储可扩展性; 2.
模式(schema)的可自定义;(模式指的是数据库中对象的集合,例如:表、视图、存储过程;元数据,对数据的描述)
3. Web 2.0下关系数据库的事务、范式等特性可放宽。</p>
<h2 id="nosql与数据库间的比较">NoSQL与数据库间的比较</h2>
<ol type="1">
<li>没有统一的数据模型;</li>
<li>横向扩展;</li>
<li>模式定义灵活;</li>
<li>弱一致性(最终一致性);</li>
<li>没有标准的查询语言。</li>
</ol>
<h2 id="nosql数据库分类">NoSQL数据库分类</h2>
<p>键值数据库:Redis、Amazon DynamoDB 列族数据库:HBase、Cassandra
文档数据库:MongoDB; 图数据库:Neo4J</p>
<p>自包含(self-contained):数据和数据的定义在一起,数据与关联的数据也是在一起。(即无其它依赖项。)
e.g. age:25, name:xiaoming sex:m age:28, name:xiaoli sex:f
university:kmust</p>
<h2 id="nosql数据库原理">NoSQL数据库原理</h2>
<p>CAP:
一致性(Consistency):任何一个节点读到(或写到)的某个数据是相同的;
可用性(Availability):可快速读到(或写到)数据; 分区容忍性(Partition
tolerance):可分区,可容错</p>
<p>e.g. CA:MySQL、SQL Server CP:HBase、Neo4J、MongoDB
AP:DynamoDB、Cassandra</p>
<p>BASE: Basically Avaible:基本可用,允许分布式系统一部分出错 Soft
state:软状态,允许有一段时间数据是不一致的</p>
<p>Eventually
consistent:最终一致性,保证数据最终是一致的(弱一致性的特例)</p>
<p>给定N(数据副本数)、W(写数据需要完成的节点数)、R(读数据需要完成的节点数)
强一致性:W+R>N,达到强一致性;e.g.HDFS、HBase
弱一致性:W+R<=N,达到弱一致性</p>
<p>事务型应用:OldSQL(传统关系数据库) 互联网应用:NOSQL
分析型应用:NewSQL(关系模型,强一致性、高可扩展性),e.g. Amazon RDS,
Micsoft SQL Azure</p>
]]></content>
<categories>
<category>Big Data</category>
</categories>
<tags>
<tag>Big Data</tag>
</tags>
</entry>
<entry>
<title>2、数据仓库原理</title>
<url>/2022/09/30/2%E3%80%81%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93%E5%8E%9F%E7%90%86/</url>
<content><![CDATA[<h1 id="数据仓库原理">数据仓库原理</h1>
<h2 id="数据仓库系统结构">数据仓库系统结构</h2>
<h3 id="数据库与数据仓库对比">数据库与数据仓库对比</h3>
<table>
<thead>
<tr class="header">
<th><strong>数据库</strong></th>
<th><strong>数据仓库</strong></th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td>细节的</td>
<td>综合或提炼的</td>
</tr>
<tr class="even">
<td>在存取时准确的</td>
<td>代表过去的数据</td>
</tr>
<tr class="odd">
<td>可更新的</td>
<td>不更新</td>
</tr>
<tr class="even">
<td>一次操作数据量小</td>
<td>一次操作数据量大</td>
</tr>
<tr class="odd">
<td>面向应用</td>
<td>面向分析</td>
</tr>
<tr class="even">
<td>支持管理</td>
<td>支持决策</td>
</tr>
<tr class="odd">
<td>用于事务处理</td>
<td>主要用于分析数据</td>
</tr>
</tbody>
</table>
<h3 id="数据仓库与数据库的区别">数据仓库与数据库的区别</h3>
<p>本质上主要为异构和同构的差别</p>
<p>事务型数据库(操作型):TP事务处理,以写为主</p>
<p>分析型数据库:AP分析处理,以读为主</p>
<h3 id="dwodsdm属性">DW、ODS、DM属性</h3>
<table>
<colgroup>
<col style="width: 46%" />
<col style="width: 53%" />
</colgroup>
<thead>
<tr class="header">
<th><strong>DW</strong>(数据仓库)(侧重于计算能力)</th>
<th>ODS(操作型数据存储)(能够实时报表分析)</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td>A、面向主题的</td>
<td>A、面向主题的</td>
</tr>
<tr class="even">
<td>B、集成的</td>
<td>B、集成的</td>
</tr>
<tr class="odd">
<td>C、时变的</td>
<td>C、当前的</td>
</tr>
<tr class="even">
<td>D、非易失的/稳定的</td>
<td>D、易失的</td>
</tr>
</tbody>
</table>
<h3 id="dm数据集市">DM(数据集市)</h3>
<p>(Data Mart)</p>
<p>1、独立的数据集市</p>
<p>2、从属的数据集市:</p>
<ul>
<li><p>面向部门的数据仓库</p></li>
<li><p>为满足用户特定需求而创建的数据仓库</p></li>
<li><p>数据仓库的子集</p></li>
</ul>
<h3 id="data-lake数据湖">Data Lake(数据湖)</h3>
<p>(侧重于数据存储能力)</p>
<p>A、 保存原始的、细节的数据</p>
<p>B、 结构化数据、非结构化数据均存在(多模态)</p>
<h3 id="发展趋势">发展趋势</h3>
<p>1、
一体化:比如湖仓一体(Lakehouse):融合了数据湖的存储能力和数据仓库的计算能力</p>
<p>2、多模态:既能处理关系表数据,也能处理时序数据、图数据</p>
<p>3、云原生:数据库迁移到云上(提升数据库存储和计算的拓展性)</p>
<h2 id="数据仓库的数据模型">数据仓库的数据模型</h2>
<h3 id="数据仓库模型和数据库模型对比">数据仓库模型和数据库模型对比</h3>
<table>
<thead>
<tr class="header">
<th><strong>数据仓库模型</strong></th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>A</strong>、概念模型:分析主题(边界、主题、维度、类别、指标、事实)</td>
</tr>
<tr class="even">
<td><strong>B</strong>、逻辑模型:星型模型、雪花模型、星座模型</td>
</tr>
<tr class="odd">
<td><strong>C</strong>、物理模型:</td>
</tr>
</tbody>
</table>
<table>
<thead>
<tr class="header">
<th><strong>数据库模型</strong></th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>A、</strong>概念模型:ER(实体关系模型)</td>
</tr>
<tr class="even">
<td><strong>B</strong>、逻辑模型:关系模型、网状模型、层次模型</td>
</tr>
<tr class="odd">
<td><strong>C</strong>、物理模型:</td>
</tr>
</tbody>
</table>
<h3 id="数据仓库模型">数据仓库模型</h3>
<p>销售分析的概念模型</p>
<p>信息包: <u>销售分析</u></p>
<table>
<colgroup>
<col style="width: 54%" />
<col style="width: 12%" />
<col style="width: 12%" />
<col style="width: 11%" />
<col style="width: 11%" />
</colgroup>
<thead>
<tr class="header">
<th>日期</th>
<th>销售地点</th>
<th>销售产品</th>
<th>年龄组别</th>
<th>性别</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td>年(10)</td>
<td>国家(15)</td>
<td>产品类(6)</td>
<td>年龄组(8)</td>
<td>性别组(2)</td>
</tr>
<tr class="even">
<td>季度(40)</td>
<td>区域(45)</td>
<td>产品组(48)</td>
<td></td>
<td></td>
</tr>
<tr class="odd">
<td>月(120)</td>
<td>城市(280)</td>
<td>产品(240)</td>
<td></td>
<td></td>
</tr>
<tr class="even">
<td></td>
<td>区(880)</td>
<td></td>
<td></td>
<td></td>
</tr>
<tr class="odd">
<td></td>
<td>商店(2000)</td>
<td></td>
<td></td>
<td></td>
</tr>
<tr class="even">
<td><strong>度量和事实:</strong>
<strong>预测销售量、实际销售量、预测误差</strong></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
</tbody>
</table>
<p>销售分析的逻辑模型(星型模型)</p>
<p><img src="../images/DataMining/1.png" /></p>
<h2 id="数据抽取转换和装载">数据抽取、转换和装载</h2>
<h3 id="etl">ETL</h3>
<p>(Extraction、Transformation、Loading)</p>
<p>数据抽取、数据清洗、数据转换、数据加载、数据更新。</p>
<p>数据更新:</p>
<ul>
<li>全量更新:数据库建立时期</li>
<li>增量更新:数据库维护</li>
</ul>
<h2 id="元数据">元数据</h2>
<p>用来描述数据的数据,包含业务元数据和技术元数据</p>
<h2 id="例题">例题</h2>
<p><img src="../images/DataMining/1-16658031339742.png" /></p>
<h3 id="销售质量">销售质量</h3>
<figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> <span class="built_in">sum</span>(units_sold) <span class="keyword">from</span> sales_fact;</span><br></pre></td></tr></table></figure>
<h3 id="不同年份的销售量">不同年份的销售量</h3>
<figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> <span class="built_in">sum</span>(units_sold) <span class="keyword">from</span> sales_fact</span><br><span class="line"><span class="keyword">join</span> time_dim <span class="keyword">on</span> sales_fact.time_key <span class="operator">=</span> time_dim.time_key</span><br><span class="line"><span class="keyword">group</span> <span class="keyword">by</span> time_dim.year;</span><br></pre></td></tr></table></figure>
<h3 id="不同年份不同商品项的销售额">不同年份不同商品项的销售额</h3>
<figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> city <span class="keyword">as</span> 城市,item_names <span class="keyword">as</span> 商品项,<span class="built_in">sum</span>(dollars_sold) <span class="keyword">as</span> 销售额</span><br><span class="line"><span class="keyword">from</span> sales_fact a</span><br><span class="line"><span class="keyword">inner</span> <span class="keyword">join</span> geo_dim b</span><br><span class="line"><span class="keyword">on</span> a.location_key <span class="operator">=</span> b.location_key</span><br><span class="line"><span class="keyword">inner</span> <span class="keyword">join</span> item_dim c</span><br><span class="line"><span class="keyword">on</span> a.item_key <span class="operator">=</span> c.item_key</span><br><span class="line"><span class="keyword">group</span> <span class="keyword">by</span> b.city,c.item_name;</span><br></pre></td></tr></table></figure>
<h3 id="年18月份各月平均销售">2021年1~8月份各月平均销售</h3>
<figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> <span class="built_in">sum</span>(avg_sales) <span class="keyword">from</span> sales_fact a</span><br><span class="line"><span class="keyword">join</span> time_dim b <span class="keyword">on</span> a.time_key <span class="operator">=</span> b.time_key</span><br><span class="line"><span class="keyword">where</span> mouth <span class="operator">>=</span> <span class="number">1</span> <span class="keyword">and</span> mouth <span class="operator"><=</span> <span class="number">8</span>;</span><br></pre></td></tr></table></figure>
]]></content>
<categories>
<category>Data Warehouse and Data Mining</category>
</categories>
<tags>
<tag>Data Warehouse and Data Mining</tag>
</tags>
</entry>
<entry>
<title>4、云数据库理论</title>
<url>/2022/11/12/4%E3%80%81%E4%BA%91%E6%95%B0%E6%8D%AE%E5%BA%93%E7%90%86%E8%AE%BA/</url>
<content><![CDATA[<h1 id="云数据库理论">云数据库理论</h1>
<h2 id="云计算">云计算</h2>
<p>云计算:通过对(硬件、平台、软件)资源的虚拟化提供按需服务。</p>
<p>IaaS:基础设施即服务,存储、计算、网络等硬件资源通过虚拟化以服务形式提供,关键词:host;
PaaS:平台即服务,开发平台和操作系统以服务的形式提供,关键词:build;
SaaS:软件即服务,应用软件以服务形式提供,关键词:consume。</p>
<h2 id="云数据库的特点">云数据库的特点</h2>
<p>高可扩展性、高可用性、易用性、易维护、高性能、廉价、安全</p>
<p>亚马逊云数据库(Database): SimpleDB:键值数据库云服务
DynamoDB:键值数据库云服务 RDS(Relational Database
Service):关系数据库云服务 ElastiCache:内存缓存云服务</p>
<p>补充: Amazon 云计算服务AWS: IaaS(内容分发网络,边缘节点)
Networking:Route 53 Compute:EC2(Elastic Compute Cloud),ELB(Elastic
Load Balancing) Storage:S3(Simple Storage Service),EBS(Elastic
Block Storage),Glacier</p>
<h2 id="google云数据库">Google云数据库</h2>
<p>Microsoft云数据库: Azure</p>
<p>UMP(Unified MySQL Platform):阿里云的云数据库产品 数据库:MySQL
Mnesia:分布式数据管理系统、支持事务、数据分片管理等
RabbitMQ:组件间异步消息传递和处理
Zookeeper:分布式协调管理,例如:集群管理、统一命名服务,状态同步服务、分布式锁
LVS(Linux Virtual
Server):负载均衡(IP负载均衡、内容请求均衡)、请求路由
Controller:控制服务器,元数据(如集群成员、配置信息、状态信息、路由信息)管理,运行Mnesia
Proxy:代理服务器,面向用户提供连接管理(认证、配额、转发等)
Agent:运行在MySQL的节点上,管理MySQL实例(例如:MySQL数据库的创建、删除、备份等)
愚公系统:基于bin-log分析进行不停机的数据增量复制和迁移
其它:日志分析、信息统计、Web控制台</p>
<p>补充: 消息传递:同步消息(面向连接)、异步消息(面向队列(小站?)
QPS:Queries Per Second,IOPS:I/O Per Second</p>
<p>全栈贯通技术人才:大数据系统人才、智能计算系统人才</p>
]]></content>
<categories>
<category>Big Data</category>
</categories>
<tags>
<tag>Big Data</tag>
</tags>
</entry>
<entry>
<title>3、数据仓库设计与开发</title>
<url>/2022/09/30/3%E3%80%81%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93%E8%AE%BE%E8%AE%A1%E4%B8%8E%E5%BC%80%E5%8F%91/</url>
<content><![CDATA[<h1 id="数据仓库设计与开发">数据仓库设计与开发</h1>
<h2 id="数据仓库设计">数据仓库设计</h2>
<h3 id="系统设计差异">系统设计差异</h3>
<table>
<thead>
<tr class="header">
<th><strong>操作型数据库</strong></th>
<th><strong>数据仓库</strong></th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td>面向应用</td>
<td>面向分析</td>
</tr>
<tr class="even">
<td>确定的应用需求</td>
<td>不确定的分析需求</td>
</tr>
<tr class="odd">
<td>事务处理性能</td>
<td>数据的全局一致性</td>
</tr>
<tr class="even">
<td>数据来自组织外部</td>
<td>数据来自系统内部</td>
</tr>
</tbody>
</table>
<h3 id="数据仓库设计原则">数据仓库设计原则</h3>
<p>面向主题原则、数据驱动原则、原型法设计原则</p>
<h3 id="数据仓库设计步骤">数据仓库设计步骤</h3>
<p> 1、明确主题</p>
<p> 2、概念模型设计</p>
<p> 3、技术准备</p>
<p> 4、逻辑模型设计</p>
<p> 5、物理模型设计</p>
<p> 6、数据仓库生成</p>
<p> 7、数据仓库的运行与维护</p>
<h3 id="数据仓库设计方法论">数据仓库设计方法论</h3>
<p>DM(数据集市) --> DW(数据仓库)
(自底向上)(成本小,收益大)</p>
<p>DW(数据仓库) -->DM(数据集市)
(自顶向下)(成本大,收益小)</p>
<h2 id="数据仓库开发">数据仓库开发</h2>
<h3 id="数据粒度">数据粒度</h3>
<p>粒度:数据综合程度高低的一个度量</p>
<p>粒度越粗,综合程度越高,存储空间越小,回答的查询种类越多,查询效率越高;</p>
<p>粒度越细,综合程度越低,存储空间越大,回答的查询种类越少,查询效率越低。</p>
<p>年(粗)-->月-->日(细)</p>
<h3 id="分割分区">分割(分区)</h3>
<p>划分方式:水平划分和垂直划分</p>
<p>分区类别::</p>
<ul>
<li><p>范围分区:按时间分割,按单位分割。(分布式数据库)</p></li>
<li><p>哈希分区:(polarDB-X数据库)</p></li>
<li><p>列表分区:按职业、学历分区</p></li>
</ul>
]]></content>
<categories>
<category>Data Warehouse and Data Mining</category>
</categories>
<tags>
<tag>Data Warehouse and Data Mining</tag>
</tags>
</entry>
<entry>
<title>4、联机分析处理</title>
<url>/2022/09/30/4%E3%80%81%E8%81%94%E6%9C%BA%E5%88%86%E6%9E%90%E5%A4%84%E7%90%86/</url>
<content><![CDATA[<h1 id="联机分析处理">联机分析处理</h1>
<h2 id="olap的概念">OLAP的概念</h2>
<h3 id="联机分析处理olap">联机分析处理(OLAP)</h3>
<p>A、交互性:联机</p>
<p>B、维(dimension):分析数据的角度</p>
<p>立方体(超过三维的立方体称为超立方体或多维空间)</p>
<h3 id="维的层次hierarchy">维的层次(hierarchy)</h3>
<p>例.时间维:</p>
<p> 年-季度-月-天</p>
<p> 年-学期-周 (每一层称为 <strong>级别(level)</strong>)</p>
<h3 id="维的成员member">维的成员(member)</h3>
<p>维的一个取值</p>
<h3 id="多维数组多维空间">多维数组(多维空间)</h3>
<p>维和度量的组合</p>
<p><img src="../images/DataMining/image-20221015120755730.png" /></p>
<h3 id="数据单元单元格">数据单元(单元格)</h3>
<p>多维数组的一个取值</p>
<p>如果查询结果保存起来,则称该查询视图物化</p>
<h2 id="olap的多维数据分析">OLAP的多维数据分析</h2>
<h3 id="多维分析">多维分析</h3>
<h4 id="切片slice切块dice">切片(slice)/切块(dice)</h4>
<p>切片:单个维度分析</p>
<p>切块:两个或以上维度分析</p>
<h4 id="钻取">钻取</h4>
<p>向下钻取(Drill-down)下钻:粗粒度----->细粒度分析</p>
<p>向上钻取(Roll-up)上卷:细粒度----->粗粒度分析</p>
<h4 id="旋转pivot">旋转(pivot)</h4>
<p>不同维度的置换</p>
<p>求不同城市的总销售量</p>
<figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> <span class="built_in">sum</span>(sale_unit) <span class="keyword">from</span> sale</span><br><span class="line"><span class="keyword">join</span> <span class="type">time</span> <span class="keyword">on</span> time.Q <span class="operator">=</span> sale.Q</span><br><span class="line"><span class="keyword">join</span> city <span class="keyword">on</span> city.C <span class="operator">=</span> sale.C</span><br><span class="line"><span class="keyword">group</span> <span class="keyword">by</span> city.C;</span><br></pre></td></tr></table></figure>
<h2 id="olap的存储模型">OLAP的存储模型</h2>
<h3 id="olap实现架构">OLAP实现架构</h3>
<p>ROLAP:关系表 ----->存储空间更小</p>
<p>MOLAP:多维数组----->查询效率高</p>
<p>Eg.sale(产品)(季度)(城市)------->value</p>
<table>
<thead>
<tr class="header">
<th style="text-align: center;">产品</th>
<th style="text-align: center;">季度</th>
<th style="text-align: center;">城市</th>
<th style="text-align: center;">value</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">TV</td>
<td style="text-align: center;">Q1</td>
<td style="text-align: center;">北京</td>
<td style="text-align: center;"></td>
</tr>
<tr class="even">
<td style="text-align: center;">CD</td>
<td style="text-align: center;">Q2</td>
<td style="text-align: center;">上海</td>
<td style="text-align: center;"></td>
</tr>
<tr class="odd">
<td style="text-align: center;">PC</td>
<td style="text-align: center;">Q3</td>
<td style="text-align: center;">广州</td>
<td style="text-align: center;"></td>
</tr>
<tr class="even">
<td style="text-align: center;">ALL</td>
<td style="text-align: center;">ALL</td>
<td style="text-align: center;">ALL</td>
<td style="text-align: center;"></td>
</tr>
</tbody>
</table>
<p>实现框架:</p>
<p>1、<u>R</u>OLAP:基于关系表,存储空间效率高,利用关系数据库特性</p>
<p> Relational</p>
<p>2、<u>M</u>OLAP:基于多维数组,查询效率高</p>
<p> Multi-dimensional</p>
<p>3、<u>H</u>OLAP:包含综合数据(MOLAP)和详细数据(ROLAP)</p>
<p> Hybrid</p>
<h2 id="htap">HTAP</h2>
<p>事务型数据库:OLTP,以写为主,行存</p>
<p>分析型数据库:OLAP,以读为主,列存</p>
<p>混合事务分析型数据库:HTAP</p>
<ul>
<li>TP、AP资源物理分离</li>
<li>TP、AP数据一致性:
<ul>
<li>强一致性</li>
<li>弱一致性</li>
</ul></li>
</ul>
<p><img src="../images/DataMining/image-20221015114905013.png" style="zoom: 67%; float: left;" /></p>
<h2 id="国产数据库示例">国产数据库示例</h2>
<h3 id="polardb-x数据库">PolarDB-X数据库</h3>
<p>结构框架:</p>
<p><img
src="../images/DataMining/image-20221005102013310-16657435018695.png" /></p>
<h3 id="下推">下推</h3>
<p><img src="../images/DataMining/image-20221015121820341.png" /></p>
<h3 id="bi">BI</h3>
<p><img src="../images/DataMining/image-20221019192403264.png" alt="image-20221019192403264" style="zoom: 67%;" /></p>
<h2 id="数据立方体和商立方体">数据立方体和商立方体</h2>
<h3 id="物化视图选择">物化视图选择</h3>
<h4 id="greedy-algorithm贪心算法">Greedy Algorithm(贪心算法)</h4>
<ul>
<li><p>k = number of views to be materialized</p></li>
<li><p>Given</p>
<ul>
<li><p>v is a view</p></li>
<li><p>S is a set of views which are selected to be
materialized</p></li>
</ul></li>
<li><p>Define the benefit of selecting v for materialization as</p>
<ul>
<li>B(v, S) = Gain(S U v, S)</li>
</ul></li>
<li><p>S <--{top view};</p></li>
<li><p>For i = 1 to k do</p>
<ul>
<li><p>Select that view v not in S such that B(v, S) is
maximized;</p></li>
<li><p>S <-- S U {v}</p></li>
</ul></li>
<li><p>Resulting S is the greedy selection</p></li>
</ul>
<p><img src="../images/DataMining/image-20221011210827373.png" /></p>
<table>
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">1st Choice(M)</th>
<th style="text-align: center;">2nd Choice(M)</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">pc</td>
<td style="text-align: center;">(6-6)*3 = 0</td>
<td style="text-align: center;">(6-6)*2 = 0</td>
</tr>
<tr class="even">
<td style="text-align: center;">ps</td>
<td style="text-align: center;">(6-0.8)*3 = 15.6</td>
<td style="text-align: center;"></td>
</tr>
<tr class="odd">
<td style="text-align: center;">sc</td>
<td style="text-align: center;">(6-6)*3 = 0</td>
<td style="text-align: center;">(6-6)*2 = 0</td>
</tr>
<tr class="even">
<td style="text-align: center;">p</td>
<td style="text-align: center;">(6-0.2)*1 = 5.8</td>
<td style="text-align: center;">(0.8-0.2)*1=0.6</td>
</tr>
<tr class="odd">
<td style="text-align: center;">s</td>
<td style="text-align: center;">(6-0.01)*1 = 5.99</td>
<td style="text-align: center;">(0.8-0.01)*1 = 0.79</td>
</tr>
<tr class="even">
<td style="text-align: center;">c</td>
<td style="text-align: center;">(6-0.1)*1 = 5.9</td>
<td style="text-align: center;">(6-0.1)*1 = 5.9</td>
</tr>
</tbody>
</table>
<p>Two views to be materialized are</p>
<p>1、ps 2、c</p>
<p>V = {ps, c}</p>
<p>Gain(V U {top view}, {top view})</p>
<p>= 15.6 + 5.9 = 21.5</p>
<h3 id="数据立方体">数据立方体</h3>
<p><img src="../images/DataMining/image-20221011212714894.png" /></p>
<h3 id="商立方体">商立方体</h3>
<p><img src="../images/DataMining/image-20221011213423839.png" /></p>
<h2 id="习题讲解">习题讲解</h2>
<p>数据转换一般可以分为:</p>
<ul>
<li><p>工具转换</p></li>
<li><p>人工转换</p></li>
</ul>
<p>事实表的特点:</p>
<ul>
<li>数据量大</li>
<li>表中行数多</li>
<li>表中数据常进行追加</li>
</ul>
<p>数据集市的特点:</p>
<ul>
<li>主题少</li>
<li>数据少</li>
<li>建设周期短</li>
<li>风险小</li>
</ul>
]]></content>
<categories>
<category>Data Warehouse and Data Mining</category>
</categories>
<tags>
<tag>Data Warehouse and Data Mining</tag>
</tags>
</entry>
<entry>
<title>5、MapReduce</title>
<url>/2022/11/12/5%E3%80%81MapReduce/</url>
<content><![CDATA[<h1 id="mapreduce">MapReduce</h1>
<h2
id="mapreduce与传统并行编程框架的区别">MapReduce与传统并行编程框架的区别</h2>
<p>MapReduce可扩展性好,容错性好、廉价、编程容易(数据划分、任务分发、数据通讯、负载均衡等通用任务自动处理)、数据密集型计算(不是计算密集型应用)、移动计算而不是移动数据</p>
<p>补充:CPU、内存、磁盘的组合:共享内存(多个CPU共用一块内存)、共享磁盘(多个CPU共用一块磁盘)、非共享(每个CPU都独享内存和磁盘)、计算存储分离</p>
<p>分布式并行编程框架 MPI(Message Passing
Interface,消息传递接口):多进程通讯标准,主要有6个标准函数;
PThread:多线程并行编程框架; 编译制导:OpenMP</p>
<p>MapReduce体系结构 一主多从
Client:客户端,提交分布式应用程序给主节点(的JobTracker);
JobTracker+Task
Scheduler:在主节点运行的作业跟踪和调度(一个Job有多个Task,一个Task可以是Map计算任务或者Reduce计算任务)
TaskTracker:在从节点运行的具体任务执行(通过CPU、内存资源槽(slot)来分配Map或Reduce计算任务)</p>
<h2 id="mapreduce工作流程">MapReduce工作流程</h2>
<p>主要分为四个阶段 (数据先上传到HDFS) 1)Split:对数据进行分片 ->
(key, value);</p>
<p>2)Map:每个数据分片上启动一个Map计算任务,计算该数据分片的数据;
(key, value) -> list(out_key, intermediate_value)</p>
<p>3)Shuffle:对数据进行混排,类似group by; (out_key,
intermediate_value) -> (out_key, list(intermediate_value))</p>
<p>(Combine:
对相同out_key的值提前进行合并,即提前进行本地的Reduce,从而有效减少Shuffle的输出
Map之后,Shuffle之前进行的本地Reduce操作)</p>
<p>4)Reduce:对混排后的数据进行聚集、约减 (out_key,
list(intermediate_value)) -> (out_key, out_value) (其中out_value =
Agg(list(intermediate_value)) (最终结果HDFS文件系统)</p>
<p>补充:分区一般分为:范围分区、哈希分区、列表分区
Shuffle:计算->溢写(分区、排序、合并(combine))->合并(多个文件)</p>
<p>Hadoop+Eclipse/IntelliJ
IDEA(从而可以在IDE上用Java进行分布式计算应用程序开发,如:WordCount)</p>
<h2 id="hadoop-mapreduce框架中的数据类型">Hadoop
MapReduce框架中的数据类型</h2>
<p>字符串:Text 整型:IntWritable (长整型:LongWritable)
浮点型:FloatWritable, DoubleWritable 布尔型:BooleanWritable
空类型:NullWritable</p>
<p>Writable:需要序列化和反序列化</p>
<p>序列化:A: object -> byte -> B: object :反序列化</p>
<p>如何用Java程序定义Wordcount的map和reduce的输入和输出,即它们的输入输出类型和含义分别是什么?
map() 输入:<Object row, Text value> 输出:<Text word,
IntWritable one></p>
<p>reduce() 输入:<Text word, List(IntWritable value)>
输出:<Text word, IntWritable count></p>
<h2 id="wordcount部署">Wordcount部署</h2>
<p>1)编译并打包(可用Eclipse的export打为jar包或命令行模式javac和jar进行编译和打包
); (编译需要的Hadoop jar包:hadoop-common-<strong><em>.jar,
hadoop-mapreduce-core-</em></strong>.jar, commons-cli-**.jar)</p>
<p>2)运行Hadoop Wordcount程序;(先要将数据上传到HDFS中)
(运行命令:hadoop jar WordCount.jar WordCount input output)</p>
<p>3)(到HDFS中)查看结果。</p>
]]></content>
<categories>
<category>Big Data</category>
</categories>
<tags>
<tag>Big Data</tag>
</tags>
</entry>
<entry>
<title>6、数据仓库Hive理论和实践</title>
<url>/2022/11/12/6%E3%80%81%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93Hive%E7%90%86%E8%AE%BA%E5%92%8C%E5%AE%9E%E8%B7%B5/</url>
<content><![CDATA[<h1 id="数据仓库hive理论和实践">数据仓库Hive理论和实践</h1>
<h2 id="hive">Hive</h2>
<p>查询接口,提供SQL -> MapReduce的转换。
Hive依托底层的HDFS进行分布式数据存储、MapReduce进行分布式数据处理或计算。</p>
<p>数据仓库:将异构的来自不同应用的数据源进行抽取、转换、加载到中心数据库,以提供决策分析支持。</p>
<p>数据仓库四大特色:面向主题、集成的、时变的、非易失的。</p>
<p>传统的数据仓库面临的挑战:海量数据、数据类型多样、可扩展性有限</p>
<h2 id="hive架构">Hive架构</h2>
<p>Hive访问接口:命令行(CLI)、Web页面(HWI)、开放数据库连接接口(ODBC或JDBC)、Thrift
Server</p>
<p>Driver:SQL -> MapReduce</p>
<p>元数据:MetaStore,存储表的定义等元数据,这些元数据存储在Derby或MySQL等关系数据库中。</p>
<p>Hive QL(Hive 语句) /etc/init.d/mysqld restart hive</p>
<p>create database *** ; show databases;</p>
<p>use database;</p>
<p>create table [if not exists] ... [partitioned by ...] [row format
delimited fields terminated by '] location ' '; e.g. create table
student(id int, name string, age int) row format delimited fields
terminated by ' location "/data";</p>
<p>alter table *** add partition (...) location '...';</p>
<p>show tables;</p>
<p>load data [local] inpth '' overwrite into table *** ; e.g. load data
local inpath 'student_data' overwrite into table student;</p>
<p>insert overwrite table *** select *** from ... ;</p>
<p>另一个例子(来自https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.4/bk_dataintegration/content/new-feature-insert-values-update-delete.html):
CREATE TABLE students (name VARCHAR(64), age INT, gpa DECIMAL(3,2))
CLUSTERED BY (age) INTO 2 BUCKETS STORED AS ORC;</p>
<p>INSERT INTO TABLE students VALUES ('fred flintstone', 35, 1.28),
('barney rubble', 32, 2.32);</p>
<p>CREATE TABLE pageviews (userid VARCHAR(64), link STRING, from STRING)
PARTITIONED BY (datestamp STRING) CLUSTERED BY (userid) INTO 256 BUCKETS
STORED AS ORC;</p>
<p>INSERT INTO TABLE pageviews PARTITION (datestamp = '2014-09-23')
VALUES ('jsmith', 'mail.com', 'sports.com'), ('jdoe', 'mail.com',
null);</p>
<p>INSERT INTO TABLE pageviews PARTITION (datestamp) VALUES ('tjohnson',
'sports.com', 'finance.com', '2014-09-23'), ('tlee', 'finance.com',
null, '2014-09-21');</p>
<p>echo ... > file.txt e.g. echo "Hello Hadoop!" > westart.txt ...
echo "Bye Hadoop!" > wecomplete.txt</p>
<p>hope every guy enjoys our special time ...</p>
]]></content>
<categories>
<category>Big Data</category>
</categories>
<tags>
<tag>Big Data</tag>
</tags>
</entry>
<entry>
<title>6、关联规则</title>
<url>/2022/10/19/6%E3%80%81%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99/</url>
<content><![CDATA[<h1 id="关联规则">关联规则</h1>
<h2 id="关联规则的挖掘原理">关联规则的挖掘原理</h2>
<h3 id="相关概念">相关概念</h3>
<h4 id="项集itemset">项集(Itemset)</h4>
<p>项(Item)的集合</p>
<h4 id="关联规则-1">关联规则</h4>
<p><span class="math display"><mjx-container class="MathJax" jax="SVG" display="true"><svg style="vertical-align: -0.452ex;" xmlns="http://www.w3.org/2000/svg" width="51.866ex" height="2.149ex" role="img" focusable="false" viewBox="0 -750 22924.7 950"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="scale(1,-1)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(1027.8,0)"><path data-c="2286" d="M84 346Q84 468 166 546T360 635Q361 635 370 635T395 635T430 636T475 636T524 636H679Q694 628 694 616Q694 607 681 597L522 596H470H441Q366 596 338 592T266 568Q244 557 224 542T179 500T139 433T124 346V341Q124 253 185 185Q244 121 328 103Q348 98 366 98T522 96H681Q694 86 694 76Q694 64 679 56H526Q510 56 480 56T434 55Q350 55 289 71T172 141Q84 223 84 346ZM104 -131T104 -118T118 -98H679Q694 -106 694 -118T679 -138H118Q104 -131 104 -118Z"></path></g><g data-mml-node="mi" transform="translate(2083.6,0)"><path data-c="1D43C" d="M43 1Q26 1 26 10Q26 12 29 24Q34 43 39 45Q42 46 54 46H60Q120 46 136 53Q137 53 138 54Q143 56 149 77T198 273Q210 318 216 344Q286 624 286 626Q284 630 284 631Q274 637 213 637H193Q184 643 189 662Q193 677 195 680T209 683H213Q285 681 359 681Q481 681 487 683H497Q504 676 504 672T501 655T494 639Q491 637 471 637Q440 637 407 634Q393 631 388 623Q381 609 337 432Q326 385 315 341Q245 65 245 59Q245 52 255 50T307 46H339Q345 38 345 37T342 19Q338 6 332 0H316Q279 2 179 2Q143 2 113 2T65 2T43 1Z"></path></g><g data-mml-node="mi" transform="translate(2587.6,0)"><text data-variant="italic" transform="scale(1,-1)" font-size="884px" font-family="serif" font-style="italic">,</text></g><g data-mml-node="mi" transform="translate(3587.6,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(4624.3,0)"><path data-c="2286" d="M84 346Q84 468 166 546T360 635Q361 635 370 635T395 635T430 636T475 636T524 636H679Q694 628 694 616Q694 607 681 597L522 596H470H441Q366 596 338 592T266 568Q244 557 224 542T179 500T139 433T124 346V341Q124 253 185 185Q244 121 328 103Q348 98 366 98T522 96H681Q694 86 694 76Q694 64 679 56H526Q510 56 480 56T434 55Q350 55 289 71T172 141Q84 223 84 346ZM104 -131T104 -118T118 -98H679Q694 -106 694 -118T679 -138H118Q104 -131 104 -118Z"></path></g><g data-mml-node="mi" transform="translate(5680.1,0)"><path data-c="1D43C" d="M43 1Q26 1 26 10Q26 12 29 24Q34 43 39 45Q42 46 54 46H60Q120 46 136 53Q137 53 138 54Q143 56 149 77T198 273Q210 318 216 344Q286 624 286 626Q284 630 284 631Q274 637 213 637H193Q184 643 189 662Q193 677 195 680T209 683H213Q285 681 359 681Q481 681 487 683H497Q504 676 504 672T501 655T494 639Q491 637 471 637Q440 637 407 634Q393 631 388 623Q381 609 337 432Q326 385 315 341Q245 65 245 59Q245 52 255 50T307 46H339Q345 38 345 37T342 19Q338 6 332 0H316Q279 2 179 2Q143 2 113 2T65 2T43 1Z"></path></g><g data-mml-node="mi" transform="translate(6184.1,0)"><text data-variant="italic" transform="scale(1,-1)" font-size="884px" font-family="serif" font-style="italic">,</text></g><g data-mml-node="mi" transform="translate(7184.1,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(8156.3,0)"><path data-c="2229" d="M88 -21T75 -21T55 -7V200Q55 231 55 280Q56 414 60 428Q61 430 61 431Q77 500 152 549T332 598Q443 598 522 544T610 405Q611 399 611 194V-7Q604 -22 591 -22Q582 -22 572 -9L570 405Q563 433 556 449T529 485Q498 519 445 538T334 558Q251 558 179 518T96 401Q95 396 95 193V-7Q88 -21 75 -21Z"></path></g><g data-mml-node="mi" transform="translate(9045.6,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(10082.3,0)"><path data-c="3D" d="M56 347Q56 360 70 367H707Q722 359 722 347Q722 336 708 328L390 327H72Q56 332 56 347ZM56 153Q56 168 72 173H708Q722 163 722 153Q722 140 707 133H70Q56 140 56 153Z"></path></g><g data-mml-node="mi" transform="translate(11138.1,0)"><path data-c="3A6" d="M312 622Q310 623 307 625T303 629T297 631T286 634T270 635T246 636T211 637H184V683H196Q220 680 361 680T526 683H538V637H511Q468 637 447 635T422 631T411 622V533L425 531Q525 519 595 466T665 342Q665 301 642 267T583 209T506 172T425 152L411 150V61Q417 55 421 53T447 48T511 46H538V0H526Q502 3 361 3T196 0H184V46H211Q231 46 245 46T270 47T286 48T297 51T303 54T307 57T312 61V150H310Q309 151 289 153T232 166T160 195Q149 201 136 210T103 238T69 284T56 342Q56 414 128 467T294 530Q309 532 310 533H312V622ZM170 342Q170 207 307 188H312V495H309Q301 495 282 491T231 469T186 423Q170 389 170 342ZM415 188Q487 199 519 236T551 342Q551 384 539 414T507 459T470 481T434 491T415 495H410V188H415Z"></path></g><g data-mml-node="mi" transform="translate(11860.1,0)"><text data-variant="italic" transform="scale(1,-1)" font-size="884px" font-family="serif" font-style="italic">,</text></g><g data-mml-node="mi" transform="translate(12860.1,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">则</text></g><g data-mml-node="mi" transform="translate(13860.1,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(14887.9,0)"><path data-c="2192" d="M56 237T56 250T70 270H835Q719 357 692 493Q692 494 692 496T691 499Q691 511 708 511H711Q720 511 723 510T729 506T732 497T735 481T743 456Q765 389 816 336T935 261Q944 258 944 250Q944 244 939 241T915 231T877 212Q836 186 806 152T761 85T740 35T732 4Q730 -6 727 -8T711 -11Q691 -11 691 0Q691 7 696 25Q728 151 835 230H70Q56 237 56 250Z"></path></g><g data-mml-node="mi" transform="translate(16165.7,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mi" transform="translate(16924.7,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">称</text></g><g data-mml-node="mi" transform="translate(17924.7,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">为</text></g><g data-mml-node="mi" transform="translate(18924.7,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">关</text></g><g data-mml-node="mi" transform="translate(19924.7,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">联</text></g><g data-mml-node="mi" transform="translate(20924.7,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">规</text></g><g data-mml-node="mi" transform="translate(21924.7,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">则</text></g></g></g></svg></mjx-container></span></p>
<h4 id="支持度supp">支持度(supp)</h4>
<p><span class="math display"><mjx-container class="MathJax" jax="SVG" display="true"><svg style="vertical-align: -2.17ex;" xmlns="http://www.w3.org/2000/svg" width="28.728ex" height="5.471ex" role="img" focusable="false" viewBox="0 -1459 12697.7 2418"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="scale(1,-1)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="1D446" d="M308 24Q367 24 416 76T466 197Q466 260 414 284Q308 311 278 321T236 341Q176 383 176 462Q176 523 208 573T273 648Q302 673 343 688T407 704H418H425Q521 704 564 640Q565 640 577 653T603 682T623 704Q624 704 627 704T632 705Q645 705 645 698T617 577T585 459T569 456Q549 456 549 465Q549 471 550 475Q550 478 551 494T553 520Q553 554 544 579T526 616T501 641Q465 662 419 662Q362 662 313 616T263 510Q263 480 278 458T319 427Q323 425 389 408T456 390Q490 379 522 342T554 242Q554 216 546 186Q541 164 528 137T492 78T426 18T332 -20Q320 -22 298 -22Q199 -22 144 33L134 44L106 13Q83 -14 78 -18T65 -22Q52 -22 52 -14Q52 -11 110 221Q112 227 130 227H143Q149 221 149 216Q149 214 148 207T144 186T142 153Q144 114 160 87T203 47T255 29T308 24Z"></path></g><g data-mml-node="mo" transform="translate(645,0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mi" transform="translate(1034,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(2061.8,0)"><path data-c="2192" d="M56 237T56 250T70 270H835Q719 357 692 493Q692 494 692 496T691 499Q691 511 708 511H711Q720 511 723 510T729 506T732 497T735 481T743 456Q765 389 816 336T935 261Q944 258 944 250Q944 244 939 241T915 231T877 212Q836 186 806 152T761 85T740 35T732 4Q730 -6 727 -8T711 -11Q691 -11 691 0Q691 7 696 25Q728 151 835 230H70Q56 237 56 250Z"></path></g><g data-mml-node="mi" transform="translate(3339.6,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(4098.6,0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g><g data-mml-node="mo" transform="translate(4765.3,0)"><path data-c="3D" d="M56 347Q56 360 70 367H707Q722 359 722 347Q722 336 708 328L390 327H72Q56 332 56 347ZM56 153Q56 168 72 173H708Q722 163 722 153Q722 140 707 133H70Q56 140 56 153Z"></path></g><g data-mml-node="mi" transform="translate(5821.1,0)"><path data-c="1D443" d="M287 628Q287 635 230 637Q206 637 199 638T192 648Q192 649 194 659Q200 679 203 681T397 683Q587 682 600 680Q664 669 707 631T751 530Q751 453 685 389Q616 321 507 303Q500 302 402 301H307L277 182Q247 66 247 59Q247 55 248 54T255 50T272 48T305 46H336Q342 37 342 35Q342 19 335 5Q330 0 319 0Q316 0 282 1T182 2Q120 2 87 2T51 1Q33 1 33 11Q33 13 36 25Q40 41 44 43T67 46Q94 46 127 49Q141 52 146 61Q149 65 218 339T287 628ZM645 554Q645 567 643 575T634 597T609 619T560 635Q553 636 480 637Q463 637 445 637T416 636T404 636Q391 635 386 627Q384 621 367 550T332 412T314 344Q314 342 395 342H407H430Q542 342 590 392Q617 419 631 471T645 554Z"></path></g><g data-mml-node="mo" transform="translate(6572.1,0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mi" transform="translate(6961.1,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mi" transform="translate(7711.1,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(8470.1,0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g><g data-mml-node="mo" transform="translate(9136.9,0)"><path data-c="3D" d="M56 347Q56 360 70 367H707Q722 359 722 347Q722 336 708 328L390 327H72Q56 332 56 347ZM56 153Q56 168 72 173H708Q722 163 722 153Q722 140 707 133H70Q56 140 56 153Z"></path></g><g data-mml-node="mfrac" transform="translate(10192.7,0)"><g data-mml-node="mrow" transform="translate(220,709.5)"><g data-mml-node="mo" transform="translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g><g data-mml-node="mi" transform="translate(278,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mi" transform="translate(1028,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(1787,0) translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g></g><g data-mml-node="mrow" transform="translate(560.5,-709.5)"><g data-mml-node="mo" transform="translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g><g data-mml-node="mi" transform="translate(278,0)"><path data-c="1D437" d="M287 628Q287 635 230 637Q207 637 200 638T193 647Q193 655 197 667T204 682Q206 683 403 683Q570 682 590 682T630 676Q702 659 752 597T803 431Q803 275 696 151T444 3L430 1L236 0H125H72Q48 0 41 2T33 11Q33 13 36 25Q40 41 44 43T67 46Q94 46 127 49Q141 52 146 61Q149 65 218 339T287 628ZM703 469Q703 507 692 537T666 584T629 613T590 629T555 636Q553 636 541 636T512 636T479 637H436Q392 637 386 627Q384 623 313 339T242 52Q242 48 253 48T330 47Q335 47 349 47T373 46Q499 46 581 128Q617 164 640 212T683 339T703 469Z"></path></g><g data-mml-node="mo" transform="translate(1106,0) translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g></g><rect width="2265" height="60" x="120" y="220"></rect></g></g></g></svg></mjx-container></span></p>
<p>其中,|D|表示事务数据库D的事务个数</p>
<h4 id="置信度conf">置信度(conf)</h4>
<p><span class="math display"><mjx-container class="MathJax" jax="SVG" display="true"><svg style="vertical-align: -2.17ex;" xmlns="http://www.w3.org/2000/svg" width="29.617ex" height="5.471ex" role="img" focusable="false" viewBox="0 -1459 13090.7 2418"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="scale(1,-1)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="1D436" d="M50 252Q50 367 117 473T286 641T490 704Q580 704 633 653Q642 643 648 636T656 626L657 623Q660 623 684 649Q691 655 699 663T715 679T725 690L740 705H746Q760 705 760 698Q760 694 728 561Q692 422 692 421Q690 416 687 415T669 413H653Q647 419 647 422Q647 423 648 429T650 449T651 481Q651 552 619 605T510 659Q484 659 454 652T382 628T299 572T226 479Q194 422 175 346T156 222Q156 108 232 58Q280 24 350 24Q441 24 512 92T606 240Q610 253 612 255T628 257Q648 257 648 248Q648 243 647 239Q618 132 523 55T319 -22Q206 -22 128 53T50 252Z"></path></g><g data-mml-node="mo" transform="translate(760,0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mi" transform="translate(1149,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(2176.8,0)"><path data-c="2192" d="M56 237T56 250T70 270H835Q719 357 692 493Q692 494 692 496T691 499Q691 511 708 511H711Q720 511 723 510T729 506T732 497T735 481T743 456Q765 389 816 336T935 261Q944 258 944 250Q944 244 939 241T915 231T877 212Q836 186 806 152T761 85T740 35T732 4Q730 -6 727 -8T711 -11Q691 -11 691 0Q691 7 696 25Q728 151 835 230H70Q56 237 56 250Z"></path></g><g data-mml-node="mi" transform="translate(3454.6,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(4213.6,0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g><g data-mml-node="mo" transform="translate(4880.3,0)"><path data-c="3D" d="M56 347Q56 360 70 367H707Q722 359 722 347Q722 336 708 328L390 327H72Q56 332 56 347ZM56 153Q56 168 72 173H708Q722 163 722 153Q722 140 707 133H70Q56 140 56 153Z"></path></g><g data-mml-node="mi" transform="translate(5936.1,0)"><path data-c="1D443" d="M287 628Q287 635 230 637Q206 637 199 638T192 648Q192 649 194 659Q200 679 203 681T397 683Q587 682 600 680Q664 669 707 631T751 530Q751 453 685 389Q616 321 507 303Q500 302 402 301H307L277 182Q247 66 247 59Q247 55 248 54T255 50T272 48T305 46H336Q342 37 342 35Q342 19 335 5Q330 0 319 0Q316 0 282 1T182 2Q120 2 87 2T51 1Q33 1 33 11Q33 13 36 25Q40 41 44 43T67 46Q94 46 127 49Q141 52 146 61Q149 65 218 339T287 628ZM645 554Q645 567 643 575T634 597T609 619T560 635Q553 636 480 637Q463 637 445 637T416 636T404 636Q391 635 386 627Q384 621 367 550T332 412T314 344Q314 342 395 342H407H430Q542 342 590 392Q617 419 631 471T645 554Z"></path></g><g data-mml-node="mo" transform="translate(6687.1,0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mi" transform="translate(7076.1,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(7835.1,0) translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g><g data-mml-node="mi" transform="translate(8113.1,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(8863.1,0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g><g data-mml-node="mo" transform="translate(9529.9,0)"><path data-c="3D" d="M56 347Q56 360 70 367H707Q722 359 722 347Q722 336 708 328L390 327H72Q56 332 56 347ZM56 153Q56 168 72 173H708Q722 163 722 153Q722 140 707 133H70Q56 140 56 153Z"></path></g><g data-mml-node="mfrac" transform="translate(10585.7,0)"><g data-mml-node="mrow" transform="translate(220,709.5)"><g data-mml-node="mo" transform="translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g><g data-mml-node="mi" transform="translate(278,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mi" transform="translate(1028,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(1787,0) translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g></g><g data-mml-node="mrow" transform="translate(599.5,-709.5)"><g data-mml-node="mo" transform="translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g><g data-mml-node="mi" transform="translate(278,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(1028,0) translate(0 -0.5)"><path data-c="7C" d="M139 -249H137Q125 -249 119 -235V251L120 737Q130 750 139 750Q152 750 159 735V-235Q151 -249 141 -249H139Z"></path></g></g><rect width="2265" height="60" x="120" y="220"></rect></g></g></g></svg></mjx-container></span></p>
<p>其中,|A|表示数据库中包含项集A的事务个数</p>
<h4 id="阈值">阈值</h4>
<ul>
<li>最小支持度(min_supp)</li>
<li>最小置信度(min_conf)</li>
</ul>
<h4 id="频繁项集frequent-itemset">频繁项集(Frequent Itemset)</h4>
<p>项集满足最小支持度,即: <span class="math display"><mjx-container class="MathJax" jax="SVG" display="true"><svg style="vertical-align: -0.566ex;" xmlns="http://www.w3.org/2000/svg" width="22.932ex" height="2.262ex" role="img" focusable="false" viewBox="0 -750 10135.8 1000"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="scale(1,-1)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="1D446" d="M308 24Q367 24 416 76T466 197Q466 260 414 284Q308 311 278 321T236 341Q176 383 176 462Q176 523 208 573T273 648Q302 673 343 688T407 704H418H425Q521 704 564 640Q565 640 577 653T603 682T623 704Q624 704 627 704T632 705Q645 705 645 698T617 577T585 459T569 456Q549 456 549 465Q549 471 550 475Q550 478 551 494T553 520Q553 554 544 579T526 616T501 641Q465 662 419 662Q362 662 313 616T263 510Q263 480 278 458T319 427Q323 425 389 408T456 390Q490 379 522 342T554 242Q554 216 546 186Q541 164 528 137T492 78T426 18T332 -20Q320 -22 298 -22Q199 -22 144 33L134 44L106 13Q83 -14 78 -18T65 -22Q52 -22 52 -14Q52 -11 110 221Q112 227 130 227H143Q149 221 149 216Q149 214 148 207T144 186T142 153Q144 114 160 87T203 47T255 29T308 24Z"></path></g><g data-mml-node="mo" transform="translate(645,0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mi" transform="translate(1034,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(2061.8,0)"><path data-c="2192" d="M56 237T56 250T70 270H835Q719 357 692 493Q692 494 692 496T691 499Q691 511 708 511H711Q720 511 723 510T729 506T732 497T735 481T743 456Q765 389 816 336T935 261Q944 258 944 250Q944 244 939 241T915 231T877 212Q836 186 806 152T761 85T740 35T732 4Q730 -6 727 -8T711 -11Q691 -11 691 0Q691 7 696 25Q728 151 835 230H70Q56 237 56 250Z"></path></g><g data-mml-node="mi" transform="translate(3339.6,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(4098.6,0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g><g data-mml-node="mo" transform="translate(4765.3,0)"><path data-c="2265" d="M83 616Q83 624 89 630T99 636Q107 636 253 568T543 431T687 361Q694 356 694 346T687 331Q685 329 395 192L107 56H101Q83 58 83 76Q83 77 83 79Q82 86 98 95Q117 105 248 167Q326 204 378 228L626 346L360 472Q291 505 200 548Q112 589 98 597T83 616ZM84 -118Q84 -108 99 -98H678Q694 -104 694 -118Q694 -130 679 -138H98Q84 -131 84 -118Z"></path></g><g data-mml-node="mi" transform="translate(5821.1,0)"><path data-c="1D45A" d="M21 287Q22 293 24 303T36 341T56 388T88 425T132 442T175 435T205 417T221 395T229 376L231 369Q231 367 232 367L243 378Q303 442 384 442Q401 442 415 440T441 433T460 423T475 411T485 398T493 385T497 373T500 364T502 357L510 367Q573 442 659 442Q713 442 746 415T780 336Q780 285 742 178T704 50Q705 36 709 31T724 26Q752 26 776 56T815 138Q818 149 821 151T837 153Q857 153 857 145Q857 144 853 130Q845 101 831 73T785 17T716 -10Q669 -10 648 17T627 73Q627 92 663 193T700 345Q700 404 656 404H651Q565 404 506 303L499 291L466 157Q433 26 428 16Q415 -11 385 -11Q372 -11 364 -4T353 8T350 18Q350 29 384 161L420 307Q423 322 423 345Q423 404 379 404H374Q288 404 229 303L222 291L189 157Q156 26 151 16Q138 -11 108 -11Q95 -11 87 -5T76 7T74 17Q74 30 112 181Q151 335 151 342Q154 357 154 369Q154 405 129 405Q107 405 92 377T69 316T57 280Q55 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(6699.1,0)"><path data-c="1D456" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(7044.1,0)"><path data-c="1D45B" d="M21 287Q22 293 24 303T36 341T56 388T89 425T135 442Q171 442 195 424T225 390T231 369Q231 367 232 367L243 378Q304 442 382 442Q436 442 469 415T503 336T465 179T427 52Q427 26 444 26Q450 26 453 27Q482 32 505 65T540 145Q542 153 560 153Q580 153 580 145Q580 144 576 130Q568 101 554 73T508 17T439 -10Q392 -10 371 17T350 73Q350 92 386 193T423 345Q423 404 379 404H374Q288 404 229 303L222 291L189 157Q156 26 151 16Q138 -11 108 -11Q95 -11 87 -5T76 7T74 17Q74 30 112 180T152 343Q153 348 153 366Q153 405 129 405Q91 405 66 305Q60 285 60 284Q58 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mo" transform="translate(7644.1,0)"><path data-c="2E" d="M78 60Q78 84 95 102T138 120Q162 120 180 104T199 61Q199 36 182 18T139 0T96 17T78 60Z"></path></g><g data-mml-node="mi" transform="translate(8088.8,0)"><path data-c="1D460" d="M131 289Q131 321 147 354T203 415T300 442Q362 442 390 415T419 355Q419 323 402 308T364 292Q351 292 340 300T328 326Q328 342 337 354T354 372T367 378Q368 378 368 379Q368 382 361 388T336 399T297 405Q249 405 227 379T204 326Q204 301 223 291T278 274T330 259Q396 230 396 163Q396 135 385 107T352 51T289 7T195 -10Q118 -10 86 19T53 87Q53 126 74 143T118 160Q133 160 146 151T160 120Q160 94 142 76T111 58Q109 57 108 57T107 55Q108 52 115 47T146 34T201 27Q237 27 263 38T301 66T318 97T323 122Q323 150 302 164T254 181T195 196T148 231Q131 256 131 289Z"></path></g><g data-mml-node="mi" transform="translate(8557.8,0)"><path data-c="1D462" d="M21 287Q21 295 30 318T55 370T99 420T158 442Q204 442 227 417T250 358Q250 340 216 246T182 105Q182 62 196 45T238 27T291 44T328 78L339 95Q341 99 377 247Q407 367 413 387T427 416Q444 431 463 431Q480 431 488 421T496 402L420 84Q419 79 419 68Q419 43 426 35T447 26Q469 29 482 57T512 145Q514 153 532 153Q551 153 551 144Q550 139 549 130T540 98T523 55T498 17T462 -8Q454 -10 438 -10Q372 -10 347 46Q345 45 336 36T318 21T296 6T267 -6T233 -11Q189 -11 155 7Q103 38 103 113Q103 170 138 262T173 379Q173 380 173 381Q173 390 173 393T169 400T158 404H154Q131 404 112 385T82 344T65 302T57 280Q55 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(9129.8,0)"><path data-c="1D45D" d="M23 287Q24 290 25 295T30 317T40 348T55 381T75 411T101 433T134 442Q209 442 230 378L240 387Q302 442 358 442Q423 442 460 395T497 281Q497 173 421 82T249 -10Q227 -10 210 -4Q199 1 187 11T168 28L161 36Q160 35 139 -51T118 -138Q118 -144 126 -145T163 -148H188Q194 -155 194 -157T191 -175Q188 -187 185 -190T172 -194Q170 -194 161 -194T127 -193T65 -192Q-5 -192 -24 -194H-32Q-39 -187 -39 -183Q-37 -156 -26 -148H-6Q28 -147 33 -136Q36 -130 94 103T155 350Q156 355 156 364Q156 405 131 405Q109 405 94 377T71 316T59 280Q57 278 43 278H29Q23 284 23 287ZM178 102Q200 26 252 26Q282 26 310 49T356 107Q374 141 392 215T411 325V331Q411 405 350 405Q339 405 328 402T306 393T286 380T269 365T254 350T243 336T235 326L232 322Q232 321 229 308T218 264T204 212Q178 106 178 102Z"></path></g><g data-mml-node="mi" transform="translate(9632.8,0)"><path data-c="1D45D" d="M23 287Q24 290 25 295T30 317T40 348T55 381T75 411T101 433T134 442Q209 442 230 378L240 387Q302 442 358 442Q423 442 460 395T497 281Q497 173 421 82T249 -10Q227 -10 210 -4Q199 1 187 11T168 28L161 36Q160 35 139 -51T118 -138Q118 -144 126 -145T163 -148H188Q194 -155 194 -157T191 -175Q188 -187 185 -190T172 -194Q170 -194 161 -194T127 -193T65 -192Q-5 -192 -24 -194H-32Q-39 -187 -39 -183Q-37 -156 -26 -148H-6Q28 -147 33 -136Q36 -130 94 103T155 350Q156 355 156 364Q156 405 131 405Q109 405 94 377T71 316T59 280Q57 278 43 278H29Q23 284 23 287ZM178 102Q200 26 252 26Q282 26 310 49T356 107Q374 141 392 215T411 325V331Q411 405 350 405Q339 405 328 402T306 393T286 380T269 365T254 350T243 336T235 326L232 322Q232 321 229 308T218 264T204 212Q178 106 178 102Z"></path></g></g></g></svg></mjx-container></span> 性质:</p>
<ul>
<li>频繁项集的子集必是频繁项集</li>
<li>非频繁项集的超集一定是非频繁的</li>
</ul>
<h4 id="强关联规则">强关联规则</h4>
<p>同时满足最小支持度(min_supp)和最小置信度(min_conf)的规则称之为强关联规则,即
<span class="math display"><mjx-container class="MathJax" jax="SVG" display="true"><svg style="vertical-align: -0.566ex;" xmlns="http://www.w3.org/2000/svg" width="102.782ex" height="2.262ex" role="img" focusable="false" viewBox="0 -750 45429.7 1000"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="scale(1,-1)"><g data-mml-node="math"><g data-mml-node="mi"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">给</text></g><g data-mml-node="mi" transform="translate(1000,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">定</text></g><g data-mml-node="mi" transform="translate(2000,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">事</text></g><g data-mml-node="mi" transform="translate(3000,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">务</text></g><g data-mml-node="mi" transform="translate(4000,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">数</text></g><g data-mml-node="mi" transform="translate(5000,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">据</text></g><g data-mml-node="mi" transform="translate(6000,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">库</text></g><g data-mml-node="mi" transform="translate(7000,0)"><path data-c="1D437" d="M287 628Q287 635 230 637Q207 637 200 638T193 647Q193 655 197 667T204 682Q206 683 403 683Q570 682 590 682T630 676Q702 659 752 597T803 431Q803 275 696 151T444 3L430 1L236 0H125H72Q48 0 41 2T33 11Q33 13 36 25Q40 41 44 43T67 46Q94 46 127 49Q141 52 146 61Q149 65 218 339T287 628ZM703 469Q703 507 692 537T666 584T629 613T590 629T555 636Q553 636 541 636T512 636T479 637H436Q392 637 386 627Q384 623 313 339T242 52Q242 48 253 48T330 47Q335 47 349 47T373 46Q499 46 581 128Q617 164 640 212T683 339T703 469Z"></path></g><g data-mml-node="mi" transform="translate(7828,0)"><text data-variant="italic" transform="scale(1,-1)" font-size="884px" font-family="serif" font-style="italic">,</text></g><g data-mml-node="mi" transform="translate(8828,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">满</text></g><g data-mml-node="mi" transform="translate(9828,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">足</text></g><g data-mml-node="mi" transform="translate(10828,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(11855.8,0)"><path data-c="2286" d="M84 346Q84 468 166 546T360 635Q361 635 370 635T395 635T430 636T475 636T524 636H679Q694 628 694 616Q694 607 681 597L522 596H470H441Q366 596 338 592T266 568Q244 557 224 542T179 500T139 433T124 346V341Q124 253 185 185Q244 121 328 103Q348 98 366 98T522 96H681Q694 86 694 76Q694 64 679 56H526Q510 56 480 56T434 55Q350 55 289 71T172 141Q84 223 84 346ZM104 -131T104 -118T118 -98H679Q694 -106 694 -118T679 -138H118Q104 -131 104 -118Z"></path></g><g data-mml-node="mi" transform="translate(12911.6,0)"><path data-c="1D43C" d="M43 1Q26 1 26 10Q26 12 29 24Q34 43 39 45Q42 46 54 46H60Q120 46 136 53Q137 53 138 54Q143 56 149 77T198 273Q210 318 216 344Q286 624 286 626Q284 630 284 631Q274 637 213 637H193Q184 643 189 662Q193 677 195 680T209 683H213Q285 681 359 681Q481 681 487 683H497Q504 676 504 672T501 655T494 639Q491 637 471 637Q440 637 407 634Q393 631 388 623Q381 609 337 432Q326 385 315 341Q245 65 245 59Q245 52 255 50T307 46H339Q345 38 345 37T342 19Q338 6 332 0H316Q279 2 179 2Q143 2 113 2T65 2T43 1Z"></path></g><g data-mml-node="mo" transform="translate(13415.6,0)"><path data-c="2C" d="M78 35T78 60T94 103T137 121Q165 121 187 96T210 8Q210 -27 201 -60T180 -117T154 -158T130 -185T117 -194Q113 -194 104 -185T95 -172Q95 -168 106 -156T131 -126T157 -76T173 -3V9L172 8Q170 7 167 6T161 3T152 1T140 0Q113 0 96 17Z"></path></g><g data-mml-node="mi" transform="translate(13860.2,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(14897,0)"><path data-c="2286" d="M84 346Q84 468 166 546T360 635Q361 635 370 635T395 635T430 636T475 636T524 636H679Q694 628 694 616Q694 607 681 597L522 596H470H441Q366 596 338 592T266 568Q244 557 224 542T179 500T139 433T124 346V341Q124 253 185 185Q244 121 328 103Q348 98 366 98T522 96H681Q694 86 694 76Q694 64 679 56H526Q510 56 480 56T434 55Q350 55 289 71T172 141Q84 223 84 346ZM104 -131T104 -118T118 -98H679Q694 -106 694 -118T679 -138H118Q104 -131 104 -118Z"></path></g><g data-mml-node="mi" transform="translate(15952.8,0)"><path data-c="1D43C" d="M43 1Q26 1 26 10Q26 12 29 24Q34 43 39 45Q42 46 54 46H60Q120 46 136 53Q137 53 138 54Q143 56 149 77T198 273Q210 318 216 344Q286 624 286 626Q284 630 284 631Q274 637 213 637H193Q184 643 189 662Q193 677 195 680T209 683H213Q285 681 359 681Q481 681 487 683H497Q504 676 504 672T501 655T494 639Q491 637 471 637Q440 637 407 634Q393 631 388 623Q381 609 337 432Q326 385 315 341Q245 65 245 59Q245 52 255 50T307 46H339Q345 38 345 37T342 19Q338 6 332 0H316Q279 2 179 2Q143 2 113 2T65 2T43 1Z"></path></g><g data-mml-node="mo" transform="translate(16456.8,0)"><path data-c="2C" d="M78 35T78 60T94 103T137 121Q165 121 187 96T210 8Q210 -27 201 -60T180 -117T154 -158T130 -185T117 -194Q113 -194 104 -185T95 -172Q95 -168 106 -156T131 -126T157 -76T173 -3V9L172 8Q170 7 167 6T161 3T152 1T140 0Q113 0 96 17Z"></path></g><g data-mml-node="mi" transform="translate(16901.4,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(17873.7,0)"><path data-c="2229" d="M88 -21T75 -21T55 -7V200Q55 231 55 280Q56 414 60 428Q61 430 61 431Q77 500 152 549T332 598Q443 598 522 544T610 405Q611 399 611 194V-7Q604 -22 591 -22Q582 -22 572 -9L570 405Q563 433 556 449T529 485Q498 519 445 538T334 558Q251 558 179 518T96 401Q95 396 95 193V-7Q88 -21 75 -21Z"></path></g><g data-mml-node="mi" transform="translate(18762.9,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(19799.7,0)"><path data-c="3D" d="M56 347Q56 360 70 367H707Q722 359 722 347Q722 336 708 328L390 327H72Q56 332 56 347ZM56 153Q56 168 72 173H708Q722 163 722 153Q722 140 707 133H70Q56 140 56 153Z"></path></g><g data-mml-node="mi" transform="translate(20855.4,0)"><path data-c="3A6" d="M312 622Q310 623 307 625T303 629T297 631T286 634T270 635T246 636T211 637H184V683H196Q220 680 361 680T526 683H538V637H511Q468 637 447 635T422 631T411 622V533L425 531Q525 519 595 466T665 342Q665 301 642 267T583 209T506 172T425 152L411 150V61Q417 55 421 53T447 48T511 46H538V0H526Q502 3 361 3T196 0H184V46H211Q231 46 245 46T270 47T286 48T297 51T303 54T307 57T312 61V150H310Q309 151 289 153T232 166T160 195Q149 201 136 210T103 238T69 284T56 342Q56 414 128 467T294 530Q309 532 310 533H312V622ZM170 342Q170 207 307 188H312V495H309Q301 495 282 491T231 469T186 423Q170 389 170 342ZM415 188Q487 199 519 236T551 342Q551 384 539 414T507 459T470 481T434 491T415 495H410V188H415Z"></path></g><g data-mml-node="mo" transform="translate(21577.4,0)"><path data-c="2C" d="M78 35T78 60T94 103T137 121Q165 121 187 96T210 8Q210 -27 201 -60T180 -117T154 -158T130 -185T117 -194Q113 -194 104 -185T95 -172Q95 -168 106 -156T131 -126T157 -76T173 -3V9L172 8Q170 7 167 6T161 3T152 1T140 0Q113 0 96 17Z"></path></g><g data-mml-node="mi" transform="translate(22022.1,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">以</text></g><g data-mml-node="mi" transform="translate(23022.1,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">及</text></g><g data-mml-node="mi" transform="translate(24022.1,0)"><path data-c="1D446" d="M308 24Q367 24 416 76T466 197Q466 260 414 284Q308 311 278 321T236 341Q176 383 176 462Q176 523 208 573T273 648Q302 673 343 688T407 704H418H425Q521 704 564 640Q565 640 577 653T603 682T623 704Q624 704 627 704T632 705Q645 705 645 698T617 577T585 459T569 456Q549 456 549 465Q549 471 550 475Q550 478 551 494T553 520Q553 554 544 579T526 616T501 641Q465 662 419 662Q362 662 313 616T263 510Q263 480 278 458T319 427Q323 425 389 408T456 390Q490 379 522 342T554 242Q554 216 546 186Q541 164 528 137T492 78T426 18T332 -20Q320 -22 298 -22Q199 -22 144 33L134 44L106 13Q83 -14 78 -18T65 -22Q52 -22 52 -14Q52 -11 110 221Q112 227 130 227H143Q149 221 149 216Q149 214 148 207T144 186T142 153Q144 114 160 87T203 47T255 29T308 24Z"></path></g><g data-mml-node="mo" transform="translate(24667.1,0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mi" transform="translate(25056.1,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(26083.9,0)"><path data-c="2192" d="M56 237T56 250T70 270H835Q719 357 692 493Q692 494 692 496T691 499Q691 511 708 511H711Q720 511 723 510T729 506T732 497T735 481T743 456Q765 389 816 336T935 261Q944 258 944 250Q944 244 939 241T915 231T877 212Q836 186 806 152T761 85T740 35T732 4Q730 -6 727 -8T711 -11Q691 -11 691 0Q691 7 696 25Q728 151 835 230H70Q56 237 56 250Z"></path></g><g data-mml-node="mi" transform="translate(27361.7,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(28120.7,0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g><g data-mml-node="mo" transform="translate(28787.4,0)"><path data-c="2265" d="M83 616Q83 624 89 630T99 636Q107 636 253 568T543 431T687 361Q694 356 694 346T687 331Q685 329 395 192L107 56H101Q83 58 83 76Q83 77 83 79Q82 86 98 95Q117 105 248 167Q326 204 378 228L626 346L360 472Q291 505 200 548Q112 589 98 597T83 616ZM84 -118Q84 -108 99 -98H678Q694 -104 694 -118Q694 -130 679 -138H98Q84 -131 84 -118Z"></path></g><g data-mml-node="mi" transform="translate(29843.2,0)"><path data-c="1D45A" d="M21 287Q22 293 24 303T36 341T56 388T88 425T132 442T175 435T205 417T221 395T229 376L231 369Q231 367 232 367L243 378Q303 442 384 442Q401 442 415 440T441 433T460 423T475 411T485 398T493 385T497 373T500 364T502 357L510 367Q573 442 659 442Q713 442 746 415T780 336Q780 285 742 178T704 50Q705 36 709 31T724 26Q752 26 776 56T815 138Q818 149 821 151T837 153Q857 153 857 145Q857 144 853 130Q845 101 831 73T785 17T716 -10Q669 -10 648 17T627 73Q627 92 663 193T700 345Q700 404 656 404H651Q565 404 506 303L499 291L466 157Q433 26 428 16Q415 -11 385 -11Q372 -11 364 -4T353 8T350 18Q350 29 384 161L420 307Q423 322 423 345Q423 404 379 404H374Q288 404 229 303L222 291L189 157Q156 26 151 16Q138 -11 108 -11Q95 -11 87 -5T76 7T74 17Q74 30 112 181Q151 335 151 342Q154 357 154 369Q154 405 129 405Q107 405 92 377T69 316T57 280Q55 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(30721.2,0)"><path data-c="1D456" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(31066.2,0)"><path data-c="1D45B" d="M21 287Q22 293 24 303T36 341T56 388T89 425T135 442Q171 442 195 424T225 390T231 369Q231 367 232 367L243 378Q304 442 382 442Q436 442 469 415T503 336T465 179T427 52Q427 26 444 26Q450 26 453 27Q482 32 505 65T540 145Q542 153 560 153Q580 153 580 145Q580 144 576 130Q568 101 554 73T508 17T439 -10Q392 -10 371 17T350 73Q350 92 386 193T423 345Q423 404 379 404H374Q288 404 229 303L222 291L189 157Q156 26 151 16Q138 -11 108 -11Q95 -11 87 -5T76 7T74 17Q74 30 112 180T152 343Q153 348 153 366Q153 405 129 405Q91 405 66 305Q60 285 60 284Q58 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mo" transform="translate(31666.2,0)"><path data-c="2E" d="M78 60Q78 84 95 102T138 120Q162 120 180 104T199 61Q199 36 182 18T139 0T96 17T78 60Z"></path></g><g data-mml-node="mi" transform="translate(32110.9,0)"><path data-c="1D460" d="M131 289Q131 321 147 354T203 415T300 442Q362 442 390 415T419 355Q419 323 402 308T364 292Q351 292 340 300T328 326Q328 342 337 354T354 372T367 378Q368 378 368 379Q368 382 361 388T336 399T297 405Q249 405 227 379T204 326Q204 301 223 291T278 274T330 259Q396 230 396 163Q396 135 385 107T352 51T289 7T195 -10Q118 -10 86 19T53 87Q53 126 74 143T118 160Q133 160 146 151T160 120Q160 94 142 76T111 58Q109 57 108 57T107 55Q108 52 115 47T146 34T201 27Q237 27 263 38T301 66T318 97T323 122Q323 150 302 164T254 181T195 196T148 231Q131 256 131 289Z"></path></g><g data-mml-node="mi" transform="translate(32579.9,0)"><path data-c="1D462" d="M21 287Q21 295 30 318T55 370T99 420T158 442Q204 442 227 417T250 358Q250 340 216 246T182 105Q182 62 196 45T238 27T291 44T328 78L339 95Q341 99 377 247Q407 367 413 387T427 416Q444 431 463 431Q480 431 488 421T496 402L420 84Q419 79 419 68Q419 43 426 35T447 26Q469 29 482 57T512 145Q514 153 532 153Q551 153 551 144Q550 139 549 130T540 98T523 55T498 17T462 -8Q454 -10 438 -10Q372 -10 347 46Q345 45 336 36T318 21T296 6T267 -6T233 -11Q189 -11 155 7Q103 38 103 113Q103 170 138 262T173 379Q173 380 173 381Q173 390 173 393T169 400T158 404H154Q131 404 112 385T82 344T65 302T57 280Q55 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(33151.9,0)"><path data-c="1D45D" d="M23 287Q24 290 25 295T30 317T40 348T55 381T75 411T101 433T134 442Q209 442 230 378L240 387Q302 442 358 442Q423 442 460 395T497 281Q497 173 421 82T249 -10Q227 -10 210 -4Q199 1 187 11T168 28L161 36Q160 35 139 -51T118 -138Q118 -144 126 -145T163 -148H188Q194 -155 194 -157T191 -175Q188 -187 185 -190T172 -194Q170 -194 161 -194T127 -193T65 -192Q-5 -192 -24 -194H-32Q-39 -187 -39 -183Q-37 -156 -26 -148H-6Q28 -147 33 -136Q36 -130 94 103T155 350Q156 355 156 364Q156 405 131 405Q109 405 94 377T71 316T59 280Q57 278 43 278H29Q23 284 23 287ZM178 102Q200 26 252 26Q282 26 310 49T356 107Q374 141 392 215T411 325V331Q411 405 350 405Q339 405 328 402T306 393T286 380T269 365T254 350T243 336T235 326L232 322Q232 321 229 308T218 264T204 212Q178 106 178 102Z"></path></g><g data-mml-node="mi" transform="translate(33654.9,0)"><path data-c="1D45D" d="M23 287Q24 290 25 295T30 317T40 348T55 381T75 411T101 433T134 442Q209 442 230 378L240 387Q302 442 358 442Q423 442 460 395T497 281Q497 173 421 82T249 -10Q227 -10 210 -4Q199 1 187 11T168 28L161 36Q160 35 139 -51T118 -138Q118 -144 126 -145T163 -148H188Q194 -155 194 -157T191 -175Q188 -187 185 -190T172 -194Q170 -194 161 -194T127 -193T65 -192Q-5 -192 -24 -194H-32Q-39 -187 -39 -183Q-37 -156 -26 -148H-6Q28 -147 33 -136Q36 -130 94 103T155 350Q156 355 156 364Q156 405 131 405Q109 405 94 377T71 316T59 280Q57 278 43 278H29Q23 284 23 287ZM178 102Q200 26 252 26Q282 26 310 49T356 107Q374 141 392 215T411 325V331Q411 405 350 405Q339 405 328 402T306 393T286 380T269 365T254 350T243 336T235 326L232 322Q232 321 229 308T218 264T204 212Q178 106 178 102Z"></path></g><g data-mml-node="mi" transform="translate(34157.9,0)"><text data-variant="normal" transform="scale(1,-1)" font-size="884px" font-family="serif">且</text></g><g data-mml-node="mi" transform="translate(35157.9,0)"><path data-c="1D436" d="M50 252Q50 367 117 473T286 641T490 704Q580 704 633 653Q642 643 648 636T656 626L657 623Q660 623 684 649Q691 655 699 663T715 679T725 690L740 705H746Q760 705 760 698Q760 694 728 561Q692 422 692 421Q690 416 687 415T669 413H653Q647 419 647 422Q647 423 648 429T650 449T651 481Q651 552 619 605T510 659Q484 659 454 652T382 628T299 572T226 479Q194 422 175 346T156 222Q156 108 232 58Q280 24 350 24Q441 24 512 92T606 240Q610 253 612 255T628 257Q648 257 648 248Q648 243 647 239Q618 132 523 55T319 -22Q206 -22 128 53T50 252Z"></path></g><g data-mml-node="mo" transform="translate(35917.9,0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mi" transform="translate(36306.9,0)"><path data-c="1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path></g><g data-mml-node="mo" transform="translate(37334.7,0)"><path data-c="2192" d="M56 237T56 250T70 270H835Q719 357 692 493Q692 494 692 496T691 499Q691 511 708 511H711Q720 511 723 510T729 506T732 497T735 481T743 456Q765 389 816 336T935 261Q944 258 944 250Q944 244 939 241T915 231T877 212Q836 186 806 152T761 85T740 35T732 4Q730 -6 727 -8T711 -11Q691 -11 691 0Q691 7 696 25Q728 151 835 230H70Q56 237 56 250Z"></path></g><g data-mml-node="mi" transform="translate(38612.4,0)"><path data-c="1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path></g><g data-mml-node="mo" transform="translate(39371.4,0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g><g data-mml-node="mo" transform="translate(40038.2,0)"><path data-c="2265" d="M83 616Q83 624 89 630T99 636Q107 636 253 568T543 431T687 361Q694 356 694 346T687 331Q685 329 395 192L107 56H101Q83 58 83 76Q83 77 83 79Q82 86 98 95Q117 105 248 167Q326 204 378 228L626 346L360 472Q291 505 200 548Q112 589 98 597T83 616ZM84 -118Q84 -108 99 -98H678Q694 -104 694 -118Q694 -130 679 -138H98Q84 -131 84 -118Z"></path></g><g data-mml-node="mi" transform="translate(41094,0)"><path data-c="1D45A" d="M21 287Q22 293 24 303T36 341T56 388T88 425T132 442T175 435T205 417T221 395T229 376L231 369Q231 367 232 367L243 378Q303 442 384 442Q401 442 415 440T441 433T460 423T475 411T485 398T493 385T497 373T500 364T502 357L510 367Q573 442 659 442Q713 442 746 415T780 336Q780 285 742 178T704 50Q705 36 709 31T724 26Q752 26 776 56T815 138Q818 149 821 151T837 153Q857 153 857 145Q857 144 853 130Q845 101 831 73T785 17T716 -10Q669 -10 648 17T627 73Q627 92 663 193T700 345Q700 404 656 404H651Q565 404 506 303L499 291L466 157Q433 26 428 16Q415 -11 385 -11Q372 -11 364 -4T353 8T350 18Q350 29 384 161L420 307Q423 322 423 345Q423 404 379 404H374Q288 404 229 303L222 291L189 157Q156 26 151 16Q138 -11 108 -11Q95 -11 87 -5T76 7T74 17Q74 30 112 181Q151 335 151 342Q154 357 154 369Q154 405 129 405Q107 405 92 377T69 316T57 280Q55 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(41972,0)"><path data-c="1D456" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(42317,0)"><path data-c="1D45B" d="M21 287Q22 293 24 303T36 341T56 388T89 425T135 442Q171 442 195 424T225 390T231 369Q231 367 232 367L243 378Q304 442 382 442Q436 442 469 415T503 336T465 179T427 52Q427 26 444 26Q450 26 453 27Q482 32 505 65T540 145Q542 153 560 153Q580 153 580 145Q580 144 576 130Q568 101 554 73T508 17T439 -10Q392 -10 371 17T350 73Q350 92 386 193T423 345Q423 404 379 404H374Q288 404 229 303L222 291L189 157Q156 26 151 16Q138 -11 108 -11Q95 -11 87 -5T76 7T74 17Q74 30 112 180T152 343Q153 348 153 366Q153 405 129 405Q91 405 66 305Q60 285 60 284Q58 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mo" transform="translate(42917,0)"><path data-c="2E" d="M78 60Q78 84 95 102T138 120Q162 120 180 104T199 61Q199 36 182 18T139 0T96 17T78 60Z"></path></g><g data-mml-node="mi" transform="translate(43361.7,0)"><path data-c="1D450" d="M34 159Q34 268 120 355T306 442Q362 442 394 418T427 355Q427 326 408 306T360 285Q341 285 330 295T319 325T330 359T352 380T366 386H367Q367 388 361 392T340 400T306 404Q276 404 249 390Q228 381 206 359Q162 315 142 235T121 119Q121 73 147 50Q169 26 205 26H209Q321 26 394 111Q403 121 406 121Q410 121 419 112T429 98T420 83T391 55T346 25T282 0T202 -11Q127 -11 81 37T34 159Z"></path></g><g data-mml-node="mi" transform="translate(43794.7,0)"><path data-c="1D45C" d="M201 -11Q126 -11 80 38T34 156Q34 221 64 279T146 380Q222 441 301 441Q333 441 341 440Q354 437 367 433T402 417T438 387T464 338T476 268Q476 161 390 75T201 -11ZM121 120Q121 70 147 48T206 26Q250 26 289 58T351 142Q360 163 374 216T388 308Q388 352 370 375Q346 405 306 405Q243 405 195 347Q158 303 140 230T121 120Z"></path></g><g data-mml-node="mi" transform="translate(44279.7,0)"><path data-c="1D45B" d="M21 287Q22 293 24 303T36 341T56 388T89 425T135 442Q171 442 195 424T225 390T231 369Q231 367 232 367L243 378Q304 442 382 442Q436 442 469 415T503 336T465 179T427 52Q427 26 444 26Q450 26 453 27Q482 32 505 65T540 145Q542 153 560 153Q580 153 580 145Q580 144 576 130Q568 101 554 73T508 17T439 -10Q392 -10 371 17T350 73Q350 92 386 193T423 345Q423 404 379 404H374Q288 404 229 303L222 291L189 157Q156 26 151 16Q138 -11 108 -11Q95 -11 87 -5T76 7T74 17Q74 30 112 180T152 343Q153 348 153 366Q153 405 129 405Q91 405 66 305Q60 285 60 284Q58 278 41 278H27Q21 284 21 287Z"></path></g><g data-mml-node="mi" transform="translate(44879.7,0)"><path data-c="1D453" d="M118 -162Q120 -162 124 -164T135 -167T147 -168Q160 -168 171 -155T187 -126Q197 -99 221 27T267 267T289 382V385H242Q195 385 192 387Q188 390 188 397L195 425Q197 430 203 430T250 431Q298 431 298 432Q298 434 307 482T319 540Q356 705 465 705Q502 703 526 683T550 630Q550 594 529 578T487 561Q443 561 443 603Q443 622 454 636T478 657L487 662Q471 668 457 668Q445 668 434 658T419 630Q412 601 403 552T387 469T380 433Q380 431 435 431Q480 431 487 430T498 424Q499 420 496 407T491 391Q489 386 482 386T428 385H372L349 263Q301 15 282 -47Q255 -132 212 -173Q175 -205 139 -205Q107 -205 81 -186T55 -132Q55 -95 76 -78T118 -61Q162 -61 162 -103Q162 -122 151 -136T127 -157L118 -162Z"></path></g></g></g></svg></mjx-container></span></p>
<h2 id="apriori算法">Apriori算法</h2>
<p>min_supp=2</p>
<p><img src="../images/DataMining/image-20221019140559395.png"></p>
]]></content>
<categories>
<category>Data Warehouse and Data Mining</category>
</categories>
<tags>
<tag>Data Warehouse and Data Mining</tag>
</tags>
</entry>
<entry>
<title>5、数据挖掘原理</title>
<url>/2022/10/19/5%E3%80%81%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E5%8E%9F%E7%90%86/</url>
<content><![CDATA[<h1 id="数据挖掘原理">数据挖掘原理</h1>
<h2 id="知识发现过程">知识发现过程</h2>
<h3 id="知识发现过程定义">知识发现过程定义</h3>
<ul>
<li><p>知识发现(KDD):从数据中发现有用知识的整个过程。</p></li>
<li><p>数据挖掘(DM)
:KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。</p></li>
</ul>
<p><img src="../images/DataMining/image-20221019130231010.png" /></p>
<h2 id="数据挖掘方法和技术概述">数据挖掘方法和技术概述</h2>
<h3 id="数据挖掘常用技术">数据挖掘常用技术</h3>
<ul>
<li><p>关联分析</p></li>
<li><p>分类</p></li>
<li><p>聚类</p></li>
<li><p>人工神经网络等</p></li>
</ul>
<h3 id="关联分析">关联分析</h3>
<p>若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。</p>
<p>一般用“支持度”和“可信度”两个阈值来淘汰无用的关联规则。</p>
<h3 id="数据挖掘工具">数据挖掘工具</h3>
<ul>
<li>SAS Enterprise Miner</li>
<li>SPSS Clementine</li>
<li>IBM Intelligent Miner</li>
<li>Oracle Data Miner</li>
<li>SSAS、SSIS、SSRS</li>
</ul>
]]></content>
<categories>
<category>Data Warehouse and Data Mining</category>
</categories>
<tags>
<tag>Data Warehouse and Data Mining</tag>
</tags>
</entry>
<entry>
<title>7、决策树</title>
<url>/2022/10/26/7%E3%80%81%E5%86%B3%E7%AD%96%E6%A0%91/</url>
<content><![CDATA[<h1 id="决策树">决策树</h1>
<h2 id="决策树分类">决策树分类</h2>
<h3 id="决策树的概念">决策树的概念</h3>
<p>是一种类似于流程图的树结构</p>
<ul>
<li><p>其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出</p></li>
<li><p>每个树叶结点存放一个类标签</p></li>
</ul>
<h3 id="实例">实例</h3>
<p>张(被介绍):多大年纪了?</p>
<p>王(介绍):25。</p>
<p>张:长的帅不帅?</p>
<p>王:挺帅的。</p>
<p>张:收入高不?</p>
<p>王:不算很高,中等情况。</p>
<p>张:是公务员不?</p>
<p>王:是,在税务局上班呢。</p>