From 20d1561a545551393ede3d5ebafcd42f7dc07659 Mon Sep 17 00:00:00 2001
From: Xinqi Li <lixinqi2010@gmail.com>
Date: Mon, 16 Mar 2026 07:49:13 +0000
Subject: [PATCH] add scripts for evaluation subset selection

---
 ...graph_sample_uids_and_op_seq_bucket_id.sql | 22 +++++++++++++++++++
 .../select_representive_sample_uids.viba      | 11 ++++++++++
 2 files changed, 33 insertions(+)
 create mode 100644 graph_net/sqlite_util/select_fusible_graph_sample_uids_and_op_seq_bucket_id.sql
 create mode 100644 graph_net/sqlite_util/select_representive_sample_uids.viba

diff --git a/graph_net/sqlite_util/select_fusible_graph_sample_uids_and_op_seq_bucket_id.sql b/graph_net/sqlite_util/select_fusible_graph_sample_uids_and_op_seq_bucket_id.sql
new file mode 100644
index 000000000..35f62fe68
--- /dev/null
+++ b/graph_net/sqlite_util/select_fusible_graph_sample_uids_and_op_seq_bucket_id.sql
@@ -0,0 +1,22 @@
+CREATE TEMP VIEW v_sample_buckets_groups AS
+SELECT
+    g.sample_type,
+    g.relative_model_path,
+    b.sample_uid,
+    b.op_seq_bucket_id,
+    grp.group_uid
+FROM graph_sample g
+JOIN graph_net_sample_buckets b ON g.uuid = b.sample_uid
+JOIN graph_net_sample_groups grp ON g.uuid = grp.sample_uid
+WHERE g.deleted = 0 AND b.deleted = 0 AND grp.deleted = 0;
+
+select distinct group_concat(sample_uid) as sample_uids, op_seq_bucket_id
+from (
+    select *
+    from v_sample_buckets_groups
+    order by sample_uid asc
+)
+where sample_type = 'fusible_graph'
+group by group_uid
+order by op_seq_bucket_id asc
+;
diff --git a/graph_net/sqlite_util/select_representive_sample_uids.viba b/graph_net/sqlite_util/select_representive_sample_uids.viba
new file mode 100644
index 000000000..cc433124e
--- /dev/null
+++ b/graph_net/sqlite_util/select_representive_sample_uids.viba
@@ -0,0 +1,11 @@
+# select_representive_sample_uids.py
+select_representive_sample_uids :=
+	$ret list[$sample_uids str]
+  <- $total_sample_uids_and_op_seqs ArgParse[FileContentEachLine[$sample_uids str, TAB, $op_seq str]]
+  <- $selected_op_seqs ArgParse[FileContentEachLine[$op_seq str]]
+  # inline
+  <- ($grouped_by_op_seq dict[$op_seq str, list[$sample_uids str]] <- $total_sample_uids_and_op_seqs)
+  <- $get_max_len_sample_uids (str <- list[$sample_uids str])
+  <- ($op_seq_to_max_len_sample_uids dict[$op_seq, $max_len_sample_uids str]
+     <- $get_max_len_sample_uids <- $grouped_by_op_seq)
+  <- ($ret <- $op_seq_to_max_len_sample_uids <- $selected_op_seqs)