diff --git a/examples/basic_example.ipynb b/examples/basic_example.ipynb
index 66d746c5d..d3caf67de 100644
--- a/examples/basic_example.ipynb
+++ b/examples/basic_example.ipynb
@@ -180,9 +180,9 @@
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "Python [conda env:.mlspace-focus_new]",
+   "display_name": "Python 3 (ipykernel)",
    "language": "python",
-   "name": "conda-env-.mlspace-focus_new-py"
+   "name": "python3"
   },
   "language_info": {
    "codemirror_mode": {
@@ -194,7 +194,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.10.16"
+   "version": "3.11.11"
   }
  },
  "nbformat": 4,
diff --git a/examples/configs/base_processing_hotpot.yaml b/examples/configs/base_processing_hotpot.yaml
new file mode 100644
index 000000000..489adc232
--- /dev/null
+++ b/examples/configs/base_processing_hotpot.yaml
@@ -0,0 +1,6 @@
+process_output_fn:
+  path: instruct/output_processing_scripts/hotpot.py
+  fn_name: process_output_cot_hotpot
+process_target_fn:
+  path: instruct/output_processing_scripts/hotpot.py
+  fn_name: process_target_cot_hotpot
\ No newline at end of file
diff --git a/examples/configs/estimators/cot_estimators.yaml b/examples/configs/estimators/cot_estimators.yaml
new file mode 100644
index 000000000..41aa129ef
--- /dev/null
+++ b/examples/configs/estimators/cot_estimators.yaml
@@ -0,0 +1,13 @@
+- name: MaximumSequenceProbability
+- name: Perplexity
+- name: MeanTokenEntropy
+- name: MeanPointwiseMutualInformation
+- name: MeanConditionalPointwiseMutualInformation 
+- name: PTrue
+- name: PTrueSampling
+- name: MonteCarloSequenceEntropy
+- name: MonteCarloNormalizedSequenceEntropy
+- name: EigenScore
+- name: RenyiNeg
+- name: FisherRao
+- name: ProbasMeanWithCoT
diff --git a/examples/configs/estimators/default_estimators.yaml b/examples/configs/estimators/default_estimators.yaml
index 41a40e079..477da0631 100644
--- a/examples/configs/estimators/default_estimators.yaml
+++ b/examples/configs/estimators/default_estimators.yaml
@@ -82,4 +82,5 @@
     trust_remote_code: True
     idf_seed: 42
     idf_dataset_size: -1
-    spacy_path: "en_core_web_sm"
\ No newline at end of file
+    spacy_path: "en_core_web_sm"
+- name: ProbasMeanWithCoT
diff --git a/examples/configs/instruct/output_processing_scripts/hotpot.py b/examples/configs/instruct/output_processing_scripts/hotpot.py
new file mode 100644
index 000000000..a1bcd9c9c
--- /dev/null
+++ b/examples/configs/instruct/output_processing_scripts/hotpot.py
@@ -0,0 +1,15 @@
+import re
+import string
+
+CoT_OUTPUT_IGNORE_REGEX = re.compile(r"(?s).*Final Answer:")
+
+def process_output_cot_hotpot(output: str) -> str:
+    output = CoT_OUTPUT_IGNORE_REGEX.sub("", output).lower().strip()
+    output = output.translate(str.maketrans("", "", string.punctuation))
+    return output
+
+def process_target_cot_hotpot(target: str) -> str:
+    target = target.lower().strip()
+    target = target.translate(str.maketrans("", "", string.punctuation))
+    
+    return target
diff --git a/examples/configs/polygraph_eval_cot_hotpot.yaml b/examples/configs/polygraph_eval_cot_hotpot.yaml
new file mode 100644
index 000000000..6d874f8a1
--- /dev/null
+++ b/examples/configs/polygraph_eval_cot_hotpot.yaml
@@ -0,0 +1,38 @@
+hydra:
+  run:
+    dir: ${cache_path}/${task}/${model}/${dataset}/${now:%Y-%m-%d}/${now:%H-%M-%S}
+
+defaults:
+  - model: bloomz-560m
+  - estimators: cot_estimators
+  - stat_calculators: default_calculators
+  - base_processing_hotpot
+  - _self_
+
+cache_path: ./workdir/output
+save_path: '${hydra:run.dir}'
+instruct: true
+task: qa
+
+dataset: ['denis1699/hotpot_cot']
+text_column: question
+label_column: answer
+train_split: train
+eval_split: validation
+few_shot_prompt: null
+max_new_tokens: 384
+load_from_disk: false
+trust_remote_code: false
+size: 100
+
+
+subsample_eval_dataset: 20
+
+generation_metrics: null
+
+ignore_exceptions: false
+
+batch_size: 1
+
+seed:
+    - 1
diff --git a/examples/reasoning_example.ipynb b/examples/reasoning_example.ipynb
new file mode 100644
index 000000000..1ae3d7c39
--- /dev/null
+++ b/examples/reasoning_example.ipynb
@@ -0,0 +1,631 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "6958a441",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "os.environ[\"CUDA_DEVICE_ORDER\"]=\"PCI_BUS_ID\"   # see issue #152\n",
+    "# os.environ[\"CUDA_VISIBLE_DEVICES\"]=\"1\"\n",
+    "\n",
+    "from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig\n",
+    "from lm_polygraph.estimators import *\n",
+    "from lm_polygraph.utils.model import WhiteboxModel\n",
+    "from lm_polygraph.utils.dataset import Dataset\n",
+    "from lm_polygraph.utils.processor import Logger\n",
+    "from lm_polygraph.utils.manager import UEManager\n",
+    "from lm_polygraph.ue_metrics import PredictionRejectionArea\n",
+    "from lm_polygraph.generation_metrics import RougeMetric, BartScoreSeqMetric, ModelScoreSeqMetric, ModelScoreTokenwiseMetric, AggregatedMetric\n",
+    "from lm_polygraph.utils.builder_enviroment_stat_calculator import (\n",
+    "    BuilderEnvironmentStatCalculator\n",
+    ")\n",
+    "from lm_polygraph.defaults.register_default_stat_calculators import (\n",
+    "    register_default_stat_calculators,\n",
+    ")\n",
+    "from lm_polygraph.utils.factory_stat_calculator import StatCalculatorContainer\n",
+    "from omegaconf import OmegaConf"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "5025e26e-fd7f-44b6-88d7-5876439a5ab0",
+   "metadata": {},
+   "source": [
+    "# Specify HyperParameters"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "7111f938-bc8c-4b82-82a1-fce490bc8e4a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# model_path = \"bigscience/bloomz-560m\"\n",
+    "model_path = \"meta-llama/Llama-3.1-8B-Instruct\"\n",
+    "device = \"cuda\"\n",
+    "model_type = \"Whitebox\"\n",
+    "dataset_name = \"denis1699/hotpot_cot\"\n",
+    "batch_size = 1\n",
+    "seed = 42"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "757a3862-77d1-4bb4-8423-1f86f3a58b54",
+   "metadata": {},
+   "source": [
+    "# Initialize Model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "4e7a7afe",
+   "metadata": {
+    "tags": []
+   },
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "8b41e2f8f6334c8785ffa023bd7c474b",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "quantization_config = BitsAndBytesConfig(\n",
+    "    load_in_8bit=True,\n",
+    ")\n",
+    "\n",
+    "base_model = AutoModelForCausalLM.from_pretrained(\n",
+    "    model_path,\n",
+    "    token=os.getenv(\"HF_TOKEN\"),\n",
+    "    device_map=device,\n",
+    "    quantization_config=quantization_config,\n",
+    ")\n",
+    "tokenizer = AutoTokenizer.from_pretrained(model_path,\n",
+    "                                          token=os.getenv(\"HF_TOKEN\")\n",
+    "                                         )\n",
+    "tokenizer.pad_token_id = tokenizer.eos_token_id\n",
+    "\n",
+    "model = WhiteboxModel(base_model, tokenizer)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "fe460bd5-35bb-4c36-a6b8-12b7a111b403",
+   "metadata": {},
+   "source": [
+    "# Train and Eval Datasets"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "0444bbb3-7b9d-4823-ad9b-2b2a217d1638",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Use validation split, since test split of trivia_qa doesn't have reference answers\n",
+    "dataset = Dataset.load(\n",
+    "    dataset_name,\n",
+    "    'question_with_cot', 'answer',\n",
+    "    batch_size=batch_size,\n",
+    "    prompt=\"Question: {question_with_cot}\\nAnswer:{answer}\",\n",
+    "    split=\"validation\"\n",
+    ")\n",
+    "dataset.subsample(16, seed=seed)\n",
+    "\n",
+    "train_dataset = Dataset.load(\n",
+    "    dataset_name,\n",
+    "    'question_with_cot', 'answer',\n",
+    "    batch_size=batch_size,\n",
+    "    prompt=\"Question: {question_with_cot}\\nAnswer:{answer}\",\n",
+    "    split=\"train\"\n",
+    ")\n",
+    "train_dataset.subsample(16, seed=seed)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "bd61ed46-8757-4d83-baae-bf854bd11d0e",
+   "metadata": {},
+   "source": [
+    "# Metric, UE Metric, and UE Methods"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "5baa618b-d6dc-4292-a316-30f0e0f8db78",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ue_methods = [MaximumSequenceProbability(), \n",
+    "              SemanticEntropy(),\n",
+    "              MahalanobisDistanceSeq(\"decoder\"),\n",
+    "             ]\n",
+    "\n",
+    "ue_metrics = [PredictionRejectionArea(), PredictionRejectionArea(max_rejection=0.5)]\n",
+    "\n",
+    "# Wrap generation metric in AggregatedMetric, since trivia_qa is a multi-reference dataset\n",
+    "# (y is a list of possible correct answers)\n",
+    "metrics = [AggregatedMetric(RougeMetric('rougeL'))]\n",
+    "\n",
+    "loggers = [Logger()] "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "8d89a992-fafe-46ce-ad38-77b1c77aa3df",
+   "metadata": {},
+   "source": [
+    "# Stat Calculators"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "c98d1f0f-320e-4d7b-97a9-fad63d0348e5",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "TrainingStatistic_config = {\n",
+    "    \"dataset\": dataset_name,\n",
+    "    \"text_column\": 'question_with_cot',\n",
+    "    \"label_column\": 'answer',\n",
+    "    \"description\": '',\n",
+    "    \"prompt\": \"Question: {question_with_cot}\\nAnswer:\",\n",
+    "    \"few_shot_split\": 'train',\n",
+    "    \"train_split\": 'train',\n",
+    "    \"load_from_disk\": False,\n",
+    "    \"subsample_train_dataset\": 10,\n",
+    "    \"n_shot\": 5,\n",
+    "    \"train_dataset\": dataset_name,\n",
+    "    \"train_test_split\": False,\n",
+    "    # needs to be improved to get rid of hardcoded dataset variables.\n",
+    "    \"background_train_dataset\": \"denis1699/hotpot_cot\",\n",
+    "    \"background_train_dataset_text_column\": 'question_with_cot',\n",
+    "    \"background_train_dataset_label_column\": 'answer',\n",
+    "    \"background_train_dataset_data_files\": 'train.csv',\n",
+    "    \"background_load_from_disk\": False,\n",
+    "    \"subsample_background_train_dataset\": 10,\n",
+    "    \"batch_size\": 1,\n",
+    "    \"size\": 16,\n",
+    "    \"bg_size\": 16,\n",
+    "    \"seed\": 1\n",
+    "}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "b93cda59",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# register default stat calculators\n",
+    "result_stat_calculators = dict()\n",
+    "scs = register_default_stat_calculators(model_type)\n",
+    "for sc in scs:\n",
+    "    result_stat_calculators[sc.name] = sc\n",
+    "\n",
+    "# register TrainingStatisticExtractionCalculator for the Mahalanobis Distance method\n",
+    "result_stat_calculators.update(\n",
+    "    {\n",
+    "        \"TrainingStatisticExtractionCalculator\": StatCalculatorContainer(\n",
+    "            name=\"TrainingStatisticExtractionCalculator\",\n",
+    "            cfg=OmegaConf.create(TrainingStatistic_config),\n",
+    "            stats=[\"train_embeddings\", \"background_train_embeddings\", \"train_greedy_log_likelihoods\"],\n",
+    "            dependencies=[],\n",
+    "            builder=\"lm_polygraph.defaults.stat_calculator_builders.default_TrainingStatisticExtractionCalculator\",\n",
+    "        )\n",
+    "    }\n",
+    ")\n",
+    "    \n",
+    "builder_env_stat_calc = BuilderEnvironmentStatCalculator(model=model)\n",
+    "available_stat_calculators = list(result_stat_calculators.values())"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7b1c0bc3-8278-4ede-a1f1-6bc3b071a644",
+   "metadata": {},
+   "source": [
+    "# Manager"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "962fff25-5dae-4414-b406-9d4a657928f6",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Some weights of the model checkpoint at microsoft/deberta-large-mnli were not used when initializing DebertaForSequenceClassification: ['config']\n",
+      "- This IS expected if you are initializing DebertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).\n",
+      "- This IS NOT expected if you are initializing DebertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).\n"
+     ]
+    }
+   ],
+   "source": [
+    "man = UEManager(\n",
+    "    data=dataset,\n",
+    "    model=model,\n",
+    "    estimators=ue_methods,\n",
+    "    builder_env_stat_calc=builder_env_stat_calc,\n",
+    "    available_stat_calculators=available_stat_calculators,\n",
+    "    generation_metrics=metrics,\n",
+    "    ue_metrics=ue_metrics,\n",
+    "    processors=loggers,\n",
+    "    ignore_exceptions=False,\n",
+    "    max_new_tokens=64\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b2a92e70-3036-430d-a60a-4c2ecf768d9d",
+   "metadata": {},
+   "source": [
+    "# Compute Results"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "2da7a129-cc59-4b55-b71f-fb4ee230a416",
+   "metadata": {
+    "scrolled": true,
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "  0%|                                                    | 0/16 [00:00<?, ?it/s]\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.it/s]\n",
+      "`torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to eager attention. This warning can be removed using the argument `attn_implementation=\"eager\"` when loading the model.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "100%|███████████████████████████████████████████| 10/10 [02:08<00:00, 12.81s/it]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "\u001b[A\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.t]\n",
+      "\n",
+      "\n",
+      "100%|███████████████████████████████████████████| 10/10 [02:07<00:00, 12.76s/it]\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "\u001b[ASetting `pad_token_id` to `eos_token_id`:128001 for open-end generation.s/it]\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.\n",
+      "\n",
+      "100%|██████████████████████████████████████████| 16/16 [28:13<00:00, 105.82s/it]\n",
+      "  0%|                                                    | 0/16 [28:13<?, ?it/s]\n"
+     ]
+    }
+   ],
+   "source": [
+    "results = man()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "ef6abce0-dba7-40c1-916f-1be546a78c8f",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "UE Score: MaximumSequenceProbability, Metric: Rouge_rougeL, UE Metric: prr, Score: 0.702\n",
+      "UE Score: MaximumSequenceProbability, Metric: Rouge_rougeL, UE Metric: prr_normalized, Score: 0.225\n",
+      "UE Score: SemanticEntropy, Metric: Rouge_rougeL, UE Metric: prr, Score: 0.627\n",
+      "UE Score: SemanticEntropy, Metric: Rouge_rougeL, UE Metric: prr_normalized, Score: -0.209\n",
+      "UE Score: MahalanobisDistanceSeq_decoder, Metric: Rouge_rougeL, UE Metric: prr, Score: 0.652\n",
+      "UE Score: MahalanobisDistanceSeq_decoder, Metric: Rouge_rougeL, UE Metric: prr_normalized, Score: -0.063\n",
+      "UE Score: MaximumSequenceProbability, Metric: Rouge_rougeL, UE Metric: prr_0.5, Score: 0.675\n",
+      "UE Score: MaximumSequenceProbability, Metric: Rouge_rougeL, UE Metric: prr_0.5_normalized, Score: 0.095\n",
+      "UE Score: SemanticEntropy, Metric: Rouge_rougeL, UE Metric: prr_0.5, Score: 0.650\n",
+      "UE Score: SemanticEntropy, Metric: Rouge_rougeL, UE Metric: prr_0.5_normalized, Score: -0.115\n",
+      "UE Score: MahalanobisDistanceSeq_decoder, Metric: Rouge_rougeL, UE Metric: prr_0.5, Score: 0.676\n",
+      "UE Score: MahalanobisDistanceSeq_decoder, Metric: Rouge_rougeL, UE Metric: prr_0.5_normalized, Score: 0.102\n"
+     ]
+    }
+   ],
+   "source": [
+    "for key in results.keys():\n",
+    "    print(f\"UE Score: {key[1]}, Metric: {key[2]}, UE Metric: {key[3]}, Score: {results[key]:.3f}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "a7fd1450-ee66-479c-a613-8e4ed7eedd0a",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.11"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/notebooks/result_tables.ipynb b/notebooks/result_tables.ipynb
index d20962b41..2f7c20780 100644
--- a/notebooks/result_tables.ipynb
+++ b/notebooks/result_tables.ipynb
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 1,
    "id": "5e5fd065-8111-48de-9c92-3f7c8f378762",
    "metadata": {
     "tags": []
@@ -26,7 +26,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 2,
    "id": "2046bc0c-9d7a-484d-8acd-f347dcb28e23",
    "metadata": {
     "tags": []
@@ -76,7 +76,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 3,
    "id": "6bb03658-a53b-4df3-84d6-2f171badec5f",
    "metadata": {},
    "outputs": [],
@@ -106,7 +106,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 4,
    "id": "963f5e7c-3a06-405e-bc3f-c16d3fe83074",
    "metadata": {},
    "outputs": [],
@@ -199,7 +199,7 @@
    },
    "outputs": [],
    "source": [
-    "paths = [\"../workdir/camera_ready_exps/v1\", \"../workdir/camera_ready_exps/bertscore\"]\n",
+    "paths = [\"../workdir/output/qa\"]\n",
     "models = [\"vicuna\", \"llama\"]\n",
     "datasets = [\"aeslc\", \"xsum\", \"coqa\", \"babiqa\", \"wmt14_deen\", \"wmt14_fren\"]\n",
     "gen_metrics = [\"Rouge_rougeL\", \"Bert\"]\n",
@@ -478,9 +478,9 @@
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "lm_poly",
+   "display_name": "Python 3 (ipykernel)",
    "language": "python",
-   "name": "lm_poly"
+   "name": "python3"
   },
   "language_info": {
    "codemirror_mode": {
@@ -492,7 +492,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.10.13"
+   "version": "3.11.11"
   }
  },
  "nbformat": 4,
diff --git a/notebooks/vizualization_tables.ipynb b/notebooks/vizualization_tables.ipynb
index 66b016072..ea9303ed0 100644
--- a/notebooks/vizualization_tables.ipynb
+++ b/notebooks/vizualization_tables.ipynb
@@ -10,7 +10,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 4,
    "id": "999822a8",
    "metadata": {},
    "outputs": [],
@@ -86,7 +86,7 @@
     "    mean_df = pd.DataFrame([[mean[row][col] for col in columns] for row in index],\n",
     "                           index=index, columns=pd.MultiIndex.from_tuples(columns))\n",
     "    \n",
-    "    s = total_df.style.apply(functools.partial(b_g, A=mean_df, cmap='Reds'), axis=0)\n",
+    "    s = total_df.style.apply(functools.partial(b_g, A=mean_df, cmap='Greens'), axis=0)\n",
     "    s.set_table_styles([{  # for row hover use <tr> instead of <td>\n",
     "        'selector': 'td:hover',\n",
     "        'props': [('background-color', '#ffffb3')]\n",
@@ -104,18 +104,594 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 6,
    "id": "31c03154",
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Will measure variance using 1 seeds\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<style type=\"text/css\">\n",
+       "#T_79db4 td:hover {\n",
+       "  background-color: #ffffb3;\n",
+       "}\n",
+       "#T_79db4 .index_name {\n",
+       "  font-style: italic;\n",
+       "  color: darkgrey;\n",
+       "  font-weight: normal;\n",
+       "}\n",
+       "#T_79db4 th.col4 {\n",
+       "  border-left: 1px solid black;\n",
+       "}\n",
+       "#T_79db4 td.col4 {\n",
+       "  border-left: 1px solid black;\n",
+       "}\n",
+       "#T_79db4 th.col8 {\n",
+       "  border-left: 1px solid black;\n",
+       "}\n",
+       "#T_79db4 td.col8 {\n",
+       "  border-left: 1px solid black;\n",
+       "}\n",
+       "#T_79db4 th.col12 {\n",
+       "  border-left: 1px solid black;\n",
+       "}\n",
+       "#T_79db4 td.col12 {\n",
+       "  border-left: 1px solid black;\n",
+       "}\n",
+       "#T_79db4 th.col16 {\n",
+       "  border-left: 1px solid black;\n",
+       "}\n",
+       "#T_79db4 td.col16 {\n",
+       "  border-left: 1px solid black;\n",
+       "}\n",
+       "#T_79db4_row0_col0, #T_79db4_row0_col3, #T_79db4_row1_col12, #T_79db4_row1_col15 {\n",
+       "  background-color: #004c1e;\n",
+       "}\n",
+       "#T_79db4_row0_col1, #T_79db4_row0_col2, #T_79db4_row7_col8, #T_79db4_row7_col11, #T_79db4_row7_col16, #T_79db4_row7_col19 {\n",
+       "  background-color: #0d7836;\n",
+       "}\n",
+       "#T_79db4_row0_col4, #T_79db4_row0_col7, #T_79db4_row0_col8, #T_79db4_row0_col11, #T_79db4_row0_col16, #T_79db4_row0_col19 {\n",
+       "  background-color: #004d1f;\n",
+       "}\n",
+       "#T_79db4_row0_col5, #T_79db4_row0_col6, #T_79db4_row3_col13, #T_79db4_row3_col14 {\n",
+       "  background-color: #117b38;\n",
+       "}\n",
+       "#T_79db4_row0_col9, #T_79db4_row0_col10, #T_79db4_row0_col17, #T_79db4_row0_col18 {\n",
+       "  background-color: #127c39;\n",
+       "}\n",
+       "#T_79db4_row0_col12, #T_79db4_row0_col15 {\n",
+       "  background-color: #005723;\n",
+       "}\n",
+       "#T_79db4_row0_col13, #T_79db4_row0_col14, #T_79db4_row4_col4, #T_79db4_row4_col7 {\n",
+       "  background-color: #2f974e;\n",
+       "}\n",
+       "#T_79db4_row1_col0, #T_79db4_row1_col3, #T_79db4_row1_col4, #T_79db4_row1_col7, #T_79db4_row1_col8, #T_79db4_row1_col11, #T_79db4_row1_col16, #T_79db4_row1_col19 {\n",
+       "  background-color: #005622;\n",
+       "}\n",
+       "#T_79db4_row1_col1, #T_79db4_row1_col2 {\n",
+       "  background-color: #005221;\n",
+       "}\n",
+       "#T_79db4_row1_col5, #T_79db4_row1_col6, #T_79db4_row1_col9, #T_79db4_row1_col10, #T_79db4_row1_col17, #T_79db4_row1_col18 {\n",
+       "  background-color: #005120;\n",
+       "}\n",
+       "#T_79db4_row1_col13, #T_79db4_row1_col14, #T_79db4_row3_col1, #T_79db4_row3_col2 {\n",
+       "  background-color: #016e2d;\n",
+       "}\n",
+       "#T_79db4_row2_col0, #T_79db4_row2_col1, #T_79db4_row2_col2, #T_79db4_row2_col3, #T_79db4_row2_col4, #T_79db4_row2_col5, #T_79db4_row2_col6, #T_79db4_row2_col7, #T_79db4_row2_col8, #T_79db4_row2_col9, #T_79db4_row2_col10, #T_79db4_row2_col11, #T_79db4_row2_col12, #T_79db4_row2_col13, #T_79db4_row2_col14, #T_79db4_row2_col15, #T_79db4_row2_col16, #T_79db4_row2_col17, #T_79db4_row2_col18, #T_79db4_row2_col19 {\n",
+       "  background-color: #00441b;\n",
+       "}\n",
+       "#T_79db4_row3_col0, #T_79db4_row3_col3, #T_79db4_row3_col4, #T_79db4_row3_col7, #T_79db4_row3_col8, #T_79db4_row3_col11, #T_79db4_row3_col16, #T_79db4_row3_col19 {\n",
+       "  background-color: #2a924a;\n",
+       "}\n",
+       "#T_79db4_row3_col5, #T_79db4_row3_col6, #T_79db4_row7_col0, #T_79db4_row7_col3 {\n",
+       "  background-color: #05712f;\n",
+       "}\n",
+       "#T_79db4_row3_col9, #T_79db4_row3_col10, #T_79db4_row3_col17, #T_79db4_row3_col18 {\n",
+       "  background-color: #077331;\n",
+       "}\n",
+       "#T_79db4_row3_col12, #T_79db4_row3_col15 {\n",
+       "  background-color: #17813d;\n",
+       "}\n",
+       "#T_79db4_row4_col0, #T_79db4_row4_col3, #T_79db4_row11_col0, #T_79db4_row11_col3 {\n",
+       "  background-color: #2d954d;\n",
+       "}\n",
+       "#T_79db4_row4_col1, #T_79db4_row4_col2, #T_79db4_row4_col8, #T_79db4_row4_col11, #T_79db4_row4_col16, #T_79db4_row4_col19 {\n",
+       "  background-color: #2f984f;\n",
+       "}\n",
+       "#T_79db4_row4_col5, #T_79db4_row4_col6 {\n",
+       "  background-color: #37a055;\n",
+       "}\n",
+       "#T_79db4_row4_col9, #T_79db4_row4_col10, #T_79db4_row4_col17, #T_79db4_row4_col18, #T_79db4_row10_col8, #T_79db4_row10_col11, #T_79db4_row10_col16, #T_79db4_row10_col19, #T_79db4_row11_col4, #T_79db4_row11_col7 {\n",
+       "  background-color: #3ba458;\n",
+       "}\n",
+       "#T_79db4_row4_col12, #T_79db4_row4_col15 {\n",
+       "  background-color: #005a24;\n",
+       "}\n",
+       "#T_79db4_row4_col13, #T_79db4_row4_col14 {\n",
+       "  background-color: #1f8742;\n",
+       "}\n",
+       "#T_79db4_row5_col0, #T_79db4_row5_col3, #T_79db4_row5_col4, #T_79db4_row5_col7, #T_79db4_row5_col8, #T_79db4_row5_col11, #T_79db4_row5_col13, #T_79db4_row5_col14, #T_79db4_row5_col16, #T_79db4_row5_col19, #T_79db4_row10_col12, #T_79db4_row10_col15 {\n",
+       "  background-color: #339c52;\n",
+       "}\n",
+       "#T_79db4_row5_col1, #T_79db4_row5_col2, #T_79db4_row5_col5, #T_79db4_row5_col6, #T_79db4_row5_col9, #T_79db4_row5_col10, #T_79db4_row5_col17, #T_79db4_row5_col18, #T_79db4_row9_col0, #T_79db4_row9_col3, #T_79db4_row9_col4, #T_79db4_row9_col7, #T_79db4_row9_col8, #T_79db4_row9_col11, #T_79db4_row9_col12, #T_79db4_row9_col15, #T_79db4_row9_col16, #T_79db4_row9_col19, #T_79db4_row10_col13, #T_79db4_row10_col14, #T_79db4_row11_col13, #T_79db4_row11_col14 {\n",
+       "  background-color: #88ce87;\n",
+       "}\n",
+       "#T_79db4_row5_col12, #T_79db4_row5_col15 {\n",
+       "  background-color: #309950;\n",
+       "}\n",
+       "#T_79db4_row6_col0, #T_79db4_row6_col3 {\n",
+       "  background-color: #005c25;\n",
+       "}\n",
+       "#T_79db4_row6_col1, #T_79db4_row6_col2 {\n",
+       "  background-color: #78c679;\n",
+       "}\n",
+       "#T_79db4_row6_col4, #T_79db4_row6_col7, #T_79db4_row6_col8, #T_79db4_row6_col11, #T_79db4_row6_col16, #T_79db4_row6_col19 {\n",
+       "  background-color: #005b25;\n",
+       "}\n",
+       "#T_79db4_row6_col5, #T_79db4_row6_col6, #T_79db4_row10_col5, #T_79db4_row10_col6 {\n",
+       "  background-color: #6dc072;\n",
+       "}\n",
+       "#T_79db4_row6_col9, #T_79db4_row6_col10, #T_79db4_row6_col17, #T_79db4_row6_col18 {\n",
+       "  background-color: #68be70;\n",
+       "}\n",
+       "#T_79db4_row6_col12, #T_79db4_row6_col15 {\n",
+       "  background-color: #0c7735;\n",
+       "}\n",
+       "#T_79db4_row6_col13, #T_79db4_row6_col14, #T_79db4_row9_col13, #T_79db4_row9_col14 {\n",
+       "  background-color: #3fa95c;\n",
+       "}\n",
+       "#T_79db4_row7_col1, #T_79db4_row7_col2, #T_79db4_row8_col4, #T_79db4_row8_col7 {\n",
+       "  background-color: #3ca559;\n",
+       "}\n",
+       "#T_79db4_row7_col4, #T_79db4_row7_col7 {\n",
+       "  background-color: #0a7633;\n",
+       "}\n",
+       "#T_79db4_row7_col5, #T_79db4_row7_col6 {\n",
+       "  background-color: #45ad5f;\n",
+       "}\n",
+       "#T_79db4_row7_col9, #T_79db4_row7_col10, #T_79db4_row7_col17, #T_79db4_row7_col18 {\n",
+       "  background-color: #4aaf61;\n",
+       "}\n",
+       "#T_79db4_row7_col12, #T_79db4_row7_col15 {\n",
+       "  background-color: #005f26;\n",
+       "}\n",
+       "#T_79db4_row7_col13, #T_79db4_row7_col14, #T_79db4_row8_col13, #T_79db4_row8_col14 {\n",
+       "  background-color: #55b567;\n",
+       "}\n",
+       "#T_79db4_row8_col0, #T_79db4_row8_col1, #T_79db4_row8_col2, #T_79db4_row8_col3, #T_79db4_row12_col4, #T_79db4_row12_col7 {\n",
+       "  background-color: #369f54;\n",
+       "}\n",
+       "#T_79db4_row8_col5, #T_79db4_row8_col6, #T_79db4_row8_col8, #T_79db4_row8_col11, #T_79db4_row8_col16, #T_79db4_row8_col19 {\n",
+       "  background-color: #3ea75a;\n",
+       "}\n",
+       "#T_79db4_row8_col9, #T_79db4_row8_col10, #T_79db4_row8_col17, #T_79db4_row8_col18 {\n",
+       "  background-color: #40aa5d;\n",
+       "}\n",
+       "#T_79db4_row8_col12, #T_79db4_row8_col15 {\n",
+       "  background-color: #29914a;\n",
+       "}\n",
+       "#T_79db4_row9_col1, #T_79db4_row9_col2 {\n",
+       "  background-color: #81ca81;\n",
+       "}\n",
+       "#T_79db4_row9_col5, #T_79db4_row9_col6 {\n",
+       "  background-color: #84cc83;\n",
+       "}\n",
+       "#T_79db4_row9_col9, #T_79db4_row9_col10, #T_79db4_row9_col17, #T_79db4_row9_col18 {\n",
+       "  background-color: #86cc85;\n",
+       "}\n",
+       "#T_79db4_row10_col0, #T_79db4_row10_col3 {\n",
+       "  background-color: #268e47;\n",
+       "}\n",
+       "#T_79db4_row10_col1, #T_79db4_row10_col2 {\n",
+       "  background-color: #63bc6e;\n",
+       "}\n",
+       "#T_79db4_row10_col4, #T_79db4_row10_col7 {\n",
+       "  background-color: #349d53;\n",
+       "}\n",
+       "#T_79db4_row10_col9, #T_79db4_row10_col10, #T_79db4_row10_col17, #T_79db4_row10_col18 {\n",
+       "  background-color: #72c375;\n",
+       "}\n",
+       "#T_79db4_row11_col1, #T_79db4_row11_col2 {\n",
+       "  background-color: #5bb86a;\n",
+       "}\n",
+       "#T_79db4_row11_col5, #T_79db4_row11_col6 {\n",
+       "  background-color: #66bd6f;\n",
+       "}\n",
+       "#T_79db4_row11_col8, #T_79db4_row11_col11, #T_79db4_row11_col16, #T_79db4_row11_col19 {\n",
+       "  background-color: #42ab5d;\n",
+       "}\n",
+       "#T_79db4_row11_col9, #T_79db4_row11_col10, #T_79db4_row11_col17, #T_79db4_row11_col18 {\n",
+       "  background-color: #6abf71;\n",
+       "}\n",
+       "#T_79db4_row11_col12, #T_79db4_row11_col15 {\n",
+       "  background-color: #4bb062;\n",
+       "}\n",
+       "#T_79db4_row12_col0, #T_79db4_row12_col3 {\n",
+       "  background-color: #319a50;\n",
+       "}\n",
+       "#T_79db4_row12_col1, #T_79db4_row12_col2 {\n",
+       "  background-color: #4eb264;\n",
+       "}\n",
+       "#T_79db4_row12_col5, #T_79db4_row12_col6 {\n",
+       "  background-color: #5ab769;\n",
+       "}\n",
+       "#T_79db4_row12_col8, #T_79db4_row12_col11, #T_79db4_row12_col16, #T_79db4_row12_col19 {\n",
+       "  background-color: #39a257;\n",
+       "}\n",
+       "#T_79db4_row12_col9, #T_79db4_row12_col10, #T_79db4_row12_col17, #T_79db4_row12_col18 {\n",
+       "  background-color: #5eb96b;\n",
+       "}\n",
+       "#T_79db4_row12_col12, #T_79db4_row12_col15 {\n",
+       "  background-color: #58b668;\n",
+       "}\n",
+       "#T_79db4_row12_col13, #T_79db4_row12_col14 {\n",
+       "  background-color: #6ec173;\n",
+       "}\n",
+       "</style>\n",
+       "<table id=\"T_79db4\">\n",
+       "  <thead>\n",
+       "    <tr>\n",
+       "      <th class=\"blank level0\" >&nbsp;</th>\n",
+       "      <th id=\"T_79db4_level0_col0\" class=\"col_heading level0 col0\" colspan=\"20\">HotpotQA, Llama3.2-3b</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th class=\"blank level1\" >&nbsp;</th>\n",
+       "      <th id=\"T_79db4_level1_col0\" class=\"col_heading level1 col0\" colspan=\"4\">Accuracy</th>\n",
+       "      <th id=\"T_79db4_level1_col4\" class=\"col_heading level1 col4\" colspan=\"4\">BLEU</th>\n",
+       "      <th id=\"T_79db4_level1_col8\" class=\"col_heading level1 col8\" colspan=\"4\">Rouge_rouge1</th>\n",
+       "      <th id=\"T_79db4_level1_col12\" class=\"col_heading level1 col12\" colspan=\"4\">Rouge_rouge2</th>\n",
+       "      <th id=\"T_79db4_level1_col16\" class=\"col_heading level1 col16\" colspan=\"4\">Rouge_rougeL</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th class=\"blank level2\" >&nbsp;</th>\n",
+       "      <th id=\"T_79db4_level2_col0\" class=\"col_heading level2 col0\" >prr</th>\n",
+       "      <th id=\"T_79db4_level2_col1\" class=\"col_heading level2 col1\" >prr_0.5</th>\n",
+       "      <th id=\"T_79db4_level2_col2\" class=\"col_heading level2 col2\" >prr_0.5_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col3\" class=\"col_heading level2 col3\" >prr_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col4\" class=\"col_heading level2 col4\" >prr</th>\n",
+       "      <th id=\"T_79db4_level2_col5\" class=\"col_heading level2 col5\" >prr_0.5</th>\n",
+       "      <th id=\"T_79db4_level2_col6\" class=\"col_heading level2 col6\" >prr_0.5_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col7\" class=\"col_heading level2 col7\" >prr_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col8\" class=\"col_heading level2 col8\" >prr</th>\n",
+       "      <th id=\"T_79db4_level2_col9\" class=\"col_heading level2 col9\" >prr_0.5</th>\n",
+       "      <th id=\"T_79db4_level2_col10\" class=\"col_heading level2 col10\" >prr_0.5_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col11\" class=\"col_heading level2 col11\" >prr_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col12\" class=\"col_heading level2 col12\" >prr</th>\n",
+       "      <th id=\"T_79db4_level2_col13\" class=\"col_heading level2 col13\" >prr_0.5</th>\n",
+       "      <th id=\"T_79db4_level2_col14\" class=\"col_heading level2 col14\" >prr_0.5_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col15\" class=\"col_heading level2 col15\" >prr_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col16\" class=\"col_heading level2 col16\" >prr</th>\n",
+       "      <th id=\"T_79db4_level2_col17\" class=\"col_heading level2 col17\" >prr_0.5</th>\n",
+       "      <th id=\"T_79db4_level2_col18\" class=\"col_heading level2 col18\" >prr_0.5_normalized</th>\n",
+       "      <th id=\"T_79db4_level2_col19\" class=\"col_heading level2 col19\" >prr_normalized</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row0\" class=\"row_heading level0 row0\" >MaximumSequenceProbability</th>\n",
+       "      <td id=\"T_79db4_row0_col0\" class=\"data row0 col0\" >29.89 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col1\" class=\"data row0 col1\" >36.33 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col2\" class=\"data row0 col2\" >-26.36 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col3\" class=\"data row0 col3\" >-27.21 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col4\" class=\"data row0 col4\" >30.36 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col5\" class=\"data row0 col5\" >37.28 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col6\" class=\"data row0 col6\" >-28.28 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col7\" class=\"data row0 col7\" >-29.70 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col8\" class=\"data row0 col8\" >30.58 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col9\" class=\"data row0 col9\" >37.71 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col10\" class=\"data row0 col10\" >-29.10 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col11\" class=\"data row0 col11\" >-30.83 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col12\" class=\"data row0 col12\" >22.75 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col13\" class=\"data row0 col13\" >31.47 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col14\" class=\"data row0 col14\" >9.68 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col15\" class=\"data row0 col15\" >-22.90 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col16\" class=\"data row0 col16\" >30.58 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col17\" class=\"data row0 col17\" >37.71 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col18\" class=\"data row0 col18\" >-29.10 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row0_col19\" class=\"data row0 col19\" >-30.83 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row1\" class=\"row_heading level0 row1\" >Perplexity</th>\n",
+       "      <td id=\"T_79db4_row1_col0\" class=\"data row1 col0\" >32.30 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col1\" class=\"data row1 col1\" >32.06 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col2\" class=\"data row1 col2\" >-57.82 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col3\" class=\"data row1 col3\" >-20.45 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col4\" class=\"data row1 col4\" >32.44 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col5\" class=\"data row1 col5\" >32.34 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col6\" class=\"data row1 col6\" >-63.40 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col7\" class=\"data row1 col7\" >-23.85 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col8\" class=\"data row1 col8\" >32.50 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col9\" class=\"data row1 col9\" >32.47 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col10\" class=\"data row1 col10\" >-65.81 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col11\" class=\"data row1 col11\" >-25.41 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col12\" class=\"data row1 col12\" >20.61 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col13\" class=\"data row1 col13\" >26.43 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col14\" class=\"data row1 col14\" >-49.48 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col15\" class=\"data row1 col15\" >-29.20 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col16\" class=\"data row1 col16\" >32.50 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col17\" class=\"data row1 col17\" >32.47 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col18\" class=\"data row1 col18\" >-65.81 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row1_col19\" class=\"data row1 col19\" >-25.41 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row2\" class=\"row_heading level0 row2\" >MeanTokenEntropy</th>\n",
+       "      <td id=\"T_79db4_row2_col0\" class=\"data row2 col0\" >28.05 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col1\" class=\"data row2 col1\" >30.57 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col2\" class=\"data row2 col2\" >-68.74 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col3\" class=\"data row2 col3\" >-32.35 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col4\" class=\"data row2 col4\" >28.20 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col5\" class=\"data row2 col5\" >30.85 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col6\" class=\"data row2 col6\" >-73.94 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col7\" class=\"data row2 col7\" >-35.80 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col8\" class=\"data row2 col8\" >28.26 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col9\" class=\"data row2 col9\" >30.98 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col10\" class=\"data row2 col10\" >-76.18 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col11\" class=\"data row2 col11\" >-37.37 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col12\" class=\"data row2 col12\" >18.79 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col13\" class=\"data row2 col13\" >22.50 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col14\" class=\"data row2 col14\" >-95.73 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col15\" class=\"data row2 col15\" >-34.54 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col16\" class=\"data row2 col16\" >28.26 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col17\" class=\"data row2 col17\" >30.98 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col18\" class=\"data row2 col18\" >-76.18 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row2_col19\" class=\"data row2 col19\" >-37.37 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row3\" class=\"row_heading level0 row3\" >MeanPointwiseMutualInformation</th>\n",
+       "      <td id=\"T_79db4_row3_col0\" class=\"data row3 col0\" >48.88 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col1\" class=\"data row3 col1\" >34.89 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col2\" class=\"data row3 col2\" >-36.93 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col3\" class=\"data row3 col3\" >26.12 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col4\" class=\"data row3 col4\" >49.36 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col5\" class=\"data row3 col5\" >35.85 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col6\" class=\"data row3 col6\" >-38.47 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col7\" class=\"data row3 col7\" >23.81 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col8\" class=\"data row3 col8\" >49.57 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col9\" class=\"data row3 col9\" >36.28 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col10\" class=\"data row3 col10\" >-39.14 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col11\" class=\"data row3 col11\" >22.76 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col12\" class=\"data row3 col12\" >32.91 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col13\" class=\"data row3 col13\" >28.10 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col14\" class=\"data row3 col14\" >-29.89 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col15\" class=\"data row3 col15\" >7.02 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col16\" class=\"data row3 col16\" >49.57 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col17\" class=\"data row3 col17\" >36.28 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col18\" class=\"data row3 col18\" >-39.14 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row3_col19\" class=\"data row3 col19\" >22.76 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row4\" class=\"row_heading level0 row4\" >MeanConditionalPointwiseMutualInformation</th>\n",
+       "      <td id=\"T_79db4_row4_col0\" class=\"data row4 col0\" >49.75 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col1\" class=\"data row4 col1\" >40.65 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col2\" class=\"data row4 col2\" >5.44 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col3\" class=\"data row4 col3\" >28.55 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col4\" class=\"data row4 col4\" >50.80 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col5\" class=\"data row4 col5\" >42.49 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col6\" class=\"data row4 col6\" >8.73 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col7\" class=\"data row4 col7\" >27.88 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col8\" class=\"data row4 col8\" >51.28 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col9\" class=\"data row4 col9\" >43.33 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col10\" class=\"data row4 col10\" >10.14 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col11\" class=\"data row4 col11\" >27.58 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col12\" class=\"data row4 col12\" >23.43 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col13\" class=\"data row4 col13\" >29.61 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col14\" class=\"data row4 col14\" >-12.08 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col15\" class=\"data row4 col15\" >-20.89 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col16\" class=\"data row4 col16\" >51.28 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col17\" class=\"data row4 col17\" >43.33 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col18\" class=\"data row4 col18\" >10.14 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row4_col19\" class=\"data row4 col19\" >27.58 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row5\" class=\"row_heading level0 row5\" >PTrue</th>\n",
+       "      <td id=\"T_79db4_row5_col0\" class=\"data row5 col0\" >51.65 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col1\" class=\"data row5 col1\" >48.98 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col2\" class=\"data row5 col2\" >66.76 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col3\" class=\"data row5 col3\" >33.89 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col4\" class=\"data row5 col4\" >52.22 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col5\" class=\"data row5 col5\" >50.13 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col6\" class=\"data row5 col6\" >63.00 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col7\" class=\"data row5 col7\" >31.88 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col8\" class=\"data row5 col8\" >52.48 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col9\" class=\"data row5 col9\" >50.65 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col10\" class=\"data row5 col10\" >61.38 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col11\" class=\"data row5 col11\" >30.96 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col12\" class=\"data row5 col12\" >39.36 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col13\" class=\"data row5 col13\" >32.03 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col14\" class=\"data row5 col14\" >16.36 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col15\" class=\"data row5 col15\" >25.99 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col16\" class=\"data row5 col16\" >52.48 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col17\" class=\"data row5 col17\" >50.65 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col18\" class=\"data row5 col18\" >61.38 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row5_col19\" class=\"data row5 col19\" >30.96 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row6\" class=\"row_heading level0 row6\" >PTrueSampling</th>\n",
+       "      <td id=\"T_79db4_row6_col0\" class=\"data row6 col0\" >33.60 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col1\" class=\"data row6 col1\" >47.49 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col2\" class=\"data row6 col2\" >55.74 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col3\" class=\"data row6 col3\" >-16.78 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col4\" class=\"data row6 col4\" >33.67 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col5\" class=\"data row6 col5\" >47.62 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col6\" class=\"data row6 col6\" >45.18 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col7\" class=\"data row6 col7\" >-20.38 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col8\" class=\"data row6 col8\" >33.70 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col9\" class=\"data row6 col9\" >47.69 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col10\" class=\"data row6 col10\" >40.63 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col11\" class=\"data row6 col11\" >-22.02 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col12\" class=\"data row6 col12\" >30.19 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col13\" class=\"data row6 col13\" >33.55 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col14\" class=\"data row6 col14\" >34.16 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col15\" class=\"data row6 col15\" >-0.99 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col16\" class=\"data row6 col16\" >33.70 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col17\" class=\"data row6 col17\" >47.69 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col18\" class=\"data row6 col18\" >40.63 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row6_col19\" class=\"data row6 col19\" >-22.02 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row7\" class=\"row_heading level0 row7\" >MonteCarloSequenceEntropy</th>\n",
+       "      <td id=\"T_79db4_row7_col0\" class=\"data row7 col0\" >38.71 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col1\" class=\"data row7 col1\" >42.34 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col2\" class=\"data row7 col2\" >17.84 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col3\" class=\"data row7 col3\" >-2.44 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col4\" class=\"data row7 col4\" >40.52 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col5\" class=\"data row7 col5\" >44.18 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col6\" class=\"data row7 col6\" >20.70 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col7\" class=\"data row7 col7\" >-1.09 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col8\" class=\"data row7 col8\" >41.34 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col9\" class=\"data row7 col9\" >45.01 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col10\" class=\"data row7 col10\" >21.93 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col11\" class=\"data row7 col11\" >-0.48 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col12\" class=\"data row7 col12\" >24.48 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col13\" class=\"data row7 col13\" >35.22 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col14\" class=\"data row7 col14\" >53.75 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col15\" class=\"data row7 col15\" >-17.81 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col16\" class=\"data row7 col16\" >41.34 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col17\" class=\"data row7 col17\" >45.01 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col18\" class=\"data row7 col18\" >21.93 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row7_col19\" class=\"data row7 col19\" >-0.48 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row8\" class=\"row_heading level0 row8\" >MonteCarloNormalizedSequenceEntropy</th>\n",
+       "      <td id=\"T_79db4_row8_col0\" class=\"data row8 col0\" >52.69 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col1\" class=\"data row8 col1\" >41.50 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col2\" class=\"data row8 col2\" >11.71 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col3\" class=\"data row8 col3\" >36.80 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col4\" class=\"data row8 col4\" >54.77 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col5\" class=\"data row8 col5\" >43.34 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col6\" class=\"data row8 col6\" >14.78 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col7\" class=\"data row8 col7\" >39.06 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col8\" class=\"data row8 col8\" >55.72 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col9\" class=\"data row8 col9\" >44.18 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col10\" class=\"data row8 col10\" >16.10 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col11\" class=\"data row8 col11\" >40.08 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col12\" class=\"data row8 col12\" >37.30 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col13\" class=\"data row8 col13\" >35.22 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col14\" class=\"data row8 col14\" >53.75 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col15\" class=\"data row8 col15\" >19.91 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col16\" class=\"data row8 col16\" >55.72 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col17\" class=\"data row8 col17\" >44.18 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col18\" class=\"data row8 col18\" >16.10 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row8_col19\" class=\"data row8 col19\" >40.08 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row9\" class=\"row_heading level0 row9\" >EigenScore</th>\n",
+       "      <td id=\"T_79db4_row9_col0\" class=\"data row9 col0\" >69.41 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col1\" class=\"data row9 col1\" >48.40 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col2\" class=\"data row9 col2\" >62.43 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col3\" class=\"data row9 col3\" >83.77 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col4\" class=\"data row9 col4\" >70.09 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col5\" class=\"data row9 col5\" >49.76 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col6\" class=\"data row9 col6\" >60.33 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col7\" class=\"data row9 col7\" >82.22 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col8\" class=\"data row9 col8\" >70.40 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col9\" class=\"data row9 col9\" >50.37 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col10\" class=\"data row9 col10\" >59.42 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col11\" class=\"data row9 col11\" >81.52 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col12\" class=\"data row9 col12\" >56.09 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col13\" class=\"data row9 col13\" >33.55 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col14\" class=\"data row9 col14\" >34.16 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col15\" class=\"data row9 col15\" >75.20 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col16\" class=\"data row9 col16\" >70.40 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col17\" class=\"data row9 col17\" >50.37 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col18\" class=\"data row9 col18\" >59.42 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row9_col19\" class=\"data row9 col19\" >81.52 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row10\" class=\"row_heading level0 row10\" >RenyiNeg</th>\n",
+       "      <td id=\"T_79db4_row10_col0\" class=\"data row10 col0\" >47.63 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col1\" class=\"data row10 col1\" >45.76 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col2\" class=\"data row10 col2\" >43.02 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col3\" class=\"data row10 col3\" >22.59 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col4\" class=\"data row10 col4\" >52.57 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col5\" class=\"data row10 col5\" >47.60 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col6\" class=\"data row10 col6\" >45.00 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col7\" class=\"data row10 col7\" >32.87 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col8\" class=\"data row10 col8\" >54.82 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col9\" class=\"data row10 col9\" >48.43 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col10\" class=\"data row10 col10\" >45.85 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col11\" class=\"data row10 col11\" >37.56 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col12\" class=\"data row10 col12\" >40.08 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col13\" class=\"data row10 col13\" >39.15 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col14\" class=\"data row10 col14\" >100.00 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col15\" class=\"data row10 col15\" >28.11 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col16\" class=\"data row10 col16\" >54.82 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col17\" class=\"data row10 col17\" >48.43 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col18\" class=\"data row10 col18\" >45.85 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row10_col19\" class=\"data row10 col19\" >37.56 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row11\" class=\"row_heading level0 row11\" >FisherRao</th>\n",
+       "      <td id=\"T_79db4_row11_col0\" class=\"data row11 col0\" >49.58 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col1\" class=\"data row11 col1\" >45.17 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col2\" class=\"data row11 col2\" >38.69 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col3\" class=\"data row11 col3\" >28.09 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col4\" class=\"data row11 col4\" >54.53 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col5\" class=\"data row11 col5\" >47.01 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col6\" class=\"data row11 col6\" >40.82 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col7\" class=\"data row11 col7\" >38.38 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col8\" class=\"data row11 col8\" >56.78 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col9\" class=\"data row11 col9\" >47.85 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col10\" class=\"data row11 col10\" >41.74 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col11\" class=\"data row11 col11\" >43.08 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col12\" class=\"data row11 col12\" >45.67 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col13\" class=\"data row11 col13\" >39.15 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col14\" class=\"data row11 col14\" >100.00 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col15\" class=\"data row11 col15\" >44.55 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col16\" class=\"data row11 col16\" >56.78 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col17\" class=\"data row11 col17\" >47.85 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col18\" class=\"data row11 col18\" >41.74 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row11_col19\" class=\"data row11 col19\" >43.08 ± 0.00</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_79db4_level0_row12\" class=\"row_heading level0 row12\" >ProbasMeanWithCoT</th>\n",
+       "      <td id=\"T_79db4_row12_col0\" class=\"data row12 col0\" >51.14 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col1\" class=\"data row12 col1\" >44.09 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col2\" class=\"data row12 col2\" >30.73 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col3\" class=\"data row12 col3\" >32.45 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col4\" class=\"data row12 col4\" >53.22 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col5\" class=\"data row12 col5\" >45.93 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col6\" class=\"data row12 col6\" >33.13 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col7\" class=\"data row12 col7\" >34.69 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col8\" class=\"data row12 col8\" >54.17 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col9\" class=\"data row12 col9\" >46.76 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col10\" class=\"data row12 col10\" >34.17 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col11\" class=\"data row12 col11\" >35.71 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col12\" class=\"data row12 col12\" >47.84 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col13\" class=\"data row12 col13\" >37.07 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col14\" class=\"data row12 col14\" >75.52 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col15\" class=\"data row12 col15\" >50.94 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col16\" class=\"data row12 col16\" >54.17 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col17\" class=\"data row12 col17\" >46.76 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col18\" class=\"data row12 col18\" >34.17 ± 0.00</td>\n",
+       "      <td id=\"T_79db4_row12_col19\" class=\"data row12 col19\" >35.71 ± 0.00</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n"
+      ],
+      "text/plain": [
+       "<pandas.io.formats.style.Styler at 0x7f4c1efa6710>"
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
    "source": [
     "# visualize results in a table\n",
     "pretty_plot(\n",
-    "    'TriviaQA, Dolly3b',\n",
+    "    'HotpotQA, Llama3.2-3b',\n",
     "    # outputs generated by scripts/polygraph_eval benchmark\n",
     "    # provide several seeds to calculate variance\n",
-    "    ['./workdir/output_seed' + str(x)\n",
-    "     for x in range(1, 10)])"
+    "    [\"../workdir/output/qa/{'path': 'meta-llama/Llama-3.2-3B-Instruct', 'ensemble': False, 'mc': False, 'mc_seeds': None, 'dropout_rate': None, 'type': 'CausalLM', 'path_to_load_script': 'model/default_causal.py', 'load_model_args': {'device_map': 'auto'}, 'load_tokenizer_args': {}}/['denis1699/hotpot_cot']/2025-05-06/09-26-59/ue_manager_seed1\"])"
    ]
   },
   {
@@ -143,7 +719,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.10.13"
+   "version": "3.11.11"
   }
  },
  "nbformat": 4,
diff --git a/scripts/polygraph_eval b/scripts/polygraph_eval
index 057bf3b2b..408865ca5 100755
--- a/scripts/polygraph_eval
+++ b/scripts/polygraph_eval
@@ -224,14 +224,14 @@ def get_generation_metrics(args):
             RougeMetric("rouge2"),
             RougeMetric("rougeL"),
             BLEUMetric(),
-            BertScoreMetric("rh"),
-            SbertMetric(),
+            # BertScoreMetric("rh"),
+            # SbertMetric(),
             AccuracyMetric(
                 target_ignore_regex=getattr(args, "target_ignore_regex", None),
                 output_ignore_regex=getattr(args, "output_ignore_regex", None),
                 normalize=getattr(args, "normalize", False),
             ),
-            AlignScore(target_is_claims=False if args.task == "ats" else True),
+            # AlignScore(target_is_claims=False if args.task == "ats" else True),
         ]
         if getattr(args.model, "type", "Whitebox") != "Blackbox":
             if getattr(args, "use_claim_ue", False):
@@ -374,7 +374,9 @@ def get_vllm_model(args):
 
     load_model_args = {'model_path': args.model.path, 
                        'max_new_tokens': args.max_new_tokens, 
-                       'logprobs': args.model.logprobs}
+                       'logprobs': args.model.logprobs,
+                       'max_model_len': 8192,
+                       }
     
     load_model_args.update(args.model.load_model_args)
     base_model, sampling_params = load_module.load_model(**load_model_args)
diff --git a/src/lm_polygraph/defaults/register_default_stat_calculators.py b/src/lm_polygraph/defaults/register_default_stat_calculators.py
index 28af538d4..a79e17de1 100644
--- a/src/lm_polygraph/defaults/register_default_stat_calculators.py
+++ b/src/lm_polygraph/defaults/register_default_stat_calculators.py
@@ -47,18 +47,18 @@ def _register(
         deberta_model_path = "MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7"
 
     _register(InitialStateCalculator)
-    _register(
-        SemanticMatrixCalculator,
-        "lm_polygraph.defaults.stat_calculator_builders.default_SemanticMatrixCalculator",
-        {
-            "nli_model": {
-                "deberta_path": deberta_model_path,
-                "hf_cache": hf_cache,
-                "batch_size": 10,
-                "device": None,
-            }
-        },
-    )
+    # _register(
+    #     SemanticMatrixCalculator,
+    #     "lm_polygraph.defaults.stat_calculator_builders.default_SemanticMatrixCalculator",
+    #     {
+    #         "nli_model": {
+    #             "deberta_path": deberta_model_path,
+    #             "hf_cache": hf_cache,
+    #             "batch_size": 10,
+    #             "device": None,
+    #         }
+    #     },
+    # )
     _register(SemanticClassesCalculator)
 
     if model_type == "Blackbox":
@@ -99,42 +99,47 @@ def _register(
         _register(PromptCalculator)
         _register(SamplingPromptCalculator)
         _register(ClaimPromptCalculator)
+        # _register(
+        #     CrossEncoderSimilarityMatrixCalculator,
+        #     "lm_polygraph.defaults.stat_calculator_builders.default_CrossEncoderSimilarityMatrixCalculator",
+        #     {
+        #         "batch_size": 10,
+        #         "cross_encoder_name": "cross-encoder/stsb-roberta-large",
+        #     },
+        # )
+        # _register(
+        #     GreedyAlternativesNLICalculator,
+        #     "lm_polygraph.defaults.stat_calculator_builders.default_GreedyAlternativesNLICalculator",
+        #     {
+        #         "nli_model": {
+        #             "deberta_path": deberta_model_path,
+        #             "hf_cache": hf_cache,
+        #             "batch_size": 10,
+        #             "device": None,
+        #         }
+        #     },
+        # )
+        # _register(
+        #     GreedyAlternativesFactPrefNLICalculator,
+        #     "lm_polygraph.defaults.stat_calculator_builders.default_GreedyAlternativesFactPrefNLICalculator",
+        #     {
+        #         "nli_model": {
+        #             "deberta_path": deberta_model_path,
+        #             "hf_cache": hf_cache,
+        #             "batch_size": 10,
+        #             "device": None,
+        #         }
+        #     },
+        # )
+        # _register(
+        #     ClaimsExtractor,
+        #     "lm_polygraph.defaults.stat_calculator_builders.default_ClaimsExtractor",
+        #     {"openai_model": "gpt-4o", "cache_path": "~/.cache", "language": language},
+        # )
         _register(
-            CrossEncoderSimilarityMatrixCalculator,
-            "lm_polygraph.defaults.stat_calculator_builders.default_CrossEncoderSimilarityMatrixCalculator",
-            {
-                "batch_size": 10,
-                "cross_encoder_name": "cross-encoder/stsb-roberta-large",
-            },
-        )
-        _register(
-            GreedyAlternativesNLICalculator,
-            "lm_polygraph.defaults.stat_calculator_builders.default_GreedyAlternativesNLICalculator",
-            {
-                "nli_model": {
-                    "deberta_path": deberta_model_path,
-                    "hf_cache": hf_cache,
-                    "batch_size": 10,
-                    "device": None,
-                }
-            },
-        )
-        _register(
-            GreedyAlternativesFactPrefNLICalculator,
-            "lm_polygraph.defaults.stat_calculator_builders.default_GreedyAlternativesFactPrefNLICalculator",
-            {
-                "nli_model": {
-                    "deberta_path": deberta_model_path,
-                    "hf_cache": hf_cache,
-                    "batch_size": 10,
-                    "device": None,
-                }
-            },
-        )
-        _register(
-            ClaimsExtractor,
-            "lm_polygraph.defaults.stat_calculator_builders.default_ClaimsExtractor",
-            {"openai_model": "gpt-4o", "cache_path": "~/.cache", "language": language},
+            ReasoningKeywordsProbs,
+            "lm_polygraph.defaults.stat_calculator_builders.default_ReasoningKeywordsProbs",
+            {"max_retries": 5, "max_length_cot": 128, "temperature": 1.0}
         )
 
     else:
diff --git a/src/lm_polygraph/defaults/stat_calculator_builders/default_ReasoningKeywordsProbs.py b/src/lm_polygraph/defaults/stat_calculator_builders/default_ReasoningKeywordsProbs.py
new file mode 100644
index 000000000..38820560e
--- /dev/null
+++ b/src/lm_polygraph/defaults/stat_calculator_builders/default_ReasoningKeywordsProbs.py
@@ -0,0 +1,9 @@
+from lm_polygraph.stat_calculators.reasoning_keywords_probs import (
+    ReasoningKeywordsProbs,
+)
+
+
+def load_stat_calculator(config, builder):
+    return ReasoningKeywordsProbs(
+        config.max_retries, config.max_length_cot, config.temperature
+    )
diff --git a/src/lm_polygraph/estimators/__init__.py b/src/lm_polygraph/estimators/__init__.py
index 8162f6380..fd06e1232 100644
--- a/src/lm_polygraph/estimators/__init__.py
+++ b/src/lm_polygraph/estimators/__init__.py
@@ -77,3 +77,4 @@
 from .kernel_language_entropy import KernelLanguageEntropy
 from .luq import LUQ
 from .eigenscore import EigenScore
+from .chain_of_thought_uq import ProbasMeanWithCoT
diff --git a/src/lm_polygraph/estimators/chain_of_thought_uq.py b/src/lm_polygraph/estimators/chain_of_thought_uq.py
new file mode 100644
index 000000000..c51bce82a
--- /dev/null
+++ b/src/lm_polygraph/estimators/chain_of_thought_uq.py
@@ -0,0 +1,137 @@
+import numpy as np
+import math
+
+from typing import Dict, List, Tuple
+
+from .estimator import Estimator
+
+
+def aggregate_probas_mean(
+    keyword_token_probability: Dict[str, Dict[str, List[int]]], contribution_scores: Dict[str, Dict[str, int]] = None
+) -> Tuple[Dict[str, List[float]], Dict[str, List[float]]]:
+    """
+    Aggregates token probabilities
+
+    Parameters:
+        keyword_token_probability (Dict[str, Dict[str, List[int]]]): token probs for keywords
+    (example {
+                "step1": {
+                    "keyword1": [0.7, 0.8],
+                    "keyword2": [0.9, 0.6, 0.5],
+                },
+                "step2": {
+                    "keyword1": [0.5, 0.8],
+                    "keyword3": [0.5, 0.9, 0.9],
+                },
+                ...
+             }
+    ),
+        contribution_scores (Dict[str, Dict[str, int]]): contribution scores for keywords.
+    Returns:
+        Tuple[Dict[str, List[float]], Dict[str, List[float]]]: agg. keyword probs, agg. keyword contributions.
+    (example {
+                "keyword1": [(0.7 + 0.8) / 2, (0.5 + 0.8) / 2],
+                "keyword2": [(0.9 + 0.6 + 0.5) / 3],
+                "keyword3": [(0.5 + 0.9 + 0.9) / 3],
+                ...
+             }
+    ),
+    """
+    return_keyword_dict = {}
+    return_contribution_dict = {}
+    for step, inner_dict in keyword_token_probability.items():
+        for key, values in inner_dict.items():
+            if len(values) == 0:
+                continue
+            # it is strange that min(values) was in original implementation for probas mean agg. strategy
+            # value_to_add = min(values)
+            value_to_add = np.mean(values)
+            if key in return_keyword_dict:
+                return_keyword_dict[key].append(value_to_add)
+                return_contribution_dict[key].append(contribution_scores[step][key])
+            else:
+                return_keyword_dict[key] = [value_to_add]
+                return_contribution_dict[key] = [contribution_scores[step][key]]
+    return return_keyword_dict, return_contribution_dict
+
+
+def weighted_sum(values: List[float]) -> float:
+    """
+    Computes a softmin weighted sum of the input values.
+
+    Parameters:
+        values (List[float]): values to be summed
+    Returns:
+        float: a softmin weighted sum
+    """
+    if len(values) == 1:
+        return values[0]
+    weights = [math.exp(-c) for c in values]
+    sum_weights = sum(weights)
+    normalized_weights = [w / sum_weights for w in weights]
+    result = sum(w * c for w, c in zip(normalized_weights, values))
+    return result
+
+
+class ProbasMeanWithCoT(Estimator):
+    """
+    Enhances Probas-Mean aggregated probabilities strategy with reasoning steps.
+    Only usabe for instruct-finetuned models with chat template support.
+    Adapted from the original implementation in the paper https://arxiv.org/pdf/2502.17214
+    """
+
+    def __init__(
+        self,
+        name_postfix="",
+    ):
+        self.postfix = name_postfix
+        super().__init__(
+            [
+                "input_texts",
+                "greedy_texts",
+                "reasoning_answer",
+                "reasoning_keywords_probabilities",
+                "reasoning_keywords_contributions",
+            ],
+            "sequence",
+        )
+
+    def __str__(self):
+        return f"ProbasMeanWithCoT{self.postfix}"
+
+    def __call__(self, stats: Dict[str, np.ndarray]) -> np.ndarray:
+        prompts = stats["input_texts"]
+        ues = []
+        for i, question in enumerate(prompts):
+            reasoning_answer = stats["reasoning_answer"][i]
+            if reasoning_answer == "":
+                ues.append(0.5)
+                continue
+
+            keyword_token_probability = stats["reasoning_keywords_probabilities"][i]
+            if keyword_token_probability is None or keyword_token_probability == {}:
+                ues.append(0.5)
+                continue
+            contribution_scores = stats["reasoning_keywords_contributions"][i]
+            if contribution_scores is None or contribution_scores == {}:
+                ues.append(0.5)
+                continue
+
+            probabilities, contribution_dict = aggregate_probas_mean(keyword_token_probability, contribution_scores)
+
+            # softmin weighted sum of keywords probs
+            probabilities = {key: weighted_sum(value) for key, value in probabilities.items()}
+            # average of keywords contributions
+            contributions = {key: sum(value) / len(value) for key, value in contribution_dict.items()}
+
+            # CoT-UQ
+            total_sum = sum(probabilities[key] * contributions[key] for key in probabilities)
+            total_weight = sum(contributions[key] for key in contributions)
+            if total_weight == 0:
+                p_list = [v for v in probabilities.values()]
+                confidence = sum(p_list) / len(p_list)
+            else:
+                confidence = total_sum / total_weight
+            ues.append(1 - confidence)
+
+        return np.array(ues)
diff --git a/src/lm_polygraph/stat_calculators/__init__.py b/src/lm_polygraph/stat_calculators/__init__.py
index 354026271..99a0ec4ad 100644
--- a/src/lm_polygraph/stat_calculators/__init__.py
+++ b/src/lm_polygraph/stat_calculators/__init__.py
@@ -29,3 +29,4 @@
 from .extract_claims import ClaimsExtractor
 from .infer_causal_lm_calculator import InferCausalLMCalculator
 from .semantic_classes import SemanticClassesCalculator
+from .reasoning_keywords_probs import ReasoningKeywordsProbs
diff --git a/src/lm_polygraph/stat_calculators/reasoning_keywords_probs.py b/src/lm_polygraph/stat_calculators/reasoning_keywords_probs.py
new file mode 100644
index 000000000..de695e6dc
--- /dev/null
+++ b/src/lm_polygraph/stat_calculators/reasoning_keywords_probs.py
@@ -0,0 +1,500 @@
+import re
+import torch
+import warnings
+import numpy as np
+from collections import defaultdict
+
+from typing import Dict, List, Tuple, Optional
+
+from .stat_calculator import StatCalculator
+from lm_polygraph.utils.model import WhiteboxModel
+
+import logging
+
+log = logging.getLogger("lm_polygraph")
+logging.getLogger("httpx").setLevel(logging.WARNING)
+
+
+cot_instruction = """
+Please reason the following question step by step. Label each reasoning step as "Step i:", where "i" is the step number.
+You need to ensure that each step builds on the previous one and contributes meaningfully toward reaching the final answer.
+Once you finish all steps, put your final answer on a separate line after the reasoning steps, starting with "Final Answer:" (do not label it as a step).
+
+Question: <QUESTION>
+Response: Let's think step by step.
+"""
+
+keywords_extraction_instruction = ''' 
+You will be provided with a question and a multi-step response containing reasoning steps. 
+For each long reasoning step labeled "Step i:", extract the keywords, only the relevant tokens for that specific reasoning step.
+The keywords should be relevant to question and final answer.
+If you find more than one keyword in a specific step, separate them with “;”.
+For example:
+
+######
+
+Q: Which band has more members, "We Are the Ocean" or "The Dream Academy"?
+
+Reasoning steps:
+Step 1: The question is asking which band has more members.
+Step 2: "We Are the Ocean" has five members.
+Step 3: "The Dream Academy" has three members.
+Step 4: 5 is greater than 3.
+Step 5: Therefore, "We Are the Ocean" has more members.
+Final Answer: We Are the Ocean
+
+Keywords for each reasoning step: 
+Step 1: band
+Step 2: We Are the Ocean; five
+Step 3: The Dream Academy; three
+Step 4: greater
+Step 5: We Are the Ocean
+
+######
+
+The following is your task:
+Q: <QUESTION>
+
+Reasoning steps: 
+<RESPONSE>
+
+Keywords for each reasoning step:
+'''
+
+
+def is_effectively_empty(obj):
+    if obj is None:
+        return True
+
+    if isinstance(obj, (int, float)) and obj == 0:
+        return True
+
+    if obj == "":
+        return True
+
+    if isinstance(obj, list):
+        return all(is_effectively_empty(item) for item in obj)
+
+    if isinstance(obj, dict):
+        if len(obj) == 0:
+            return True
+        return all(is_effectively_empty(value) for value in obj.values())
+    return False
+
+
+def parse_response_to_dict(response: str) -> Tuple[Optional[str], Dict[str, str], Optional[str]]:
+    """
+    Parse model reasoning output to highlight: reasoning answer, reasoning steps, reasoning output without answer.
+
+    Parameters:
+        response (str): reasoning output.
+    Returns:
+        Tuple[Optional[str], Dict[str, str], Optional[str]]:
+            - final answer (str or None),
+            - dictionary of steps (e.g., {"Step 1": "Step 1: ..."}),
+            - response before final answer (str or None)
+    """
+    steps: Dict[str, str] = {}
+    final_answer: Optional[str] = None
+
+    # Match Final Answer
+    match = re.search(r"Final Answer:\s*(.+?)\s*(?=(\n|$))", response, re.DOTALL)
+    if match:
+        final_answer = match.group(1).strip()
+        response_after_final_answer = response[:match.end()].strip()
+        # response_before_final_answer = response[:match.start()].strip()
+    else:
+        return None, {}, None
+
+    # Match Steps
+    matches = list(re.finditer(r"(Step \d+):", response_after_final_answer))
+    for i, match in enumerate(matches):
+        start = match.start()
+        end = matches[i + 1].start() if i + 1 < len(matches) else len(response_after_final_answer)
+        segment = response[start:end].strip()
+        steps[match.group(1)] = segment
+
+    return_response = response_after_final_answer
+    return final_answer, steps, return_response
+
+
+def match_final_answer_token_ids(tokenizer, original_tokens, response_tokens, generated_ids):
+    # caution
+    final_answer_tokens = tokenizer.tokenize("Final Answer:")
+
+    end_index = None
+    end_index_original = None
+
+    for i in range(len(response_tokens) - len(final_answer_tokens) + 1):
+        if response_tokens[i : i + len(final_answer_tokens)] == final_answer_tokens:
+            end_index = i + len(final_answer_tokens)
+            break
+
+    if end_index is None or end_index == len(response_tokens):
+        return None, None
+
+    for i in range(len(original_tokens) - len(final_answer_tokens) + 1):
+        if original_tokens[i : i + len(final_answer_tokens)] == final_answer_tokens:
+            end_index_original = i + len(final_answer_tokens)
+            break
+
+    if end_index_original is None:
+        return None, None
+
+    if response_tokens[end_index] in ["▁", "Ġ", tokenizer.tokenize(" ")]:
+        end_index += 1
+        end_index_original += 1
+
+    target_tokens = response_tokens[end_index:]
+
+    final_answer_token_ids = generated_ids[end_index_original : end_index_original + len(target_tokens)]
+
+    return end_index_original, final_answer_token_ids
+
+
+def predict(prompt, model, tokenizer, max_length_cot, temperature):
+    inputs = tokenizer(prompt, return_tensors="pt").to('cuda')
+    generate_ids = model.generate(
+        **inputs,
+        max_new_tokens=max_length_cot,
+        temperature=temperature,
+        pad_token_id=tokenizer.eos_token_id,
+        output_scores=True, 
+        return_dict_in_generate=True,
+        )
+    infer_res = tokenizer.decode(generate_ids.sequences[0][len(inputs["input_ids"][0]):-1])
+    return infer_res
+
+
+# def step_exacts_2_list(response):
+#     # Split response into lines and filter out empty lines
+#     lines = response.splitlines()
+#     lines = [line for line in lines if line.strip()]
+
+#     keywords_by_step = []
+#     contributions_by_step = []
+#     valid_response_text = []
+
+#     for line in lines:
+#         # Match lines starting with "Step X:"
+#         match = re.search(r"Step \d+: (.+)", line)
+#         if match:
+#             # Extract keywords with contributions
+#             keywords_w_contribution = match.group(1).split("; ")
+
+#             # Check for valid format and skip invalid lines
+#             if any("(/" not in key_w_c or "/)" not in key_w_c for key_w_c in keywords_w_contribution):
+#                 continue
+
+#             try:
+#                 # Extract keywords and contributions
+#                 keywords = [key_w_c.split("(/")[0].strip() for key_w_c in keywords_w_contribution]
+#                 contributions = [int(key_w_c.split("(/")[1].split("/)")[0].strip()) for key_w_c in keywords_w_contribution]
+#             except ValueError:
+#                 return False  # Return False if contributions cannot be converted to int
+
+#             for i in contributions:
+#                 if i > 10:
+#                     return False
+
+#             keywords_by_step.append(keywords)
+#             contributions_by_step.append(contributions)
+#             valid_response_text.append(line)  # Add valid lines from the original response
+
+#     # If no valid lines are found, return False
+#     if not valid_response_text:
+#         return False
+
+#     return "\n".join(valid_response_text), keywords_by_step, contributions_by_step
+
+
+def step_exacts_2_list(response):
+    # Split response into lines and filter out empty lines
+    lines = response.splitlines()
+    lines = [line for line in lines if line.strip()]
+
+    keywords_by_step = []
+    contributions_by_step = []
+    valid_response_text = []
+
+    for line in lines:
+        # Match lines starting with "Step X:"
+        match = re.search(r"Step \d+: (.+)", line)
+        if match:
+            # Extract keywords
+            keywords = match.group(1).split("; ")
+
+            contributions = [10]*len(keywords)
+
+            keywords_by_step.append(keywords)
+            contributions_by_step.append(contributions)
+            valid_response_text.append(line)  # Add valid lines from the original response
+
+    return "\n".join(valid_response_text), keywords_by_step, contributions_by_step
+
+
+def find_subsequence_position(sub_sequence, long_sequence):
+    len_long = len(long_sequence)
+    len_sub = len(sub_sequence)
+
+    for i in range(len_long - len_sub + 1):
+        if long_sequence[i:i + len_sub] == sub_sequence:
+            return i
+    return -1
+
+
+def clean_words(word):
+    # TODO forward space token
+    return word.replace(" ", "").replace(".", "").replace("\"", "").replace("\n", "").replace("_", "").replace("Ġ", "").lower()
+
+
+def find_token_indices(tokens, word):
+    word_len = len(word.replace(" ", ""))
+
+    for start_index in range(len(tokens)):
+        combined_text = ""
+        end_index = start_index
+        while end_index < len(tokens) and len(combined_text) < word_len:
+            combined_text += tokens[end_index]
+            if clean_words(combined_text) == clean_words(word):
+                return start_index, end_index
+            end_index += 1
+    return -1, -1
+
+
+def is_word_in_sentence(sentence, word):
+    pattern = re.escape(word)
+    match = re.search(pattern, sentence, re.IGNORECASE)
+    return True if match else False
+
+
+class ReasoningKeywordsProbs(StatCalculator):
+    """
+    For Whitebox model (lm_polygraph.WhiteboxModel), at input texts batch calculates:
+        * model output for reasoning enhanced input,
+        * model answer for reasoning enhanced input,
+        * token probabilities for `reasoning_answer`,
+        * keywords from `reasoning_output`,
+        * probabilities for `reasoning_keywords`,
+        * contributions for `reasoning_keywords`,
+        * step-wise token indices for `reasoning_keywords`,
+        * token indices for `reasoning_keywords`.
+    """
+
+    @staticmethod
+    def meta_info() -> Tuple[List[str], List[str]]:
+        """
+        Returns the statistics and dependencies for the calculator.
+        """
+        return [
+            "reasoning_output",
+            "reasoning_answer",
+            "reasoning_answer_tokens_probs",
+            "reasoning_keywords",
+            "reasoning_keywords_probabilities",
+            "reasoning_keywords_contributions",
+            "reasoning_keywords_token_ids",
+            "reasoning_answer_token_ids",
+        ], ["input_texts", "greedy_texts", "greedy_tokens", "greedy_log_probs"]
+
+    def __init__(self, max_retries=5, max_length_cot=256, temperature=1):
+        super().__init__()
+        self.max_retries = max_retries
+        self.max_length_cot = max_length_cot
+        self.temperature = temperature
+
+    def __call__(
+        self,
+        dependencies: Dict[str, np.array],
+        texts: List[str],
+        model: WhiteboxModel,
+        max_new_tokens: int = 100,
+    ) -> Dict[str, np.ndarray]:
+        """
+        Calculates the statistics of reasoning enhanced process.
+
+        Parameters:
+            dependencies (Dict[str, np.ndarray]): input statistics, can be empty (not used).
+            texts (List[str]): Input texts batch used for model generation.
+            model (Model): Model used for generation.
+            max_new_tokens (int): Maximum number of new tokens at model generation. Default: 100.
+        Returns:
+            Dict[str, np.ndarray]: dictionary with the following items:
+                - 'reasoning_output' (List[str]): model output for reasoning enhanced input,
+                - 'reasoning_answer' (List[str]): model answer for reasoning enhanced input,
+                - 'reasoning_answer_tokens_probs' (List[str]): token probabilities for `reasoning_answer`,
+                - 'reasoning_keywords' (List[str]): keywords from `reasoning_output`,
+                - 'reasoning_keywords_probabilities' (List[Dict[str, Dict[str, List[int]]]]): probabilities for `reasoning_keywords`,
+                - 'reasoning_keywords_contributions' (List[Dict[str, Dict[str, int]]]): contributions for `reasoning_keywords`,
+                - 'reasoning_keywords_token_ids' (List[Dict[str, Dict[str, List[int]]]]): step-wise token indices for `reasoning_keywords`,
+                - 'reasoning_answer_token_ids' (List[Dict[str, List[int]]]): token indices for `reasoning_keywords`.
+        """
+        result_dict = defaultdict(list)
+        batch_input_texts = dependencies['input_texts']
+        batch_generated_texts = dependencies['greedy_texts']
+        batch_generated_tokens = dependencies['greedy_tokens']
+        batch_generated_log_probs = dependencies['greedy_log_probs']
+        for input_text, generated_text, generated_tokens, generated_log_probs in zip(batch_input_texts, batch_generated_texts, batch_generated_tokens, batch_generated_log_probs):
+            question = re.search(r'Question:\s*(.*?)\s*Response:', input_text, re.DOTALL).group(1).strip()
+            # log.info(f"Input texts: {question}")
+            # log.info(f"Generated text: {generated_text}")
+            n_of_retries = 0
+            while n_of_retries < self.max_retries:
+                # generated token ids for the question enchanced with CoT.
+                generated_ids = generated_tokens
+                # generated text for the question enchaced with CoT
+                to_parse = model.tokenizer.decode(generated_ids, skip_special_tokens=True)
+
+                llm_answer, steps_dict, response = parse_response_to_dict(to_parse)
+                
+                if len(generated_ids) == 0:
+                    log.info(f'New Reasoning Tokens Are Null, Current try is {n_of_retries + 1}')
+                    n_of_retries += 1
+                    continue
+                if llm_answer is None or llm_answer in ["", " "]:
+                    log.info(f'New Reasoning Tokens Are None, Current try is {n_of_retries + 1}')
+                    n_of_retries += 1
+                    continue
+
+                # reasoning tokens
+                response_tokens = model.tokenizer.tokenize(response)
+                # full reasoning tokens
+                original_tokens = model.tokenizer.convert_ids_to_tokens(generated_ids)
+                probabilities = [
+                    {i: p for i, p in enumerate(prob) if p > 0}
+                    for prob in [torch.softmax(torch.from_numpy(score), dim=0).tolist() for score in generated_log_probs]
+                ]
+
+                final_answer_probabilities = {}
+                final_answer_token_ids = {}
+                answer_start_indice, answer_token_ids = match_final_answer_token_ids(
+                    model.tokenizer,
+                    original_tokens,
+                    response_tokens,
+                    generated_ids,
+                )
+                if answer_start_indice is None:
+                    log.info(f'Cannot locate the Final Answer, Current try is {n_of_retries + 1}')
+                    n_of_retries += 1
+                    continue
+                answer_probs = []
+                flag = False
+                for j, token_id in enumerate(answer_token_ids):
+                    idxx = j + answer_start_indice
+                    if token_id not in probabilities[idxx].keys():
+                        flag = True
+                        break
+                    answer_probs.append(probabilities[idxx][token_id])
+                if flag:
+                    # log.debug(f'Cannot locate the Final Answer Token Probability, Current try is {n_of_retries + 1}')
+                    n_of_retries += 1
+                    continue
+                final_answer_probabilities[llm_answer] = answer_probs
+                final_answer_token_ids[llm_answer] = answer_token_ids
+
+                # exacts_prompt = get_step_exact_tokens(args, q, response)
+                keywords_extraction_prompt = keywords_extraction_instruction.replace('<QUESTION>', question).replace('<RESPONSE>', response)
+                chat = [{"role": "user", "content": keywords_extraction_prompt},]
+                keywords_extraction_prompt = model.tokenizer.apply_chat_template(chat, tokenize=False)
+                
+                keywords_extraction_prompt_output = predict(keywords_extraction_prompt, model, model.tokenizer, self.max_length_cot, self.temperature)
+                
+                parsed_keywords_output = step_exacts_2_list(keywords_extraction_prompt_output)
+                if not parsed_keywords_output:
+                    log.info(f'Exact Tokens Have no contribution scores, Current try is {n_of_retries + 1}')
+                    n_of_retries += 1
+                    continue
+                extracted_keywords, keywords_list, contributions_list = parsed_keywords_output
+                if len(keywords_list) == 0:
+                    log.info(f'Cannot Exract Effective Keywords, Current try is {n_of_retries + 1}')
+                    n_of_retries += 1
+                    continue
+
+                if len(steps_dict) > len(keywords_list):
+                    log.info(f'Len of keywords list doesn\'t match the len of step dict, Current try is {n_of_retries + 1}')
+                    n_of_retries += 1
+                    continue
+
+                keywords_probabilities = {}
+                keywords_contributions = {}
+                keywords_token_ids = {}
+                for step_idx, (step_name, step_text) in enumerate(steps_dict.items()):
+                    # # Skip the Final Answer
+                    keywords = keywords_list[step_idx]
+                    contributions = contributions_list[step_idx]
+                    if len(keywords) == 1 and keywords[0] == "NO ANSWER":
+                        log.info("NO answer")
+                        continue
+                    step_tokens = model.tokenizer.tokenize(step_text)
+                    space_token = model.tokenizer.tokenize(" ")[0]
+                    processed_step_tokens = [
+                        (token[1:] if token.startswith(space_token) else token)
+                        for token in step_tokens
+                    ]
+                    step_token_ids = model.tokenizer.convert_tokens_to_ids(step_tokens)
+                    start_position = find_subsequence_position(step_token_ids[1:-2], generated_ids) - 1
+                    step_token_ids = generated_ids[start_position : start_position + len(step_tokens)]
+                    keywords_probabilities_dict = {}
+                    keywords_contributions_dict = {}
+                    keywords_token_ids_dict = {}
+                    for keyword_idx, keyword in enumerate(keywords):
+                        keyword_probs = []
+                        keyword_token_ids = []
+                        if is_word_in_sentence(step_text, keyword) is not True:
+                            log.info(f"\n{step_name}-Keyword-{keyword_idx} Does not appear in the Step Text")
+                            continue
+                        keyword_token_start_idx, keyword_token_end_idx = find_token_indices(
+                            processed_step_tokens, keyword
+                        )
+                        keyword_token_ids = generated_ids[
+                            start_position + keyword_token_start_idx : start_position + keyword_token_end_idx + 1
+                        ]
+
+                        for j, token_id in enumerate(keyword_token_ids):
+                            idxx = start_position + keyword_token_start_idx + j
+                            keyword_probs.append(probabilities[idxx][token_id])
+                        keywords_probabilities_dict[keyword] = keyword_probs
+                        keywords_contributions_dict[keyword] = int(contributions[keyword_idx])
+                        keywords_token_ids_dict[keyword] = keyword_token_ids
+
+                    keywords_probabilities[step_name] = keywords_probabilities_dict
+                    keywords_contributions[step_name] = keywords_contributions_dict
+                    keywords_token_ids[step_name] = keywords_token_ids_dict
+
+                if is_effectively_empty(keywords_probabilities):
+                    log.info(f'Token Probability from All Steps are All None, Current try is {n_of_retries + 1}')
+                    n_of_retries += 1
+                    continue
+
+                # Dict[str, np.ndarray]: dictionary with the following items:
+                # - 'reasoning_output' (List[str]): model output for reasoning enhanced input,
+                # - 'reasoning_answer' (List[str]): model answer for reasoning enhanced input,
+                # - 'reasoning_answer_tokens_probs' (List[str]): token probabilities for `reasoning_answer`,
+                # - 'reasoning_keywords' (List[str]): keywords from `reasoning_output`,
+                # - 'reasoning_keywords_probabilities' (List[Dict[str, Dict[str, List[int]]]]): probabilities for `reasoning_keywords`,
+                # - 'reasoning_keywords_contributions' (List[Dict[str, Dict[str, int]]]): contributions for `reasoning_keywords`,
+                # - 'reasoning_keywords_token_ids' (List[Dict[str, Dict[str, List[int]]]]): step-wise token indices for `reasoning_keywords`,
+                # - 'reasoning_answer_token_ids' (List[Dict[str, List[int]]]): token indices for `reasoning_keywords`.
+
+                result_dict["reasoning_output"].append(response)
+                result_dict["reasoning_answer"].append(llm_answer)
+                result_dict["reasoning_answer_tokens_probs"].append(final_answer_probabilities)
+                result_dict["reasoning_keywords"].append(extracted_keywords)
+                result_dict["reasoning_keywords_probabilities"].append(keywords_probabilities)
+                result_dict["reasoning_keywords_contributions"].append(keywords_contributions)
+                result_dict["reasoning_keywords_token_ids"].append(keywords_token_ids)
+                result_dict["reasoning_answer_token_ids"].append(final_answer_token_ids)
+                break
+
+            if n_of_retries >= self.max_retries:
+                # log.debug(f'#####The Following Question:#####\n{q}\nHas no Meaningful Answer & Explanations, Record and Skip')
+                result_dict["reasoning_output"].append(response)
+                result_dict["reasoning_answer"].append(llm_answer)
+                result_dict["reasoning_answer_tokens_probs"].append(None)
+                result_dict["reasoning_keywords"].append(None)
+                result_dict["reasoning_keywords_probabilities"].append(None)
+                result_dict["reasoning_keywords_contributions"].append(None)
+                result_dict["reasoning_keywords_token_ids"].append(None)
+                result_dict["reasoning_answer_token_ids"].append(None)
+
+        return result_dict
diff --git a/src/lm_polygraph/stat_calculators/stat_calculator.py b/src/lm_polygraph/stat_calculators/stat_calculator.py
index e6e6655c4..031e4f163 100644
--- a/src/lm_polygraph/stat_calculators/stat_calculator.py
+++ b/src/lm_polygraph/stat_calculators/stat_calculator.py
@@ -18,7 +18,7 @@ class StatCalculator(ABC):
     UEManager at lm_polygraph.utils.manager will order all the needed calculators and estimators to be called in
     the correct order. Any cycle dependencies among calculators will be spotted by UEManager and end with an exception.
 
-    Each new StatCalculator needs to be registered at lm_polygraph/stat_calculators/__init__.py to be seen be UEManager.
+    Each new StatCalculator needs to be registered at lm_polygraph/stat_calculators/__init__.py to be seen by UEManager.
     """
 
     @staticmethod
diff --git a/src/lm_polygraph/utils/factory_estimator.py b/src/lm_polygraph/utils/factory_estimator.py
index c1e13b5b0..24c859edd 100644
--- a/src/lm_polygraph/utils/factory_estimator.py
+++ b/src/lm_polygraph/utils/factory_estimator.py
@@ -46,6 +46,7 @@ def load_simple_estimators(name: str, config):
         ClaimConditionedProbabilityClaim,
         RandomBaselineClaim,
         FocusClaim,
+        ProbasMeanWithCoT,
     ]
 
     try:
diff --git a/src/lm_polygraph/utils/manager.py b/src/lm_polygraph/utils/manager.py
index c6416b4bd..131c9cfd1 100644
--- a/src/lm_polygraph/utils/manager.py
+++ b/src/lm_polygraph/utils/manager.py
@@ -58,6 +58,24 @@ def _delete_nans(ue, metric):
     return clipped_ue, new_metric
 
 
+def _recombine_data(ue, gen_metric, inputs):
+    ue = np.array(ue)
+    gen_metric = np.array(gen_metric)
+
+    # np.unique() with return_counts=True?
+    recombined_inputs = defaultdict(list)
+    for i, input_text in enumerate(inputs):
+        recombined_inputs[input_text].append(i)
+
+    recombined_ue, recombined_gen_metric = [], []
+    for input_text, ids in recombined_inputs.items():
+        recombined_ue.append(ue[ids].mean())
+        # Assumes that metric is bigger for better generations!
+        recombined_gen_metric.append(gen_metric[ids].max())
+
+    return recombined_ue, recombined_gen_metric
+
+
 def order_calculators(
     stats: List[str],
     stat_calculators: Dict[str, StatCalculator],
diff --git a/test/test_estimators.py b/test/test_estimators.py
index 50dcd260a..48d3faa8d 100644
--- a/test/test_estimators.py
+++ b/test/test_estimators.py
@@ -244,3 +244,9 @@ def test_eigenscore(model):
     estimator = EigenScore()
     ue = estimate_uncertainty(model, estimator, INPUT)
     assert isinstance(ue.uncertainty, float)
+
+def test_probas_mean_with_cot(model):
+    estimator = ProbasMeanWithCoT()
+    ue = estimate_uncertainty(model, estimator, INPUT)
+    assert isinstance(ue.uncertainty, float)
+