From 5baafdb9b9a9709a345e3389fba8eacc2a6a5114 Mon Sep 17 00:00:00 2001
From: Shrey Bansal <shrey.bansal75@gmail.com>
Date: Fri, 19 Sep 2025 11:24:15 -0400
Subject: [PATCH 1/4] Adding NLI Classification and reorganizing code base

---
 Makefile                              |   2 +-
 tests/conftest.py                     |   2 +-
 tests/metrics/__init__.py             |  19 +++++
 tests/{utils => }/metrics/base.py     |   0
 tests/{utils => }/metrics/bleu.py     |  15 +---
 tests/{utils => }/metrics/keyword.py  |   2 +-
 tests/metrics/nli.py                  |  76 +++++++++++++++++
 tests/{utils => }/metrics/registry.py |  14 ++--
 tests/{utils => }/metrics/scorer.py   |   2 +-
 tests/{utils => }/metrics/semantic.py |   2 +-
 tests/{utils => }/metrics/text.py     |   2 +-
 tests/test_benchmarks.py              | 115 +-------------------------
 tests/utils/__init__.py               |   8 --
 tests/utils/metrics/__init__.py       |  17 ----
 14 files changed, 114 insertions(+), 162 deletions(-)
 create mode 100644 tests/metrics/__init__.py
 rename tests/{utils => }/metrics/base.py (100%)
 rename tests/{utils => }/metrics/bleu.py (65%)
 rename tests/{utils => }/metrics/keyword.py (92%)
 create mode 100644 tests/metrics/nli.py
 rename tests/{utils => }/metrics/registry.py (83%)
 rename tests/{utils => }/metrics/scorer.py (97%)
 rename tests/{utils => }/metrics/semantic.py (97%)
 rename tests/{utils => }/metrics/text.py (92%)
 delete mode 100644 tests/utils/metrics/__init__.py

diff --git a/Makefile b/Makefile
index f4099fef..6d023527 100644
--- a/Makefile
+++ b/Makefile
@@ -83,7 +83,7 @@ test-benchmarks-keyword:
 	conda run -n tokensmith pytest tests/test_benchmarks.py --metric=keyword -v
 
 test-benchmarks:
-	@echo "Running with custom arguments, E.g. conda run -n tokensmith pytest tests/test_benchmarks.py --metric=text --metric=semantic --metric=keyword --threshold=0.75 -v"
+	@echo "Running with custom CLI args: $(ARGS)"
 	conda run -n tokensmith pytest tests/test_benchmarks.py $(ARGS)
 
 # List available metrics
diff --git a/tests/conftest.py b/tests/conftest.py
index a599de28..9c0a269f 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -23,7 +23,7 @@ def pytest_addoption(parser):
     
     # New metric selection options
     group.addoption("--metric", action="append", dest="metrics",
-                    help="Select specific metrics to evaluate. Options: text, semantic, keyword, bleu, all")
+                    help="Select specific metrics to evaluate. Options: text, semantic, keyword, bleu, nli, all")
     group.addoption("--threshold", type=float, default=None,
                     help="Override threshold for all tests")
     group.addoption("--list_metrics", action="store_true",
diff --git a/tests/metrics/__init__.py b/tests/metrics/__init__.py
new file mode 100644
index 00000000..e5bb95d1
--- /dev/null
+++ b/tests/metrics/__init__.py
@@ -0,0 +1,19 @@
+from tests.metrics.base import MetricBase
+from tests.metrics.registry import MetricRegistry
+from tests.metrics.scorer import SimilarityScorer
+from tests.metrics.text import TextSimilarityMetric
+from tests.metrics.semantic import SemanticSimilarityMetric
+from tests.metrics.keyword import KeywordMatchMetric
+from tests.metrics.bleu import BleuScoreMetric
+from tests.metrics.nli import NLIClassification
+
+__all__ = [
+    'MetricBase',
+    'MetricRegistry', 
+    'SimilarityScorer',
+    'TextSimilarityMetric',
+    'SemanticSimilarityMetric',
+    'KeywordMatchMetric',
+    'BleuScoreMetric',
+    'NLIClassification'
+]
diff --git a/tests/utils/metrics/base.py b/tests/metrics/base.py
similarity index 100%
rename from tests/utils/metrics/base.py
rename to tests/metrics/base.py
diff --git a/tests/utils/metrics/bleu.py b/tests/metrics/bleu.py
similarity index 65%
rename from tests/utils/metrics/bleu.py
rename to tests/metrics/bleu.py
index 7c88840e..7b1805c9 100644
--- a/tests/utils/metrics/bleu.py
+++ b/tests/metrics/bleu.py
@@ -1,5 +1,5 @@
 from typing import List, Optional
-from .base import MetricBase
+from tests.metrics.base import MetricBase
 
 class BleuScoreMetric(MetricBase):
     """BLEU score similarity metric."""
@@ -12,19 +12,8 @@ def name(self) -> str:
     def weight(self) -> float:
         return 0.3
     
-    def is_available(self) -> bool:
-        """Check if NLTK is available."""
-        try:
-            import nltk
-            return True
-        except ImportError:
-            return False
-    
     def calculate(self, answer: str, expected: str, keywords: Optional[List[str]] = None) -> float:
-        """Calculate BLEU score between answer and expected."""
-        if not self.is_available():
-            return 0.0
-        
+        """Calculate BLEU score between answer and expected."""        
         try:
             from nltk.translate.bleu_score import sentence_bleu
             reference = [expected.split()]
diff --git a/tests/utils/metrics/keyword.py b/tests/metrics/keyword.py
similarity index 92%
rename from tests/utils/metrics/keyword.py
rename to tests/metrics/keyword.py
index fd5615d2..4fbf0d56 100644
--- a/tests/utils/metrics/keyword.py
+++ b/tests/metrics/keyword.py
@@ -1,5 +1,5 @@
 from typing import List, Optional
-from tests.utils.metrics.base import MetricBase
+from tests.metrics.base import MetricBase
 
 class KeywordMatchMetric(MetricBase):
     """Keyword matching metric."""
diff --git a/tests/metrics/nli.py b/tests/metrics/nli.py
new file mode 100644
index 00000000..7cdef92e
--- /dev/null
+++ b/tests/metrics/nli.py
@@ -0,0 +1,76 @@
+import os
+import warnings
+from typing import List, Optional
+from tests.metrics.base import MetricBase
+import torch
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+
+class NLIClassification(MetricBase):
+    """NLI-based entailment metric using DeBERTa model."""
+    
+    def __init__(self):
+        self._pipeline = None
+        self._available = self._initialize()
+    
+    @property
+    def name(self) -> str:
+        return "nli"
+    
+    @property
+    def weight(self) -> float:
+        return 1.0
+    
+    def _initialize(self) -> bool:
+        """Initialize the NLI pipeline with the best available model."""
+        try:
+            # Suppress CUDA warnings if running on CPU
+            os.environ.setdefault('CUDA_VISIBLE_DEVICES', '')
+            warnings.filterwarnings("ignore", message=".*CUDA capability.*")
+            
+            model_name = "MoritzLaurer/DeBERTa-v3-large-mnli-fever-anli-ling-wanli"
+            self._tokenizer = AutoTokenizer.from_pretrained(model_name)
+            self._model = AutoModelForSequenceClassification.from_pretrained(model_name)
+            
+            print(f"NLI metric initialized with model: {model_name}")
+            return True
+            
+        except Exception as e:
+            print(f"NLI metric initialization failed: {e}")
+            return False
+    
+    def is_available(self) -> bool:
+        """Check if NLI pipeline is available."""
+        return self._available
+    
+    def calculate(self, answer: str, expected: str, keywords: Optional[List[str]] = None) -> float:
+        """ Calculate NLI entailment score between answer and expected text."""
+    
+        if not self.is_available():
+            return 0.0
+        
+        if not answer.strip() or not expected.strip():
+            return 0.0
+        
+        try:
+            # Format input for NLI: premise (expected) and hypothesis (answer)
+            input = self._tokenizer(expected, answer, truncation=True, return_tensors="pt")
+            output = self._model(input["input_ids"].to('cpu'))
+            
+            # Calculate entailment score
+            prediction = torch.softmax(output["logits"][0], -1).tolist()
+            label_names = ["entailment", "neutral", "contradiction"]
+            prediction = {name: pred for pred, name in zip(prediction, label_names)}
+            
+            # Weighted scoring
+            final_score = (
+                prediction['entailment'] * 1.0 +
+                prediction['neutral'] * 0.5 +
+                prediction['contradiction'] * -1.0
+            )
+            
+            return min(max(final_score, 0.0), 1.0)
+            
+        except Exception as e:
+            print(f"NLI calculation failed: {e}")
+            return 0.0
+    
\ No newline at end of file
diff --git a/tests/utils/metrics/registry.py b/tests/metrics/registry.py
similarity index 83%
rename from tests/utils/metrics/registry.py
rename to tests/metrics/registry.py
index 01f58c9b..707081c5 100644
--- a/tests/utils/metrics/registry.py
+++ b/tests/metrics/registry.py
@@ -1,5 +1,5 @@
 from typing import Dict, List, Optional
-from .base import MetricBase
+from tests.metrics.base import MetricBase
 
 class MetricRegistry:
     """Registry for managing available metrics."""
@@ -10,15 +10,19 @@ def __init__(self):
     
     def _auto_register(self):
         """Automatically register all available metrics."""
-        from tests.utils.metrics.text import TextSimilarityMetric
-        from tests.utils.metrics.semantic import SemanticSimilarityMetric
-        from tests.utils.metrics.keyword import KeywordMatchMetric
-        from tests.utils.metrics.bleu import BleuScoreMetric
+        from tests.metrics import (
+            TextSimilarityMetric,
+            SemanticSimilarityMetric,
+            KeywordMatchMetric,
+            BleuScoreMetric,
+            NLIClassification,
+        )
         
         self.register(TextSimilarityMetric())
         self.register(SemanticSimilarityMetric())
         self.register(KeywordMatchMetric())
         self.register(BleuScoreMetric())
+        self.register(NLIClassification())
     
     def register(self, metric: MetricBase):
         """Register a new metric."""
diff --git a/tests/utils/metrics/scorer.py b/tests/metrics/scorer.py
similarity index 97%
rename from tests/utils/metrics/scorer.py
rename to tests/metrics/scorer.py
index 4e91968f..13b8298c 100644
--- a/tests/utils/metrics/scorer.py
+++ b/tests/metrics/scorer.py
@@ -1,5 +1,5 @@
 from typing import Dict, List, Any, Optional
-from .registry import MetricRegistry
+from tests.metrics.registry import MetricRegistry
 
 
 class SimilarityScorer:
diff --git a/tests/utils/metrics/semantic.py b/tests/metrics/semantic.py
similarity index 97%
rename from tests/utils/metrics/semantic.py
rename to tests/metrics/semantic.py
index d9b01c2c..8673e497 100644
--- a/tests/utils/metrics/semantic.py
+++ b/tests/metrics/semantic.py
@@ -1,7 +1,7 @@
 import os
 import warnings
 from typing import List, Optional
-from .base import MetricBase
+from tests.metrics.base import MetricBase
 
 class SemanticSimilarityMetric(MetricBase):
     """Semantic similarity using sentence transformers."""
diff --git a/tests/utils/metrics/text.py b/tests/metrics/text.py
similarity index 92%
rename from tests/utils/metrics/text.py
rename to tests/metrics/text.py
index a08de235..a03272c3 100644
--- a/tests/utils/metrics/text.py
+++ b/tests/metrics/text.py
@@ -1,6 +1,6 @@
 import difflib
 from typing import List, Optional
-from .base import MetricBase
+from tests.metrics.base import MetricBase
 
 class TextSimilarityMetric(MetricBase):
     """Text similarity using sequence matching."""
diff --git a/tests/test_benchmarks.py b/tests/test_benchmarks.py
index f4c3b828..79fa14a5 100644
--- a/tests/test_benchmarks.py
+++ b/tests/test_benchmarks.py
@@ -1,121 +1,10 @@
-# import subprocess
-# import pytest
-# import json
-# import sys
-# from pathlib import Path
-# from .utils.metrics import SimilarityScorer
-# from .utils.answer_parser import extract_answer_from_output
-
-# def test_tokensmith_benchmark(benchmarks, test_config, results_dir):
-#     """Test TokenSmith with all benchmark questions using selected metrics."""
-    
-#     if test_config["skip_slow"]:
-#         pytest.skip("Skipping slow end-to-end test")
-    
-#     # Initialize scorer with selected metrics
-#     scorer = SimilarityScorer(enabled_metrics=test_config["metrics"])
-    
-#     print(f"\nUsing metrics: {test_config['metrics']}")
-#     print(f"Available metrics: {scorer.registry.list_metric_names()}")
-    
-#     for benchmark in benchmarks:
-#         _run_single_benchmark(benchmark, test_config, results_dir, scorer)
-
-# def _run_single_benchmark(benchmark, test_config, results_dir, scorer):
-#     """Run a single benchmark test with selected metrics."""
-#     question = benchmark["question"]
-#     expected_answer = benchmark["expected_answer"]
-#     keywords = benchmark.get("keywords", [])
-    
-#     # Use threshold override if provided
-#     threshold = test_config["threshold_override"] or benchmark.get("similarity_threshold", 0.6)
-    
-#     # Run TokenSmith subprocess
-#     cmd = [
-#         sys.executable, "-m", "src.main", "chat",
-#         "--index_prefix", test_config["index_prefix"],
-#         "--model_path", test_config["model_path"]
-#     ]
-    
-#     input_text = f"{question}\nexit\n"
-    
-#     try:
-#         proc = subprocess.run(
-#             cmd,
-#             input=input_text,
-#             text=True,
-#             capture_output=True,
-#             timeout=test_config["timeout"],
-#             cwd=Path(__file__).parent.parent
-#         )
-#     except subprocess.TimeoutExpired:
-#         pytest.fail(f"Test timed out after {test_config['timeout']} seconds for: {question}")
-    
-#     if proc.returncode != 0:
-#         pytest.fail(f"TokenSmith failed for '{question}' with exit code {proc.returncode}\n"
-#                    f"STDERR: {proc.stderr}\n"
-#                    f"STDOUT: {proc.stdout}")
-    
-#     # Extract answer
-#     retrieved_answer = extract_answer_from_output(proc.stdout)
-    
-#     # Calculate scores using selected metrics
-#     scores = scorer.calculate_scores(retrieved_answer, expected_answer, keywords)
-    
-#     # Determine if test passed
-#     passed = scores.get("final_score", 0) >= threshold
-    
-#     # Save detailed results
-#     result_data = {
-#         "test_id": benchmark["id"],
-#         "question": question,
-#         "expected_answer": expected_answer,
-#         "retrieved_answer": retrieved_answer,
-#         "keywords": keywords,
-#         "threshold": threshold,
-#         "scores": scores,
-#         "passed": passed,
-#         "active_metrics": scores.get("active_metrics", []),
-#         "stdout": proc.stdout,
-#         "stderr": proc.stderr
-#     }
-    
-#     # Append to results file
-#     results_file = results_dir / "benchmark_results.json"
-#     with open(results_file, "a") as f:
-#         json.dump(result_data, f)
-#         f.write("\n")
-    
-#     # Assert based on results
-#     if not passed:
-#         fail_msg = (
-#             f"Benchmark failed for question: '{question}'\n"
-#             f"Expected: {expected_answer}\n"
-#             f"Retrieved: {retrieved_answer}\n"
-#             f"Final Score: {scores.get('final_score', 0):.3f} (threshold: {threshold})\n"
-#             f"Active Metrics: {', '.join(scores.get('active_metrics', []))}"
-#         )
-        
-#         # Log failed test
-#         failed_log = results_dir / "failed_tests.log"
-#         with open(failed_log, "a") as f:
-#             f.write(f"\n{'='*50}\n{fail_msg}\n{'='*50}\n")
-        
-#         print(f"\n❌ Failed: {question}")
-#         print(f"Score: {scores.get('final_score', 0):.3f} (threshold: {threshold})")
-#     else:
-#         print(f"\n✅ Passed: {question}")
-#         print(f"Score: {scores.get('final_score', 0):.3f} (threshold: {threshold})")
-
-
-
 import subprocess
 import pytest
 import json
 import sys
 from pathlib import Path
-from .utils.metrics import SimilarityScorer
-from .utils.answer_parser import extract_answer_from_output
+from tests.metrics import SimilarityScorer
+from tests.utils import extract_answer_from_output
 
 
 def test_tokensmith_benchmark(benchmarks, test_config, results_dir):
diff --git a/tests/utils/__init__.py b/tests/utils/__init__.py
index 9be31899..f06e19a8 100644
--- a/tests/utils/__init__.py
+++ b/tests/utils/__init__.py
@@ -1,15 +1,7 @@
 from tests.utils.answer_parser import extract_answer_from_output
-from tests.utils.metrics import *
 from tests.utils.generate_report import generate_summary_report
 
 __all__ = [
-    'MetricBase',
-    'MetricRegistry', 
-    'SimilarityScorer',
-    'TextSimilarityMetric',
-    'SemanticSimilarityMetric',
-    'KeywordMatchMetric',
-    'BleuScoreMetric',
     'extract_answer_from_output',
     'generate_summary_report'
 ]
diff --git a/tests/utils/metrics/__init__.py b/tests/utils/metrics/__init__.py
deleted file mode 100644
index 861e4299..00000000
--- a/tests/utils/metrics/__init__.py
+++ /dev/null
@@ -1,17 +0,0 @@
-from tests.utils.metrics.base import MetricBase
-from tests.utils.metrics.registry import MetricRegistry
-from tests.utils.metrics.scorer import SimilarityScorer
-from tests.utils.metrics.text import TextSimilarityMetric
-from tests.utils.metrics.semantic import SemanticSimilarityMetric
-from tests.utils.metrics.keyword import KeywordMatchMetric
-from tests.utils.metrics.bleu import BleuScoreMetric
-
-__all__ = [
-    'MetricBase',
-    'MetricRegistry', 
-    'SimilarityScorer',
-    'TextSimilarityMetric',
-    'SemanticSimilarityMetric',
-    'KeywordMatchMetric',
-    'BleuScoreMetric'
-]

From f9aa39637f5c0a5e1a7b152e77434cbae9519e66 Mon Sep 17 00:00:00 2001
From: Priya-753 <priya61197@gmail.com>
Date: Wed, 1 Oct 2025 10:56:14 -0400
Subject: [PATCH 2/4] Simplified feedback

---
 .gitignore              |   5 ++
 requirements.txt        |   2 +
 scripts/feedback_cli.py |  54 +++++++++++++
 src/feedback.db         | Bin 0 -> 102400 bytes
 src/feedback_db.py      | 174 ++++++++++++++++++++++++++++++++++++++++
 src/generator.py        |  16 +++-
 src/main.py             |  63 ++++++++++++++-
 7 files changed, 308 insertions(+), 6 deletions(-)
 create mode 100644 scripts/feedback_cli.py
 create mode 100644 src/feedback.db
 create mode 100644 src/feedback_db.py

diff --git a/.gitignore b/.gitignore
index 1d3b48d3..c33d7f77 100644
--- a/.gitignore
+++ b/.gitignore
@@ -243,3 +243,8 @@ cython_debug/
 marimo/_static/
 marimo/_lsp/
 __marimo__/
+
+# --- Project-specific ignores ---
+# Local data and external repos cloned into src
+src/data/
+src/llama.cpp/
diff --git a/requirements.txt b/requirements.txt
index c7befab4..96f1a1e4 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -5,3 +5,5 @@ tqdm
 nltk
 sentence-transformers
 rank_bm25
+scikit-learn
+matplotlib
diff --git a/scripts/feedback_cli.py b/scripts/feedback_cli.py
new file mode 100644
index 00000000..684e537a
--- /dev/null
+++ b/scripts/feedback_cli.py
@@ -0,0 +1,54 @@
+import argparse
+from feedback_db import FeedbackDB
+
+
+def list_feedback(limit: int) -> None:
+    db = FeedbackDB()
+    rows = db.get_recent_feedback(limit=limit)
+    if not rows:
+        print("No feedback found.")
+        return
+    for i, fb in enumerate(rows, 1):
+        if fb.get("thumbs_up") is True:
+            thumbs = "THUMBS_UP"
+        elif fb.get("thumbs_up") is False:
+            thumbs = "THUMBS_DOWN"
+        else:
+            thumbs = "NO_FEEDBACK"
+        rating = f"RATING_{fb.get('rating')}" if fb.get("rating") else "NO_RATING"
+        print(f"{i}. {thumbs} {rating} | {fb.get('timestamp','')[:19]} | {fb.get('query','')[:80]}")
+        if fb.get("comment"):
+            print(f"   COMMENT: {fb['comment'][:120]}")
+
+
+def show_stats() -> None:
+    db = FeedbackDB()
+    stats = db.get_feedback_stats()
+    print("Total Interactions:", stats.get("total_feedback", 0))
+    print("Success Rate:", f"{(stats.get('thumbs_up_rate') or 0)*100:.1f}%")
+    print("Average Rating:", f"{(stats.get('avg_rating') or 0):.2f}/5.00")
+    print("Comments Count:", stats.get("comments_count", 0))
+
+
+def main() -> None:
+    parser = argparse.ArgumentParser(description="TokenSmith Feedback CLI")
+    sub = parser.add_subparsers(dest="command")
+
+    p_list = sub.add_parser("list", help="List recent feedback")
+    p_list.add_argument("--limit", type=int, default=20, help="Number of entries to list")
+
+    sub.add_parser("stats", help="Show aggregate feedback stats")
+
+    args = parser.parse_args()
+    if args.command == "list":
+        list_feedback(limit=args.limit)
+    elif args.command == "stats":
+        show_stats()
+    else:
+        parser.print_help()
+
+
+if __name__ == "__main__":
+    main()
+
+
diff --git a/src/feedback.db b/src/feedback.db
new file mode 100644
index 0000000000000000000000000000000000000000..1decf495d43c14cf77d81fe34e3b3284e0363fec
GIT binary patch
literal 102400
zcmeI5&vRVab>C++vSh=a*s+r+u9T}@mFxh}0Btlt00dbo2mCQJR7eho;7CzfF3v;u
z1JGjsfckY4gd#5-Cn?*T?6S=!8@sZ~zmbJ^`2+MPWSd3u`JQv{eXsFj$eFPv*}9a5
z?0)_3uXE4ubMCnZA3q$-s^Vxe9hI|U>#g5<>+QGS`Zq=K)?06VjsJd^|Kgu_`0&;E
zg@4~}eZKDF*WT*<)o;JcuV4MOzkTc7zk2uPum4Xz<Ubh#83Gvs83Gvs83Gvs83KP-
z5cu;?zxwrWy!YPQ|M_fI9uBL)=yW=HS&gdk?D=qVeBtY_+<kg~|JnWG+5Vk}_lpZZ
z7As4|6@Lc(;=$u*_dmG*w0QFL!K3}B-!J~{{qGn1pFI2M!DIS+bpP?QwJTfB2BWH;
zm7~+*+5La_ta$tp|9$fC;ngp<Co?-gt=^<fzp8uF!Rc%;8NbQvhZRb1_55WyoO}0I
z&!jw>RnynLbyQXT!?O3{d2ccw&mxGf?y)zm%30Naj=p^l@IQO-=zekU{`>o%JbYH%
z{p9IWAoyGl51#EmdU6SrtAGB^J753C>gwD7Y2UWEKCfrh==rFcO$WVt@!MAyHhA&3
zpYQ(qbf1sQ(Hm`Tc-{93q<#1r^x^%oU(QOygTI$uc=DC6iO#<7d+?(nM%44V`q8`^
z_o{mF>pP3Pu=wMOK(I#3)&E$({q=AB-tWErmwVP{#Hjf1R~CASPk+9<$a1IWZ$fM3
zxIU|<Z}R3;cwD`NJbEYd@r(LR+RRSoqr>|7{PZ<+HyMc$eg;lV%h_Oj{Mo&<Ia579
zK8B~kaD1LuV_IF+HLpB}b&B&{{Sth7bUJ%p&(4Q|A|gvz?pH_Ud^lUay5X1PCclE@
zdHXm2ujJ3~`ageHqA2&1A&?=EA&?=EA&?=EA&?=EA&?=EA&?=EA&?>PivfXu`4z?H
z-~P@2^A`Wle=-Cz1Tq9N1Tq9N1Tq9N1Tq9N1Tq9N1Tq9N1pd)L;5XiW=l9-@`6KVh
z{wL`_|H%-@5Xcb75Xcb75Xcb75Xcb75Xcb75Xcb75co$7fo%W(Bi`J+v<!g^fee8R
zfee8Rfee8Rfee8Rfee8Rfee8L0$(o%bul}siqWK=6@&2+1yRPcK{+gXs+chC@o{)w
zjLPYYin=Amv>H+;VKU|gF90zt$H(*Xxat(o=;h$!hedo+oRoD@Q_f+^%ctdZR^M7$
zFYZy9W1Xr7gYm$MwWPOK?%jL1x>lT>40<PpD%T9C>0+}e$NgGG3JY&Wkp|6T-I~|E
zlWJ7fYy38>tbjwDA<t;Yy845ob5(YTKNO)&C(dS6jt8f6Usp5xm3xnx`3%Or;au}6
zFD%=}5U6aDvk4%qtLdzm%}<BCJ{Zp?VQy7?c0{#@_T1w0!PquJrArRWy3+I_NcHSW
zps{)Lnr&fVuLY4-Sr=!6*-25KR=vT|fLG$GiwEPP?Drk|wDUI%Lc#-;Bw?9APNjG1
zVsezaEXo=6IS%Ku3fO9=%V9m?ui@m(aVQMdGYnBnmR}uD2eWhbaa_-)B@e)fIXet)
zoK6Se)%p61YVmgsuJSyC<MGAc1Qd<j+K-ndHA5JI;Sw(SX!9O}32%g{1Fhu(gazNa
zik%tsYtX1SE7l6_68~r}XD8LPDtf~bP}gw=w)TXkqpEiT7S$sFF#%v!+vae>1~f3U
zz9JF^?BwOiv`=*uC#GptQ|zNI4$q5vGBtE&&dnY+oyBR?^V3t_q)Ay1dXU?!n4Cg!
zUYCT%tpOcqB8B-_b&}R>f2OrBSSzhw^{P{?-l?!RnKGl(iI8F9T%rU=C>A>CLDLro
z`{`f&&06u(zxZnh+IpNJaOsN_TAPsOB(#`;6q?g`J{%TS<j2-86y>Q<ayFd<NU#61
zOkJ4q<ZQegXEd+pOr`aTp)B7kgZB~pWTYglNx&+PkEhkK0ZBj*ZO6gN!vXbt&eeT?
zARYwC$N36glj3+fnV)L^PEUtMHm%-(37n1!Pw-42T$NzDz29jFCe7jk{CMBHj*v?)
zj;S*v3Z5TEAO>FHm}&GPbPXsfQYgp81VRmn)hQm#oLW<#H9J^N+kIMRaBH=#UY)Y@
zs$9e3XY;A;P#N|BrUQzN1~Vq5xjupY7v1i*EisYA1sa^6!o&cw;4KbmA2svDxDh^9
zh?YS+OH1GUX7RLoIjGKxXN*-ZMP_}4=!idE$;ZQw;;4ZIwx2MUSxMC<o;?kct$8aw
zX}$Htc~$|>qRsoxrNXzT)e($h+!HEAl(CNeaZ7sg^l?IWzI<%8lp_1$fw0wC0$dY5
zHlJ#WfjRj$^WAt<`qpMs{P+k?G7yTzsX!*>@VGjhmi!9)O%0s`!E@4+XR05^+k>*^
z-MeA~K|C5`TQSBEo{0bI^);7c;D~=;rRBi_JK}*c9{!bJFvi1YXF7b?4^&A-;`z8|
z9E_*sOK@g181q;8Y7K-%cv_(~elvQ3Tk`Rwd<oq7@c1IJ@J#bSNJE-~8bQR9e_#CT
z;p{e?&i?r}{~r5S{qyZV<@b6*Z7xZ-;!k<MdNrtLYRC%M7(TFk(`*vZOx~t%2MhG2
z8A|gpG&Ge24yqOExilB`_`nE*51)uuswE?WC({y8^s3_iD`{g$Ad$jWr(1jv!3uMP
zK^{#cgN1f2{s0QCp&aO`-eKO*b}iQCnn0&m`5q+URji8h$-H17cqyD~IyXTH#l-&L
z17#sCL<?wlTT{~yRMAfiLsh%8Dk^VL+@4j31>;s?OPa~yWby)?=x|*hI&4b;dy;kl
zo&ymV*&wcoKk9n52NuH^PD<m}t)bZ`By?as{Wx%WNclr1<imG_kY%SR-XBPwNv;fL
z5==}Bd;%M#uGtTFK@}KwZ_t4|NprQ*VYWQbtSYvoY@tD!G7z}mPI1`o`@ucySm;yF
z&>W@roSjUV4HKP}^W&45q&%!v%tcE_PZ4qTi~D*~4aT=Y_!rtCwJ;S#iyR}D&@F{N
z&4gWV5HIevCvh@3M!}gCwOGArNagsvHJ}>wV*^dKnM;lAa;`5(UFc}Vr!y+gi$hrs
zHbF_8G2oWgsWxnn{?f>+8VC!a0ev-|g0luzz;9wwYKY{GV-fsmawNXl*QUI$$!%_Q
zch%8RyCZnQU^E{UO^4t@Z#t>bVFi2d6ls02m*aLX@iia(q;&ka-1ntkwmO@|fmASP
z#YhNH97AX#m&7xVr)9tT!SmCJwBHr`wpRGJV%3LCQnQpwWP}PRjK9MiB*(2;!q6F*
zQ8y!?m5k?DYtjJW%~gHd^xo=~Q6~@?7t8z0-iMHV*w@B2dL``_b-f#5exd2Qsaso}
z-R5zzT-+(%3(vPMJom@VLkJE_0l97#jV&eoXlTYJixwiK*xUsO5v8MnxY$bArB#`%
zrUuXsJQ1?7`a^&uQg+I;KJ-iIWh7|`+4xYQi2*EZgzN-8_Q@F%>T4igK;5g@SM;5w
z4{U$+BRWzKKF|{Pf*1T}KE2FuQL2q$8?pyhcpc;J6yJv*i@wSlfoCQ9;i0hFLC=&^
zaauTmqk-9)W^Mbrz<XDgwI*8+vxaaMncrkq;s*HDVOVhhgQ&iNQCz(d^@DrGa(8p<
z#`f|8iACP2xs0`sEwG7P7uaHJ>k;h8Pc+As;)5sq5JKDmXWL<Dv<j_t00pbx8MD4H
zW7pCRgPJ!kVgX>B;L4B|9p<a4Eig-#r@d1jHp_K`NSbA0Q_juRT&(l)<V?7M*uqqp
ziU&x4R>4cN1l1cL1@ETr0uhSNPC(!)h;tA{4fUe!wU@B9MN0$mxzs2?CNYHR!(j(y
z;B<)HB-50ZVcdE$oVx_2EG0;AHkrQAnqYoMV9N}q<8GBAFc{Gez;z4FdX`Zx`*C>Q
zS=#QPW^7%lW*{d};n@>Y-sKJe(@ev6ne<xSBVgl$vAh-#xt8BZDI<|a7K!WXg{#Ff
z7}wqSgNSLaOd0P_i0NxYZja@Rg7bl=QMjxOI#q{tz(6OM&b=P{7lw-hDe`fXVnUe*
z?&48rC{vCP67E{ZWcGvSLcYfC7q`ONl(r~vkD2X;*cP8IFVTc%qjSJBBu?RsNrL}=
zcVlg1W23XQr|r1`Py*@+LUcHv%AQHOn(*!Y!Lf7*bjDp-_NIaGa&W)McwsiYV3;@@
zK>r=<*3=S%e8Z=rVIp^m6D-S%5P~$Lj@Vi1Zgiq$xO<uP3|lPww3<kVlzN0^FA^<9
zJ=!)?mj>gPlOeoU8&mdr5Sp|pzPLuPwA5OlHs=Be#QMa9TBvajO|H{=!-qPohLiEJ
zY0B>AfC8`+!k)qySYu#)ouy5|9a}d@{V+}09}BJmc}(k-2lud8B$457;x1^%XM-9A
z3BMWU^|4HTlmp`x0h7#?!(vSpf-0;v_~Ls|-|`m4`yy)p(M*^d8*Aa0yZYtEM)A|X
z{O|1-cG3%X^uo@i7jE)`=IA_nUoYKkz0?Vupp5}61IiKRB@B^|SAyo=poT@cH1HmU
zF0Sc0$*jp|)hyHimQX3ub5hnD37_C(v|&Bk0D)ueB(Ldkfcos-FotFidtx<p1;Naa
z;l&ClWNvRSj$Pw@#<^+B!JMk5E6Ai^h-x=b(?JpSf|!F^g5MQfVP!a9=zJXlOx@!q
z>z&X7rKiBndV-|jzo-U8N3!7$-f&#p4c(iqz+BxKi*%8b%qHfOD3<HqVA;5cJUISv
z4d5M@Q#sq*2gbH&Qk|t8q3rG=tBBipzO)qF3a6d2=(^5%ieWr0y83G~a18(T+j`uA
zA$7&^n`aOO&z6=xF=2Kl(q-1}WM*L#VYsoJs4xZRhI?Cs*AG_ZJsM2Jkt(<!Y?HM!
ztVXm?n}3A-D{%>Eebed)iRgHy)e3ataG_~vr*#B#rJ~d_(hW4->fBs}$zeHukvP~Q
z=e+qd<eV2YHTX|dK6>+dhEiaPuHb1C7T;8;1+;`aS_yigvE*4PV;OJS1ug8V9@Wbb
zssMEYrkVXVn^yQv#1<j~>ai)I44LMWxMT7L-Yj}>frfn5EG`2V)ELL8ZL`gMRt!-C
zkiXi}xW+5i73N^eHg=jO%`eLzmQ(ZZEKA+>F;>D*BBa}ee?dT_L*Etyu4eUWGa%eL
zefbUz@H2(E{D9ir0z~_XI$1UN;?bB+#V`u>Ac+6qxw9*ne%KLcdji`5g;xq*3XkJ^
zZ4q{}xC0tW7&WrgkacenS+5YfizvJI#waU`M(ES>`T|dJh{Utmx&<~LJww8+1-n8L
zPtbN*Vu(UpOj3z$6qASpkl}E0Ub)zprt12{^814+h#(NK+$pgQbCa>9mvH#+WgJ6w
z89}Jr$*+OVWh&QYi{Z-E7`qesnF1~le%7jz14i&|QRV`GF3!kx&-4n@SUwoZ;c+G4
z<a*h6L(*u@T%lvBaDgWdCvqnljmLm3JI4#1Ybe-z5Z8s%BUxJ=_|$CUK_U+%T{pQ_
zQ*H2qXGcgRY!O%%h7-roLlfN*1a+|joYTV0-(xK$@{`VsTwt<zDhF;-$8JouM^L|J
zwQwYQYlhUW(3^S32&I^gjw!@5H*L*$b#5As-Jr+=wa>zd;8Wa_&c5+^$-Yy(DLrHV
z|JoI*+an8^8;m0hlKaN?S`do>0Iq@uINRvQh@G<_N5qmJS7$Rt>mvEu%uHn?ScCCz
zlI%K2NTt|NsHvx$8wegV*nDj2jiwPmd5HC`koAI%<rKSdTT;uy&88ZlA&b*Z#^?(r
zUfhMQ5gMO<`sq?yoOrq00d`Z#ZRvk50*vuTlq42HTw#131crXIep*J!UU5G%y9iGP
zBfxdhrT^u9`j@$}F|<faZS`Bb=T0MY+<=jd48Geqz}<>|y)QcGs=!-&(>SCT+&_|h
zs1lz!9WhS#CCORs!@~#M7wq@;Bv-Jh7|^|~t5Khc-bWvQ^x-xJbYpY}Zz?NqnqKm}
z8P+>bYu<8ws|~THSE2d>PnRuGqdK(Q(oIitoj8vJ*P6#LX7_7{c?-!1=O!;#<9Rei
zT4Ta0He1dbNpE7CTn}W{@@E8sWQ;Pn88O<sWXiQN38GbZ*BluT&zQh$*qi0M2kRRf
zUA%%8Q0W)T->a$@kk~<mj$Tgr!7Me5?Ivm>v`C#rPm4i9cA9&B!KLK*4}I|F4|JCb
zZ(^O83K-)JCV~_|h`q#Kg;3`xvB}*nXbE%fTM(jH^y35sZc#vMSHh3ML+P=FxZlCO
z&;%lqvwq?AMi@oc(Q+MFs5w{Fo#b`sP8$-y;b6uLH^+z^d?%zJ;LE~LSM0%~c7U&M
z0mWwb4g6#SKo!!h>}TnhMpS0fM%OypaD<)@`bW%0QaQ{<8b-_KteuJ(BI;0H4QMt3
zo~~LXY&f9hpcR25W&fodRsCSaD$3?#<3v+j4%U4<mIfxyEudkm2ZP!;jP;WGv?c<b
zOU}&=kwf%diWEpLyF6LV#)F}f6D==Nr+B2$n`STnB<XGz50?sM{#kU0LjhFm-1DRy
z85LBqa2<Y;icm1qk6t$6DkP?)CiA#yvdr-p*nxLJv2PqOZ6BOGbJ}{sHDr@4IMT`>
zK8@Y8<KLN_U{sJca+1^m4|E4jW29g}IWhxQO0%Ipo!TZ7_`tEED4OE#M6>qq+}T7a
zUygQZoRq&l#oPj+!km})pKf;db}cIP`&&Vk2l(5Is+F0QQ9=tD8;tllng1r&q7j+|
zHkMj6E0JB!zJi_G(!-bUOo^`#&l}|{8RH&B0hzT((X?#V0Q$tW1Pvjn$=E1PCAm{z
z+sEX)$w+sAnoYf^i_J_+)JScC`ML?SJv)orlQgrdx9DeY?p~$Mq)AG<a(_w?8s^$J
zvnbdvivp`La)kSCHi-h74rL>2Ly|`Ig~x{#UFGBnjyieVn1X^-K}laggV&CF(N@(e
zE|@<7?c&-DqgulTm0H6tXj0*M#5XqsYuUZZayTu|l~kZsAkPJNXB;XyRTk-+V9J{s
zO>G4!q{nDTIYGP&=qZk73;P`AjXKiyrjEh}e35=cw{5W<6OxUuy2B;9klf7^Y!n~s
zGrS1^_hy2YshO68jl@Ii_O#;2z9Ss2hx*-<iEK!*pHqb%$sL2e_a`Gcyw#1dz?ApO
zi-gt|Uyc%1X~d~TT3SqYBGjl1ZW`NLS0xuaUZqHDYeE61_KJsOffcherT9uMkhA&R
z0;e8vZ^dcJ^_Wijb2J<z6pE3kATlm>7ZjB)xQe!Npy+_us5veGswbvdQkobvv}j>3
z%e$pF>9ha{Gg3)ZD}(xQe9QGF6cMszCsR^DPUnY1f=$(QHF_xfE2C<3Sd4pgcsTB0
z|1W7$)oRND$!s1D;LgN0oB0||ZFUzK^6<iI3naBk`0w=@YLRl1Xwv-PKS6L`G8V(n
z(R2-tS5RU>v;dN{cr%%nAN4+%mS^i9qBSSw<I9d21n=tyGYJ||Ic-YYNd01qZXA?H
za%%_^jCf5Pr*Q=01uhzSaih?A%LGh}!NLJe=t_F9A#hYVtanU~GQ8u_9U-K5U=(IO
zTFQp}0qjoLxa1m@<$`V(WMdjSku6QY`xuaGI`GT}jFS)oZV4AB(#_4{Y2}$V`psQ`
zAuDsqzj+ELj`$GxGUFj6)4JseJxJ@6ioaku!|$;oLc$)zw{Ik}er4h@{d0nZxG%Iz
z93~u-acFQp0E5ELZg`#uz_q9yfRBe!LQ*Bl!en~P!yh-+e~UBO1aO67)Om7MI<*nH
z#0I&gVAoT>Ta^$!!nc)bjhTp5lEOO;$;W)uU{cHAZ#TP=shPY94caeTBHKj{Xl}-k
z2K%OyT6$)|JsDO6kHrlY`hy>*WorRfZ-{~6$#eosCPQGT-BIeokLCk<D;3Yh=1AvZ
zz#Onny;*L=m^+?<k{FV)YK{TmQgGE)FA4eXnaM}I0%EkzSL~1o5y}cH+0Ia~o8!qC
zLANl8)z3SPh@9@yutNyf%xdY<qy#%VGy&ugV#-Wn)%gD8%Vv4NK}gCMvtAcw+9^K7
znT2zktOkxvB(Np2HY1<~#D!ToMjKa1qNVWIyE`H$cqlAYMTEx;s-q+F-Q@foRU}mj
zNgS(XaT?T%{g5VaM3($r22XTCb4tJk!o|Xukl#s0reZ+a(rDIMoM)ZL9zv_onHO~C
zrXvOv_6aA#6cUMdiv6LO$1x#J&IOGFngTF+OL~&=7BoSf9nt4$%<u+o4tzF1XC5y0
ztKGRCy@4dCb&ma9lf9)R2%)v1cEjn_+;Y%8{vM}nMjvCZ#jv@imJa_(biG0-aECjI
z2v8i79Y+UQ93FPJK+GBX2^d8u{R{K9vtp*#+{Iy~G^i~Qj6*cQCq5z9j0uB<FRP*N
zvyvK=`EG^^lt|`Ge^6r!YXHQ?K}Z+wlA;DbWN3*XbL|7ibW)JH(~+H^h)Cl?#YmGk
z6Tgi=vwNNca(Z%Z9L8sb1Co#v@nG*8&<>9$By^tW$d_0JfI)|AP&V*iO-B4dy@o*1
zm8-P=(U*yC!Rkes7X1RA4w~Z$*gGKkpALN}F1{8~@Eu-EDkaC((&&IA`No{Wycgeg
z<3D6XdccgJI}`?OwHb7z%N4goS-bBykdJ$Y`$QO-zV49AOklqrqEOaGN5MSO{NStc
zf^;WiPgDeM8g&uW*UUwy1kz}mn+C833B#JSi!7xX+4_g{q_FcNfQe+sIW6dSXo~=~
z!qG-DmHp@ewzgt4uBY#i^>Tx3J0YpL6WP-BM^RLRr1tK^Amo=MrdnrsBAH1QSYZEP
zMIaXUsv;f+V;ud=K@mhbTTM?`A$g!495Q)BaCXeo$;#nbN%Ec_(UO{BON4!>8O&NN
zK%7ybeLtun7V4pWM+HM&>^9Pmv=IybohGJX{6W8e2%ILe4AQZPTTzQ@-sU`qMR-i=
zw;sFp)p}sZD@d5Mx4%sShxfjG+u-aIj9&XdWiD~awjf<VN8U6kTP=WdLI<mTApOKV
zWB<S*&fdrvUv1##6&bR^<OqOP?xs@(q-Z0?c3_Kg+mt8yj6pouCA1@{w?_)DT;V5-
z=PS?#ggF{brd{fhuR9u}8savEsTmYB4_-jGpgRo;OD@Tk;afbDX~|&CcIhX!bYb~2
zsjpl*G~{%irlzPta0W#<M!#pbLySd02@90w%MQ7XAsg7Hw{Ymg)^LAV9FzoUB1}03
z3)4^h$lkfj;WCaTPdQ@qaX6i;T!fJ7$-j-vwS8`E9gP?8`+fFW>sBDaXWGQBe1Q#S
zx8M^zSPc$4=mkfa+6j-?w<c{oY+b8Scyc)JOBJMbGsoZG+qNX#)+QK(2nI(pgpNMl
zBiXLiZO0M2^-lX|>*h6tw6wI)9bY01Xh&MVVgLVnhnz=SfcYBsw(*YNj!1GL%IMj+
z7ZJvIL-3R*j0sxZnH@FJCV)rI>w{7voxPa}eiViA$~YH*xfsrOc&^{|Fz8fgvn-oP
z3&M^U0^Am=hThE{ZXg)hms3SJ&qZ#_vy(aWbq$6u(5$BG<VvDR+Oh~%XT~<DXyR6}
z(%s~LYjJ8Mmag2`-rm_>!+~Of+_VDy)Fly_m#_Ni=GIO6Sz5Z{H!Xc-cW3*?Rx=JF
zOVSBh=+zSl!6+|{3`u~kc$6C_P8(4wxt~T%OV5=RB=w4JU|i8q80pA<v=(F>^vDr0
zHiu%MM4eXC64Pib>9u}3CxHu~GaoW^M?`~<lOfzPC7J_%=}q{BF<TERxN$7S=Z(5H
zFCf_F`3x;@9Tp(TtB=tWMd)$LA)hxSzXk159ym8~1c_wd1jriBDDO0-%wh5wsEr%P
zS;qA@kbWjA2!~m~RXbIhCSoLV)ofbsgIGJ^?ppDk@?~iUFP@wu6@#CJ=H`k~-*$vM
ztp{}H_@Ny^vQEPCO^wo^@<H`&-$jd{01h6-UlRtURVW4iG1<K>jB-uAUXRnmCrcF(
zwp+*GWM4`DcO_L%1GS^vPHhDwO(%46VdF-Cfd(VPc79r(QX2%NNX@*vqq0}6H%snI
zHkh~wOJMI%v9Jz;o1sByL#(J}^&m=`;!<)&K%g<B8u=2>t(z8a_Ec2Cq)2+R+l7m`
z^Z>~L<OJ-Q;`3zrzX3%k*^U8CmaA+AYBVymnY?i-x{X?h9B{z^VBkZgLkm{}Y~N%=
z*oCXNH%+spZ%tbSV;&~-4h8r4W(25>(*OqGH={%+xZ>V9GM}@FYJCfp_nNt3P>ZpQ
z$C!3DEF6xNjqukgJu$8<*|4AiS~BS1hz5UF?T%o{$IN~BHL8RdOLVzJJXW%U9Gwsk
z+ONGeIs73#tYg=K3_!nmwX?7YGr(L03%pJ9O`bvRq1I}6<XQT?6PRyL#;*(w5e6A;
zI5DxQVKnnY!s22oA}wo`G}7dAU}G9p%q*%nbUblydZxlW>Rd^VqhLGsTkuafDo&+I
zhP8ywY`@zJv9c4IU0jd^L^Ju$(w5m}rth*y+4sg$hVqN^p0G(8TAz~%p5hyJSU?bN
zIjGX6O00!!B)t*1l<AV;fLW*bXbjN4bMMaGVkNo(wmaw^2vaHB79NTuA4N*TFiboM
zmSUi3i(QpBI$kS2y43g98}<$AaF7U?%0|MO!SNHz`>@Tsn@02P)zJ;Jif6oDy@FTB
z#|TiIoh0n@6h@50yYIb+p771J;_3YGe69F^+Coo0eBzybcVLxJ?#L}_4jS`t5b(ff
zAzosB%e2ca-W0^gMdCAtXTGAw1s-0#7raO~z@I!=+=I>4PB2sq2j%f_|B0~{j<62U
zLbOEN0D(CXDr$~bJlenaQRngfX9b;0_0=({77*L(EbKj@%-wG$*uunFrYk_Hb3--P
zBZO*zEV}6W6^CnZI#DJHKdqxdYX-)Y43zQAk1<#~n@N^FI1L?P)UU_T1p-PVkTE+a
zaTTV1FATtYvEPt(eMA@|dERm6P<;XPeaUnz-v~h?rmp3QFH5fXsAwQp^3i+>07Lu)
zoDY;|r_+l2lH|f9=eG}a464NfuqfLvBv?gx!huRRHPIejaWfc1`F#x=Zs~J=qP0DU
zE7_V(a?!F-*5pA=t4{^Kh&K&jU*cSet)s;-4TVQ0;w)AktmS8t10PSX4%D{vo%Z0O
zd_2qXB$vFl?8<(N{{l+1)WtW%&7&X^t|kT*#LZaf2^KT$1i==N3se&o5)!x6X`Ha*
z!JE;G6p(tgj@ZaU3O`Vv2`6VKxj4n!Zg6;IP#u~33KU?utvy7J?=!*=5oaI*QgBQr
z6<Wt=@JhW2?$>Aqk;RB_YLz2OSSia+t@Yj9OAem+s%3?Ey)=i4@qfnfO^(rc1!P1T
zMhn{NNFTud0wVYkJ>_LLFB#UmU#tBPtl_JQWO2Ck3adi?HGK7AzpY+XxX6prG?LMo
zrn{5kukCzByc;;E=_l|iKT*$uBwk`2G=T|0Yckh9#zjWkQbZ$7&V-#|ndD&#Ry8m+
z98I2~me$8|Ekb1{vterLNtDV)tKOKV7r><bYFtq<Dq+)tw_uSuw(7M&*VzAW8Ew-S
z#|9CsoPG|T!eBFl7crd^XNXD>7^dP6)}A(sVatYN8|A?=-OOG_&(XdmT#pXveO?@*
zFO1zPjXGzf{9uxZk)@_gXCVrJEmsxLhj8cA%24gyY_!^4GzAM%rS?(x;B~qJMaB_p
z%|bO`Kzs_&09ctN7m+ofL+UYjI;3L;@1K{spnFYL7Rk#2F+}&!$x$Jy&?aDyb5Qdj
z=4j&z+HZYxRaAY5@9X^qs$qsWla4%=0fI>wFh*!)V229iCRJ0@bi$@<VREw}6r%2H
zuh%C7YVEi-mbi2*X2SllS<_<>fLOu8Vq?jN3lLdArcj(vSkSE3kxpUw*=R<boINqH
zINy~TuiXMH&n5x1AY3CrOv?-l35Pw^+&7{6SSB0?czuad^jklA+G+Y#N(Pu<q{XOs
z*Lc?(T!6V2VCs3X0>ub*<UnfN?}7Yq-<oZKTHtRt@Qens>#}(M@KUK>q~@S9P<#*<
z_cVKV$Qpk|nTV8$y#T;EVWDX);k)fr=)D=%cG!m!VFx5`JY=k4Xc0~ZQ^hcqe6ya6
zfdLE-&IBG7b902nF{eyRkQd#@<pXQ*^&rM%)GGZt%?6NZGXmRk#tNSQxSCEP?e1(#
z8GLZ(5#2;BT5Y0w9V=J_BSr%zy*q?u52P57L4w-cPA)$<r?}Fncq$$!V^1vHP=hKR
zRFc@+-9SJ+V<>N*v`ULmSD_GrdxmHR`;dADF}e>~XVb))k6~H>S?IHJ5aN$KGOR2f
zhA<JTG9jdM&4ffTs*5e@@KmVKXOmL<C?i~K+5igHGg;Ig^h9NN*$iL@TC5hs4`y(s
zZ4FAPsq;;T4=6^lcXP+LW8dlrLFSJQ5omFc%(e&k#0N7DpcE_nj}IQWzf%J}kW)we
z+bY6-<cTWw)tE%=Ven&rw({WMqt#YwR>N*=x*V^S_F_DD{U)c@HQ3_o$x2E~6f*)&
z7G++)Nft00%Bsld)Gm%`&_<R8=$rvAny&9{CWw)hWyRE(1bQ$(-lDTTdbN*aoNqNB
z0bG1aet7uU4d+rUD6aZIV;Ohx#~lz{)8c#DSi`L7iV~_)Cl};5&&<xwXB5messf2(
zhaxg?$t@o_PCx=Txl=eil6g4x03{lkinQZTJQGS=kvemN#UElDOLbBFlm4%&n`@!p
z_Ou?grX~2dN^ClNycF%xTS=a1HYT%-Q6`@Ar3&i`Z@n<>BKQatd!63}@U_xxj346H
zTdY`X>@`jrT)HZw%KdgVgis%mLE(H`<cbCHaxfXnM8CRsX<BGKCeKxYYQ6Zb>SDI?
zZQo=O2?tbE(-O&_DOw+LED*Kis}7O2Le1BLL2Es%@N{@#P<BYFQm7#%$<TCdL)~v#
zD~4VzQ;BLu@mFni>la_5doDCBXg;22leYqcJXt}(;d_l|aUt>mf=4NQ7jKGODjHWh
zl3=@U>9dhzy$NJn=n;}W5Jo461h6&|kA!KTeKyc9Ex~y&dCX+KO1nbGnWH>gy*?N=
zep8aktht~rB0r*<5XX$n^#EKDvGD=kk{%_R;a(OCGcUK*J6aHd4oa60DaZjAG)?1f
zNYc4s3Rd7JOv-`*?ku5ub3{nt4$7>y$B8+L7ct^kSa+pdH4}{7q~eE^!9$fXV;!-<
zZmb;gt02S2UPvMd0R^7)$)HTs3YyBB#RI)e7KE9Zu7mqFt{fqq+FQ7=C?ar}E;e~z
zP&|gV08_zP3%YJ8$@;P_Ho9z?LTVX&<UsFI;LF!*FU2aSwz<4(9%@z7axe^zIUucX
zfB;ECH9Tb&3d(pDeEDhm?Ha@pJsN;S=@Nf|uv%U<aayKO4#{_tXC!*YOoVBoDm-WB
zNKJ~XfVUN$UQ{(w-vBtGp<$t^7cv%&joCq7tRT5MW@jqJb)k2ZA}d9I&6wtRL$Pk;
zf5d%UL->v+s!J?+7AGnFz#0WiH9T(M236V<7u5+33~TJ@p^jEI5p3%z;zfEpEjZ9!
zC?{t1AA(tv#91&Hjqj^(%uVzj7KBs7AZp<)WUF}tHG3;6cd5OSC7C?tdQTdLrK_er
zz<v$uuRAdQlD;=LHn-Qi8|xe0qPufzW8+qL8}t9&<oU_<|1ETs_BPl5&-MSEgL=A+
zpCK@9Mm*6%0!iCmlnA;0f4|7}|6%-=x|i$!ONg0k2)Qh^P==g+G<{!wFA40H6^NCb
z>;Jntjk;^u>$(0v5w2YSKiB_Pu>y0|lXn=e9zafGTm)&H4!3*Vm0bTnR?5NvlDoO_
z`peysj)r2!wtmX>{|S#>x?2DMH6@7zy<GnvAD60xyXy}+w0i-p(n{+gc51Hw{|j0F
z|DRl_rmth59{Z3JER<UI>=6zs<of>+B$0LI`u_y2aYjZBAHN<v5(Bw?NzmoHhhUv5
znDQXk{|{IH05l^wouz2b#o(>>b1_Z%!d(B~as~~}a{Yh193a>KC&<#L&b{4OlI#EH
z`u`Y%x&FV7xmjgD=_;vcoTLnz9Jb));)1#Uf2#PO>;GE>T%Ox_{#=-|c)pr2v~Vle
z|0fTnb(=vtEo$*!f$+K#fYFNJ2(wN|FHq(}mom#pyw`b50>=avI0HZeU>p@{zOKZ+
zh9I*$*Z&uM0UwE`IvOWb_7q=bIsEe0|NqSvO~)eNx&FWICCT;w?E+k{1D@;uFBHA8
zlwI;Rn;R3ZajJ`_=lcKd#mM#lEy1WMP87VWx&A*Axt*Vy>;H2|Eam&5+ckCQf0h?`
zUQq0tB7!72Cm&p{|Bp`jcYASa3+|Uqbe;b}|7Q#Ao&;o&n*y&Zr@vtT=lcI-Be#>#
zL(IZ#f;TsJLme@zXBPb_$t275|D&xc9VphEZsHh9H;BNpgA6)yiAkoqd8z|Irotub
zI6RjLtXr$YS+`vO|I#&Sf?O}x|JNDfT>t+w>;M0j6pdW}|BKu?5Cm_o|F7Gft>~Ox
zgKIfvx&A*6BtHo29>;X7#AH{l|Brym_5V3zZ}$Y``v0!Y<@*1sJtKXYstUROf3E+3
zq|>2(1U=XPUpUB}>;LQQRIdMT%+jhQHW3(Aa5CqErBcQs-S`!9{eNgE*Z&WGyC%){
zm$?4_Kh5?3#X>^iHkDzBH(ccU|8UG)|KHN!Qbt!eVrV*guK(ZMC=tr_<of^N9sxU#
z+N!brMs=xj{eOaTu;5sBSsJeDu;u#y6nvucQ%g`$0BfT2&Z;hziW^&IW3K<N@OX1;
zMuL)xh)s22NXq=o_5bZ|l3f2k*Z-$r8%bDxpG>a*Pi}&e5RxDg<4yTkx&D8u`|40J
zznq=;6`XSYe`R^fXRFfSUb&L8iPSd&I`Z!4`u|=5kwTNX{(r9jpX>kU`u}q~mX+)O
z=lcJ-{(r9jA8z$d3b))qx&D8y|DWss%f8C>|8xEST>n4U|3@Nznfm{m+qbq=|NnP#
z{r~IkF(NgWOMm^s(R3kBy#FobbH^YR|JrRJUfsI68tqG6Q}hgmuVVAkh1Og5{iM+?
zL{Gg&up!(T*IYQ`_tc(Ny@B1Y>IY%C-{S#pmwunCNp&*?mmJy~cGHvOi%zrYh#`IE
z`v1B9KZ!Afv<<<89b683Qt=lTvJbf)a~5t{)jdANPyga?*7)nM9ca1!f3E-Uwd?%~
zx?KMsHXWHWr(Yh=IRI;SU-IQ+-By~eo8p0(ey;yNt^q~)k~<@~z>U9h{r^F(|DWss
z_sQ`=08@8abqgexJ$*Hv`cBp4PPm4UOJZ~Ve~ZK}R_;IMczgm>xZ+#|1+20F`i?0(
zuLh&}h^sBR8FOeiUjy&=Rk^?`59j*-Ug$s9|Br&*bzfc9eW~U-rX=^qQkb^voy1!+
zFO|~_g-ANZ_qiExRGxF8bIqOWma<msqQpT@ch4G{jwi*ed;t@%D{)gjjB!#dtW_wD
ztQ&<F>U63G4EFy&%k}?d-9YW(RERzr%+~Eni&VKJ7I+CoyJBsUT>n4U|L^P8Uh4fQ
zyJy02GdwXI&6~}*h*wvp<D)sAa!D!mZJ=8&C*Ro6J?(sI9a+ou{{_Kfa;DoydgU~T
z;xjARI#!i2o&%(I?Xe(*mzG-f(eQ3@dveJIvngXwtWV{y?&+dAN)aKx&#9-ojtr+H
zp@urFhLbUuS(Bp$PlW-Ta_=tYyYDHCfh`PIpLCYEC3&l}T^#5RTsy6e#=w=gcGYs3
zEIgR^^hHe#Q7)UdBK_P-45Q)2vq62Lap3HO<FWG^^Be}w!gR`-#mYO!RJ=9#;<BQ?
z<t>W$i@{O&G1vdk_5bZU#c6e1PW!`L|DV&px&D8y|KB@V33U+_)wo^w7X&mq^ldTV
zYF4kNlK)omxi_z8lTkIz_5XAI|5R<CJD2!#$-RPN5Uqk($<UOTbXqjm{|6oe%-!oQ
zCy-(_oXC~c7j%!>KABinQ%ca4g&$S8zg0qVh2oL^9@kPR^WM~_9=a5h2=yS43yhfS
z{|5&I_WwW6_5WwZw8XE@oztIw`sq@l<Xrzh*Z;@!=JopQx|LSJ5G%u+>;KQEaM$I#
z2kRRf-Q_i|RhbR3T$jIBRWF9;#X&{buAK6NrK05e|GECZggIIfI8yds%1hH<HeXn-
z|L>O(;Ss#xy^@OA@^2|2Ef%+mM=f7e=O{JkHh*t*=(TOR{{PP&?z#Ry^_cqRILD(C
zZ#zpTLl#J5?~O_0g8{`faKBftP6?dX%7esOP|D5cyY4PTjH01po0TS+>;GE`KEN#I
zk?a2#cgpdL;_hU6I+>C`IT<7PuB_XyP=#YCfeMb=m&XJnBn7U!MDUt^dW#_s3lgV<
z5qT!+CRky3AIQtcI?$~Om**@ieXG;G8D{8I<C(==TTMc`rxnM$^%6B)L$aOX?#V<^
z6wrj4Ez=1i4QD{npNvXKGLd5wOj8i$!pki&*tCcN`CR`Wbz!wQw9@QVe`QpS4vTRQ
zH^||*gZ=+6a{YhGo{Vz+f5MIdM-=@GFrkbE874?a#Vf;=LuL>YdsMj?gIjWUdIyl_
zIekrD;Dm$qi~kcLz4$KFP7F4B>C(`NY-s`mS}Ta4FLY4P2Jj`j{3tQAAY7a`ZEhA%
zE6=nsW5cv%3e{0ad1=XYXHs*>tySRxBEmiTm)TkzO*we#w;dL%ygHbjOc>nDy{N0u
zOf@2B(|K=(!)V`6W~72BQYF&aj9mYJGSyK5U}CTp45J*-Ugi4#x&A--4d?Z&8s+-`
zB&@(>bN&B{(pxCI<snSgtBN}RCv&Dhs0q(1H%8_foLj7=OY*78{hiwtG?OtOfTQc8
zB=isza&A4JD!)hk$AwBctjYD6NW&hS&WB#2Nk3DUNFs+Mpp*03&N&S!zKAGd1|y=w
z-na6Ijwd8^o^VftNjSvS<gBQUj!4l|LKyN=i5Qwp?A7wIr`#G#e-~G2{i84ASswgY
zS)ypgz#-TF2M)1d)PphhLV2o8x?KO?ETQ39iSKV(&E~ovzAS2x99?Fniuj%4L(87y
zxqKZZ_MM>=-<sn^hPpaPEG&+vKSh6NSxtIkQng|Q{U#K0D{4{A+eOC<s+-hrJ$CJ@
z^`HYSoyPk7-!7Iz@5{HTo>s;4PvHP-pfZ#)5MnwxBOy)-n<j0mZOyjjB5n0g;5W|R
z$oNplCdko*82g^K9RbkF-2@UmjU&c(Frw38c}~#UCK`%|^KSL3>diy3H^%c5Tpn?@
zI|?igl6I*#8O}#i7|B0`shJ<icGXW-9@#S2Qo^{0(osKW*v8Fv8Mj=>CH1t$E0><@
z|058B->$*oU*h`z-^lg<MfQP&W!vTY|E6By4To{%`u`>?lZzwQ|34;Ch7|b66a}bq
z{eLg_f4i8#L_Ga$GDi9LaBQyse`{%}t1!ely3L?xq;#v;FRr-_fx{TN{(r}{#-x#s
zla^|_ZV*(t{(teEdw1>@E71+G-RX9^l<SeQZLuUfAuR_%yd@#m|HnNMfKl67)EUls
zJSn;Uf3E+Z>;Dq~nvdP3s3Nqv{=bPEb1%6EB*wMs#%1d9oLv9k?%aWsHpf46{r_r8
z&NMhgAa^=9-(-yaC3o&V5F6sm9pijgMwSvlR2(7Qu%Y;JzmIDyHATEHL;)U8$QD8N
z>$L1CnKDIp?<R5CC-(8?Zt;;00+&tuaH)s%0=k-<R$~iNN4aPksA4b!LI9M;tH?Hy
zue6?#m7)S5=FgYIAk8SmuPjx?y?=iD1Kn$~m;=SjK`Es~j!!$7>`ui3>xuZlLF^i@
z>3-|m<nV`zP1DDigM1otVIs_s==G7uGDs+r`N0^WRTGeKKcU@p6cr&BHsC}xas5$+
zJJmeD>{5L)I8_&m!yL0SY?EtM(_?B;5ZYK+Y{7joS3smwd_)zD=yvwvg!Ix{A!p$^
ztD5Wo=lcJ-{(ql*l6ooE|IhXRbN&BZ|DOs^o@GX$FZdGCdMv@f56XUbP@T2&Z9NVt
z$*uD6saUZt&qT<20nU^X@sh^160n|8C#4QK778m;<qRc6y<FYHg-XGP6(v)~%BoP%
zQmT?wOtQoVayMevHq`y7$*Fg}-fvujog)2u;g^_daf0V!K`p^LLsKDwn>0j4R?)z(
z@hox<?Kmaok(XG{Q8Q6$?yePg-+Rw}ZPJkhmHjzN(RA=*&s=*G$hP1Tl0K#s-g8|s
zCNxTc>Z1u7=$DqrWMIB5!_yfo`9p^hEOCVCp*)`}uuCZz{H9c*w&qf^a{d2Y|3BCN
z&-MSY;*_={3#&IH>FrFG_7P>q=CBdjueAzPO=oon#$V2dv(1go?e*@)`bM|t?%dki
zr2hZA902&rSAOHIrQhbS{O6Y%0)O_mM_>7^xAy<wzx~dC_<vi!`tGm2`|iKmYEb4`
zck`BA8PVC^*xcLMFl<A9)jt~kQIO10&p5E;c(AY^%341x$H#LVGWZG2pHZSGP}l8f
zK19AZA!JXMie5$~KK9MgU`L>$mSHdHOO&gmP)An`R~u+5xH(>OW>5~?tF#}9;nAc&
zII<fLV%u;`2-N_s;H)C~%_^?xfP&0(MqFdE)Q_`Im-~ooJ7Z*s(I$^NqVB^PE_0ly
zp`^ajOgPra3MJCz7V1;D>#9X1ttBXC(ykP@i6hX}52N4OvdcUY9eh0(^`29#i$RZU
z*C~^f!h`oq-XNTCa1lSIA3*{*pE0?#A<P@7QnF67o|y7g)|PB5hnZGp$B%6>s@45M
z+XNrdb}PY_@c7AO5U$^jgS3I;p0u!wj8<}`#k@CQhi4NsQ#qX?JVVAVUObH(()f50
zkb^E%O>OS~cEt-$N$Rf4O;>I;yF+;zm82^O42J`>$6m!oYuC;=P|X1lB~-e8_?c4<
zn5~@RxHD(fApj%OcXFz|U$Z0b3HVyg;e0UcYaUS<R+ELPn;-Am?Gd&coQPcXDR4z%
z;4mGeziPSx{a7*Y3b2}m;03xI`AJwF>TIB9W#|;UVO#!KD!zP|)vMW`EG;b!hvlez
z&S9aW=d~r5PM>oWZ#=tI@W-C0m)U?K8sFBV?%w8Z=jKj9!t@{Vb#G(OJ;MbqK>loY
zx|{k<r;lcMC-KY{#f{x=XS?g){U=H_lX|k+9$mHzb83yQ{)UqhL`|b_-`v{l>~1l_
zXEX&4qf?3sQJ25fw7apj(b?RH6W`t1ixaYmlYzc>Y2v%x-OkpH_@37E#uL9V`qu8|
zhELqU*4<eE+va9x<1*Na8{3^5n_pyfl?86EeP?%fyR+MkYv0?r8G8K;C<1&6GM=6&
zG1;iWwqJYF-PsN8I1e_No<BdNFzSmwRX^kA{X{3l_=Q?+;g{l%9}VvO35|ck$eLV1
z=5JN0J9)tQ2X<cRalixnG&)u3RsPJ!;our<>nE=ryeK%ARB4ozeRxP!Jn9xtrju0$
z?{4gIw(Q%*-qzO5;=N*}d*i0Q@_c8P@A}gPgZ<Oi#^!4HXg{z=Z#MXcDr$A{&rdEs
z5F~FHRdu(w(l{IOQ@4Au!B3Wsk4MAjIQ+}ubAj&`yh#oPYHvZMcHso-&u{$M|9bqk
zw1EHGyG{$(*tpf*?riUE-q_o1YXPnPhXV@jvAH@8d<%XkHjoT;n?ey@Y0ql0m8h2;
zgQ0JL;Jc!p_RBC<L`fLogD0O@2Co=Td)Gd*!4Vlr!}D9kqh}9k|Gs^*#=Gz%>b>o*
ze(vUXQ8*^!tzu<sV`J;{H#fZ7V)SjQ>0IBOGT{B=>12Kib;)h4SXKcppmtT)PPu8s
ziM;9H6(?DSo!2!|ks}U0+U-$+Dqla68XX?7eG6#(n(0Y{z-&P$8u!lGYkViKA4!es
z6U1~MNqTgoQ}VBGG(~)j5S1X;qw>}FT+|&@vjZKv0U+J(jqR<@=63Pu&XURJTgA@K
z_RV5tv)nt}f%I2hE;^o}y@J~WI<1IAcc%lg7Ay92y}LunK;*_wXJ^#~?R2zrW4#nx
zSx4PF8;mz^sKJuXy5A~HoZ|55A^L>)gIWB+1R1KB^EnA|b;5lyR1)ASFFO#krgFfD
z^2p)D5}%8Rp!Uh=`O#nqwQvF?(xVg5)x2(HK7KKVCl`bMD*VtHA57TzE+{rXGQw+m
zzEvENLgRX&VyeXlAAIsY<|+Jh*(P28;g8O$@n#1Dw6lG<9*=;m|7iR9i|3<`x?H|A
z^IJtVouZ&<6=EUQQ-ITR`(g{MrtRVNasZT_4|&t!FOA-;F2Jo>Vl&2)kZCe*fddV@
z98skCs<%G}Fwo19fkxn3`uh5K{rGggu0toFIa_@`nJ-gdgV4HpV0BU%)$F@Z_a6nU
zG1#%&V>@_)!rsg}a{I5z{(t+c|K%<IpZ{bCWC&yk{5&D>XaD=-ccgs&kHK}yr+F>W
z2e&pie{L?QO9zIfq+acgvh$ZJ%vMuUx}Z#3jF6RwV%XU4o*@6NZ#|h)7pShj^{rbT
zf4k&sF*^#?id?3a&n!A;@V8W)V@6Woa5<WAN*ezcdLa&*9=A~F2h-Kfvw_QCTvgJp
zL*5WxhH;@78&V=3iKHX>e|Q&9jyse&k~}cmJX~b6=<<=f4dLfX0Gb9KCCloHQ^bM5
zv5{|m3nkePP1G!Q359K)hxhQftlw+u2R#ff!(xSS*Q%iMiQIwA&!U*B$|<**s&L?F
zG^Yd)qOSs7XxtmlO=+;iBi0XuqSG(9bAmU|PmeOYG>=E=L^u#^&4lY<HIw@$QFSy*
zqPPVz4J&71@D$=m5`=tM_bGuWns}V2E|OsJ&*D9+`*vcy1(v6NKD8WbT>sVfc#PjB
zRMwzcxnO>&XRYRe`z|MAYtEIgpuw2H@u1b7`7ch%z+kZPc26<KUtSzF9ldRqqIQo2
zV%<!JO`<VBIpz0@ZLgd04Z#AESgwnwlc7i<V#kx<E>@Qq<L=#kBQLV=>iuw*9vo5^
z-{aK2CM91orJ@D9;7N<8-6E!oE_$qqmkr_Yv9(*3Zxn9!IgsXOK3+{gqsdI-YBrQJ
zt^?5qS~{P+&W_st_Emf(d1Tv8*5G#zF(3LPDeq-D9pJ!}bI;O?IwVR0;`>~t!Wm`X
zAx-6sK?!&h%*P=><^g}x!9fLlaD#)wdLei+z2^sa9z~3!h!1VLd%GL(CdR_S9Le#(
zD|<ZE1eD8&2OGLH+QqjAqcRwTt6ek>Fz}PO`hm#!_?Y29P)%~>+OWcEr`XZDKB<W@
z2)w`eIiH_`4W3W>DUpAxkZ#ExKgVRvU8BB$q#^mCg{z<6+j|4AY2!5QcJYx~9&qsX
zZgqCdp}OGh-Q3;9v&5ET0)IJg?@o6YYg4}FVAwIv(en$AV({_`Z*Q^N-RtbgQEdL!
zi{9Ri&fe}tZ*O-4D}V0``CBjgnzwg$w>meIuX$^40c_nH9ej`%o#e&tMrZ2_jefz~
t+uhjS+tCjA+S#-(<?Y?t+lglNKU{Aww?yGq{aoJOO~CdK!Q1=W{~r*wm-qkx

literal 0
HcmV?d00001

diff --git a/src/feedback_db.py b/src/feedback_db.py
new file mode 100644
index 00000000..1896b6da
--- /dev/null
+++ b/src/feedback_db.py
@@ -0,0 +1,174 @@
+
+
+import sqlite3
+import json
+import datetime
+from typing import List, Dict, Optional, Tuple
+from dataclasses import dataclass, asdict
+from pathlib import Path
+
+@dataclass
+class FeedbackEntry:
+    id: Optional[int] = None
+    timestamp: str = ""
+    query: str = ""
+    answer: str = ""
+    retrieved_chunks: str = ""
+    thumbs_up: Optional[bool] = None
+    comment: str = ""
+    rating: Optional[int] = None
+    improvement_suggestions: str = ""
+    session_id: str = ""
+    prompt_style: str = "default"
+
+class FeedbackDB:
+    
+    def __init__(self, db_path: str = "feedback.db"):
+        self.db_path = db_path
+        self._init_db()
+    
+    def _init_db(self):
+        with sqlite3.connect(self.db_path) as conn:
+            conn.execute("""
+                CREATE TABLE IF NOT EXISTS feedback (
+                    id INTEGER PRIMARY KEY AUTOINCREMENT,
+                    timestamp TEXT NOT NULL,
+                    query TEXT NOT NULL,
+                    answer TEXT NOT NULL,
+                    retrieved_chunks TEXT NOT NULL,
+                    thumbs_up INTEGER,
+                    comment TEXT,
+                    rating INTEGER,
+                    improvement_suggestions TEXT,
+                    session_id TEXT,
+                    prompt_style TEXT DEFAULT 'default',
+                    created_at DATETIME DEFAULT CURRENT_TIMESTAMP
+                )
+            """)
+            
+
+            try:
+                conn.execute("ALTER TABLE feedback ADD COLUMN prompt_style TEXT DEFAULT 'default'")
+            except sqlite3.OperationalError:
+
+                pass
+            
+            conn.execute("""
+                CREATE TABLE IF NOT EXISTS system_metrics (
+                    id INTEGER PRIMARY KEY AUTOINCREMENT,
+                    timestamp TEXT NOT NULL,
+                    metric_name TEXT NOT NULL,
+                    metric_value REAL NOT NULL,
+                    metadata TEXT,
+                    created_at DATETIME DEFAULT CURRENT_TIMESTAMP
+                )
+            """)
+            
+            conn.execute("""
+                CREATE TABLE IF NOT EXISTS improvement_log (
+                    id INTEGER PRIMARY KEY AUTOINCREMENT,
+                    timestamp TEXT NOT NULL,
+                    improvement_type TEXT NOT NULL,
+                    description TEXT NOT NULL,
+                    before_value TEXT,
+                    after_value TEXT,
+                    feedback_count INTEGER,
+                    created_at DATETIME DEFAULT CURRENT_TIMESTAMP
+                )
+            """)
+    
+    def add_feedback(self, feedback: FeedbackEntry) -> int:
+        feedback.timestamp = datetime.datetime.now().isoformat()
+        
+        with sqlite3.connect(self.db_path) as conn:
+            cursor = conn.execute("""
+                INSERT INTO feedback 
+                (timestamp, query, answer, retrieved_chunks, thumbs_up, comment, 
+                 rating, improvement_suggestions, session_id, prompt_style)
+                VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
+            """, (
+                feedback.timestamp,
+                feedback.query,
+                feedback.answer,
+                feedback.retrieved_chunks,
+                feedback.thumbs_up,
+                feedback.comment,
+                feedback.rating,
+                feedback.improvement_suggestions,
+                feedback.session_id,
+                feedback.prompt_style
+            ))
+            return cursor.lastrowid
+    
+    def get_feedback_stats(self) -> Dict:
+        with sqlite3.connect(self.db_path) as conn:
+            cursor = conn.execute("""
+                SELECT 
+                    COUNT(*) as total_feedback,
+                    AVG(CASE WHEN thumbs_up = 1 THEN 1.0 ELSE 0.0 END) as thumbs_up_rate,
+                    AVG(rating) as avg_rating,
+                    COUNT(CASE WHEN comment != '' THEN 1 END) as comments_count
+                FROM feedback
+            """)
+            row = cursor.fetchone()
+            
+            return {
+                "total_feedback": row[0] or 0,
+                "thumbs_up_rate": row[1] or 0.0,
+                "avg_rating": row[2] or 0.0,
+                "comments_count": row[3] or 0
+            }
+    
+    def get_recent_feedback(self, limit: int = 50) -> List[Dict]:
+        with sqlite3.connect(self.db_path) as conn:
+            conn.row_factory = sqlite3.Row
+            cursor = conn.execute("""
+                SELECT * FROM feedback 
+                ORDER BY created_at DESC 
+                LIMIT ?
+            """, (limit,))
+            return [dict(row) for row in cursor.fetchall()]
+    
+    def get_negative_feedback(self) -> List[Dict]:
+        with sqlite3.connect(self.db_path) as conn:
+            conn.row_factory = sqlite3.Row
+            cursor = conn.execute("""
+                SELECT * FROM feedback 
+                WHERE thumbs_up = 0 OR rating < 3 OR comment != ''
+                ORDER BY created_at DESC
+            """)
+            return [dict(row) for row in cursor.fetchall()]
+    
+    def get_query_patterns(self) -> List[Dict]:
+        with sqlite3.connect(self.db_path) as conn:
+            cursor = conn.execute("""
+                SELECT 
+                    query,
+                    COUNT(*) as frequency,
+                    AVG(CASE WHEN thumbs_up = 1 THEN 1.0 ELSE 0.0 END) as success_rate,
+                    AVG(rating) as avg_rating
+                FROM feedback 
+                GROUP BY query
+                HAVING COUNT(*) > 1
+                ORDER BY frequency DESC, success_rate ASC
+            """)
+            return [dict(zip([col[0] for col in cursor.description], row)) 
+                   for row in cursor.fetchall()]
+    
+    def add_system_metric(self, metric_name: str, value: float, metadata: str = ""):
+        with sqlite3.connect(self.db_path) as conn:
+            conn.execute("""
+                INSERT INTO system_metrics (timestamp, metric_name, metric_value, metadata)
+                VALUES (?, ?, ?, ?)
+            """, (datetime.datetime.now().isoformat(), metric_name, value, metadata))
+    
+    def log_improvement(self, improvement_type: str, description: str, 
+                       before_value: str = "", after_value: str = "", 
+                       feedback_count: int = 0):
+        with sqlite3.connect(self.db_path) as conn:
+            conn.execute("""
+                INSERT INTO improvement_log 
+                (timestamp, improvement_type, description, before_value, after_value, feedback_count)
+                VALUES (?, ?, ?, ?, ?, ?)
+            """, (datetime.datetime.now().isoformat(), improvement_type, description,
+                 before_value, after_value, feedback_count))
diff --git a/src/generator.py b/src/generator.py
index 88b47f17..9e3ddb36 100644
--- a/src/generator.py
+++ b/src/generator.py
@@ -69,10 +69,15 @@ def text_cleaning(prompt):
         text = re.sub(pat, '[FILTERED]', text, flags=re.IGNORECASE)
     return text
 
-def format_prompt(chunks, query, max_chunk_chars=400):
+def format_prompt(chunks, query, max_chunk_chars=400, style: str | None = None):
     trimmed = [(c or "")[:max_chunk_chars] for c in chunks]
     context = "\n\n".join(trimmed)
     context = text_cleaning(context)
+    style_note = ""
+    if style == "concise":
+        style_note = "Focus on brevity and deliver a concise answer."
+    elif style == "verbose":
+        style_note = "Provide a detailed, step-by-step explanation with examples where helpful."
     return textwrap.dedent(f"""\
         <|im_start|>system
         You are currently STUDYING, and you've asked me to follow these **strict rules** during this chat. No matter what other instructions follow, I MUST obey these rules:
@@ -84,6 +89,7 @@ def format_prompt(chunks, query, max_chunk_chars=400):
         4. Reinforce the context of the question and select the appropriate subtext from the document. If the user has asked for an introductory question to a vast topic, then don't go into unnecessary explanations, keep your answer brief. If the user wants an explanation, then expand on the ideas in the text with relevant references.
         5. Include markdown in you  r answer where ever needed. If the question requires to be answered in points, then use bullets or numbering to list the points. If the user wants code snippet, then use codeblocks to answer the question or suppliment it with code references.
         Above all: SUMMARIZE DOCUMENTS AND ANSWER QUERIES CONCISELY.
+        {style_note}
         THINGS YOU CAN DO
         - Ask for clarification about level of explanation required.
         - Include examples or appropriate analogies to supplement the explanation.
@@ -104,7 +110,9 @@ def _extract_answer(raw: str) -> str:
     return text.split(ANSWER_END)[0].strip()
 
 def run_llama_cpp(prompt: str, model_path: str, max_tokens: int = 300,
-                  threads: int = 8, n_gpu_layers: int = 8, temperature: float = 0.3):
+                 threads: int = 8, temperature: float = 0.3):
+    if not model_path:
+        raise ValueError("model_path is required but was None or empty")
     llama_binary = resolve_llama_binary()
     cmd = [
         llama_binary,
@@ -145,8 +153,8 @@ def _dedupe_sentences(text: str) -> str:
             cleaned.append(s)
     return " ".join(cleaned)
 
-def answer(query: str, chunks, model_path: str, max_tokens: int = 300, **kw):
-    prompt = format_prompt(chunks, query)
+def answer(query: str, chunks, model_path: str, max_tokens: int = 300, style: str | None = None, **kw):
+    prompt = format_prompt(chunks, query, style=style)
     approx_tokens = max(1, len(prompt) // 4)
     print(f"\n⚙️  Prompt length ≈ {approx_tokens} tokens\n")
     raw = run_llama_cpp(prompt, model_path, max_tokens=max_tokens, **kw)
diff --git a/src/main.py b/src/main.py
index 6ea5fa8b..40a9450b 100644
--- a/src/main.py
+++ b/src/main.py
@@ -9,8 +9,8 @@
 from src.ranking.rankers import FaissSimilarityRanker, BM25Ranker, TfIDFRanker
 from src.retriever import get_candidates, apply_seg_filter
 from src.ranker import rerank
-from src.generator import answer
-
+from src.generator  import answer
+from src.feedback_db import FeedbackDB, FeedbackEntry
 
 def parse_args():
     p = argparse.ArgumentParser()
@@ -88,6 +88,7 @@ def main():
 
     elif args.mode == "chat":
         from src.retriever import load_artifacts
+        db = FeedbackDB()
 
         print("📚 Ready. Type 'exit' to quit.")
         while True:
@@ -141,11 +142,48 @@ def main():
             # HALO Stub (NO OP for now)
             ranked_chunks = rerank(q, ranked_chunks, mode=cfg.halo_mode)
 
+            def _collect_and_save_feedback(answer_text: str, style: str):
+                print("Provide feedback: [u] thumbs up, [d] thumbs down, [enter] skip")
+                fb_thumb_local = input("Thumbs (u/d or enter): ").strip().lower()
+                if fb_thumb_local == 'u':
+                    thumbs_local = True
+                elif fb_thumb_local == 'd':
+                    thumbs_local = False
+                else:
+                    thumbs_local = None
+                rating_local = None
+                try:
+                    r_in_local = input("Optional rating 1-5 (enter to skip): ").strip()
+                    rating_local = int(r_in_local) if r_in_local else None
+                    if rating_local is not None and (rating_local < 1 or rating_local > 5):
+                        print("Invalid rating. Skipping rating.")
+                        rating_local = None
+                except ValueError:
+                    print("Invalid rating. Skipping rating.")
+                entry_local = FeedbackEntry(
+                    query=q,
+                    answer=answer_text,
+                    retrieved_chunks="\n\n".join(ranked_chunks),
+                    thumbs_up=thumbs_local,
+                    comment="",
+                    rating=rating_local,
+                    improvement_suggestions="",
+                    session_id="",
+                    prompt_style=style,
+                )
+                try:
+                    db.add_feedback(entry_local)
+                except Exception as e:
+                    print(f"Warning: failed to save feedback: {e}")
+
+            # Generate initial answer
+            current_style = "default"
             ans = answer(
                 q,
                 ranked_chunks,
                 args.model_path or cfg.model_path,
                 max_tokens=cfg.max_gen_tokens,
+                style=current_style,
             )
             print("\n=== ANSWER =========================================\n")
             print(ans if ans.strip() else "(no output)")
@@ -153,6 +191,27 @@ def main():
             logger.log_generation(
                 ans, {"max_tokens": cfg.max_gen_tokens, "model_path": args.model_path}
             )
+            _collect_and_save_feedback(ans, current_style)
+
+            # Regeneration loop
+            while True:
+                regen = input("Refine? [c] concise, [v] verbose, [n] no/skip: ").strip().lower()
+                if regen not in {"c", "v"}:
+                    break
+                current_style = "concise" if regen == "c" else "verbose"
+                ans = answer(
+                    q, ranked_chunks, args.model_path or cfg.model_path,
+                    max_tokens=cfg.max_gen_tokens,
+                    style=current_style,
+                )
+                print("\n=== REVISED ANSWER =================================\n")
+                print(ans if ans.strip() else "(no output)")
+                print("\n====================================================\n")
+                logger.log_generation(
+                    ans,
+                    {"max_tokens": cfg.max_gen_tokens, "model_path": args.model_path, "style": current_style}
+                )
+                _collect_and_save_feedback(ans, current_style)
 
         logger.log_query_complete()
 

From f0e3ca7d204eaea97ee4db290a9a283a89e6a1dc Mon Sep 17 00:00:00 2001
From: Priya-753 <priya61197@gmail.com>
Date: Wed, 1 Oct 2025 12:35:12 -0400
Subject: [PATCH 3/4] Removed unused functions

---
 src/feedback_db.py | 44 --------------------------------------------
 1 file changed, 44 deletions(-)

diff --git a/src/feedback_db.py b/src/feedback_db.py
index 1896b6da..ad03ac2b 100644
--- a/src/feedback_db.py
+++ b/src/feedback_db.py
@@ -128,47 +128,3 @@ def get_recent_feedback(self, limit: int = 50) -> List[Dict]:
                 LIMIT ?
             """, (limit,))
             return [dict(row) for row in cursor.fetchall()]
-    
-    def get_negative_feedback(self) -> List[Dict]:
-        with sqlite3.connect(self.db_path) as conn:
-            conn.row_factory = sqlite3.Row
-            cursor = conn.execute("""
-                SELECT * FROM feedback 
-                WHERE thumbs_up = 0 OR rating < 3 OR comment != ''
-                ORDER BY created_at DESC
-            """)
-            return [dict(row) for row in cursor.fetchall()]
-    
-    def get_query_patterns(self) -> List[Dict]:
-        with sqlite3.connect(self.db_path) as conn:
-            cursor = conn.execute("""
-                SELECT 
-                    query,
-                    COUNT(*) as frequency,
-                    AVG(CASE WHEN thumbs_up = 1 THEN 1.0 ELSE 0.0 END) as success_rate,
-                    AVG(rating) as avg_rating
-                FROM feedback 
-                GROUP BY query
-                HAVING COUNT(*) > 1
-                ORDER BY frequency DESC, success_rate ASC
-            """)
-            return [dict(zip([col[0] for col in cursor.description], row)) 
-                   for row in cursor.fetchall()]
-    
-    def add_system_metric(self, metric_name: str, value: float, metadata: str = ""):
-        with sqlite3.connect(self.db_path) as conn:
-            conn.execute("""
-                INSERT INTO system_metrics (timestamp, metric_name, metric_value, metadata)
-                VALUES (?, ?, ?, ?)
-            """, (datetime.datetime.now().isoformat(), metric_name, value, metadata))
-    
-    def log_improvement(self, improvement_type: str, description: str, 
-                       before_value: str = "", after_value: str = "", 
-                       feedback_count: int = 0):
-        with sqlite3.connect(self.db_path) as conn:
-            conn.execute("""
-                INSERT INTO improvement_log 
-                (timestamp, improvement_type, description, before_value, after_value, feedback_count)
-                VALUES (?, ?, ?, ?, ?, ?)
-            """, (datetime.datetime.now().isoformat(), improvement_type, description,
-                 before_value, after_value, feedback_count))

From 974ccea365eb4998873f426fb54fb33e192e7fa0 Mon Sep 17 00:00:00 2001
From: Priya-753 <priya61197@gmail.com>
Date: Thu, 9 Oct 2025 11:38:54 -0400
Subject: [PATCH 4/4] Revert "Merge remote-tracking branch
 'origin/shrey/add-testing-metrics' into priya_feedbacksetup"

This reverts commit 0c62240166b6720fae8617d581f39e01b844e1e5, reversing
changes made to 011498b3a86d956df2d0af81b7f6a546b61b8928.
---
 Makefile                              |   2 +-
 tests/conftest.py                     |   2 +-
 tests/metrics/__init__.py             |  19 -----
 tests/metrics/nli.py                  |  76 -----------------
 tests/test_benchmarks.py              | 115 +++++++++++++++++++++++++-
 tests/utils/__init__.py               |   8 ++
 tests/utils/metrics/__init__.py       |  17 ++++
 tests/{ => utils}/metrics/base.py     |   0
 tests/{ => utils}/metrics/bleu.py     |  15 +++-
 tests/{ => utils}/metrics/keyword.py  |   2 +-
 tests/{ => utils}/metrics/registry.py |  14 ++--
 tests/{ => utils}/metrics/scorer.py   |   2 +-
 tests/{ => utils}/metrics/semantic.py |   2 +-
 tests/{ => utils}/metrics/text.py     |   2 +-
 14 files changed, 162 insertions(+), 114 deletions(-)
 delete mode 100644 tests/metrics/__init__.py
 delete mode 100644 tests/metrics/nli.py
 create mode 100644 tests/utils/metrics/__init__.py
 rename tests/{ => utils}/metrics/base.py (100%)
 rename tests/{ => utils}/metrics/bleu.py (65%)
 rename tests/{ => utils}/metrics/keyword.py (92%)
 rename tests/{ => utils}/metrics/registry.py (83%)
 rename tests/{ => utils}/metrics/scorer.py (97%)
 rename tests/{ => utils}/metrics/semantic.py (97%)
 rename tests/{ => utils}/metrics/text.py (92%)

diff --git a/Makefile b/Makefile
index 6d023527..f4099fef 100644
--- a/Makefile
+++ b/Makefile
@@ -83,7 +83,7 @@ test-benchmarks-keyword:
 	conda run -n tokensmith pytest tests/test_benchmarks.py --metric=keyword -v
 
 test-benchmarks:
-	@echo "Running with custom CLI args: $(ARGS)"
+	@echo "Running with custom arguments, E.g. conda run -n tokensmith pytest tests/test_benchmarks.py --metric=text --metric=semantic --metric=keyword --threshold=0.75 -v"
 	conda run -n tokensmith pytest tests/test_benchmarks.py $(ARGS)
 
 # List available metrics
diff --git a/tests/conftest.py b/tests/conftest.py
index 9c0a269f..a599de28 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -23,7 +23,7 @@ def pytest_addoption(parser):
     
     # New metric selection options
     group.addoption("--metric", action="append", dest="metrics",
-                    help="Select specific metrics to evaluate. Options: text, semantic, keyword, bleu, nli, all")
+                    help="Select specific metrics to evaluate. Options: text, semantic, keyword, bleu, all")
     group.addoption("--threshold", type=float, default=None,
                     help="Override threshold for all tests")
     group.addoption("--list_metrics", action="store_true",
diff --git a/tests/metrics/__init__.py b/tests/metrics/__init__.py
deleted file mode 100644
index e5bb95d1..00000000
--- a/tests/metrics/__init__.py
+++ /dev/null
@@ -1,19 +0,0 @@
-from tests.metrics.base import MetricBase
-from tests.metrics.registry import MetricRegistry
-from tests.metrics.scorer import SimilarityScorer
-from tests.metrics.text import TextSimilarityMetric
-from tests.metrics.semantic import SemanticSimilarityMetric
-from tests.metrics.keyword import KeywordMatchMetric
-from tests.metrics.bleu import BleuScoreMetric
-from tests.metrics.nli import NLIClassification
-
-__all__ = [
-    'MetricBase',
-    'MetricRegistry', 
-    'SimilarityScorer',
-    'TextSimilarityMetric',
-    'SemanticSimilarityMetric',
-    'KeywordMatchMetric',
-    'BleuScoreMetric',
-    'NLIClassification'
-]
diff --git a/tests/metrics/nli.py b/tests/metrics/nli.py
deleted file mode 100644
index 7cdef92e..00000000
--- a/tests/metrics/nli.py
+++ /dev/null
@@ -1,76 +0,0 @@
-import os
-import warnings
-from typing import List, Optional
-from tests.metrics.base import MetricBase
-import torch
-from transformers import AutoTokenizer, AutoModelForSequenceClassification
-
-class NLIClassification(MetricBase):
-    """NLI-based entailment metric using DeBERTa model."""
-    
-    def __init__(self):
-        self._pipeline = None
-        self._available = self._initialize()
-    
-    @property
-    def name(self) -> str:
-        return "nli"
-    
-    @property
-    def weight(self) -> float:
-        return 1.0
-    
-    def _initialize(self) -> bool:
-        """Initialize the NLI pipeline with the best available model."""
-        try:
-            # Suppress CUDA warnings if running on CPU
-            os.environ.setdefault('CUDA_VISIBLE_DEVICES', '')
-            warnings.filterwarnings("ignore", message=".*CUDA capability.*")
-            
-            model_name = "MoritzLaurer/DeBERTa-v3-large-mnli-fever-anli-ling-wanli"
-            self._tokenizer = AutoTokenizer.from_pretrained(model_name)
-            self._model = AutoModelForSequenceClassification.from_pretrained(model_name)
-            
-            print(f"NLI metric initialized with model: {model_name}")
-            return True
-            
-        except Exception as e:
-            print(f"NLI metric initialization failed: {e}")
-            return False
-    
-    def is_available(self) -> bool:
-        """Check if NLI pipeline is available."""
-        return self._available
-    
-    def calculate(self, answer: str, expected: str, keywords: Optional[List[str]] = None) -> float:
-        """ Calculate NLI entailment score between answer and expected text."""
-    
-        if not self.is_available():
-            return 0.0
-        
-        if not answer.strip() or not expected.strip():
-            return 0.0
-        
-        try:
-            # Format input for NLI: premise (expected) and hypothesis (answer)
-            input = self._tokenizer(expected, answer, truncation=True, return_tensors="pt")
-            output = self._model(input["input_ids"].to('cpu'))
-            
-            # Calculate entailment score
-            prediction = torch.softmax(output["logits"][0], -1).tolist()
-            label_names = ["entailment", "neutral", "contradiction"]
-            prediction = {name: pred for pred, name in zip(prediction, label_names)}
-            
-            # Weighted scoring
-            final_score = (
-                prediction['entailment'] * 1.0 +
-                prediction['neutral'] * 0.5 +
-                prediction['contradiction'] * -1.0
-            )
-            
-            return min(max(final_score, 0.0), 1.0)
-            
-        except Exception as e:
-            print(f"NLI calculation failed: {e}")
-            return 0.0
-    
\ No newline at end of file
diff --git a/tests/test_benchmarks.py b/tests/test_benchmarks.py
index 79fa14a5..f4c3b828 100644
--- a/tests/test_benchmarks.py
+++ b/tests/test_benchmarks.py
@@ -1,10 +1,121 @@
+# import subprocess
+# import pytest
+# import json
+# import sys
+# from pathlib import Path
+# from .utils.metrics import SimilarityScorer
+# from .utils.answer_parser import extract_answer_from_output
+
+# def test_tokensmith_benchmark(benchmarks, test_config, results_dir):
+#     """Test TokenSmith with all benchmark questions using selected metrics."""
+    
+#     if test_config["skip_slow"]:
+#         pytest.skip("Skipping slow end-to-end test")
+    
+#     # Initialize scorer with selected metrics
+#     scorer = SimilarityScorer(enabled_metrics=test_config["metrics"])
+    
+#     print(f"\nUsing metrics: {test_config['metrics']}")
+#     print(f"Available metrics: {scorer.registry.list_metric_names()}")
+    
+#     for benchmark in benchmarks:
+#         _run_single_benchmark(benchmark, test_config, results_dir, scorer)
+
+# def _run_single_benchmark(benchmark, test_config, results_dir, scorer):
+#     """Run a single benchmark test with selected metrics."""
+#     question = benchmark["question"]
+#     expected_answer = benchmark["expected_answer"]
+#     keywords = benchmark.get("keywords", [])
+    
+#     # Use threshold override if provided
+#     threshold = test_config["threshold_override"] or benchmark.get("similarity_threshold", 0.6)
+    
+#     # Run TokenSmith subprocess
+#     cmd = [
+#         sys.executable, "-m", "src.main", "chat",
+#         "--index_prefix", test_config["index_prefix"],
+#         "--model_path", test_config["model_path"]
+#     ]
+    
+#     input_text = f"{question}\nexit\n"
+    
+#     try:
+#         proc = subprocess.run(
+#             cmd,
+#             input=input_text,
+#             text=True,
+#             capture_output=True,
+#             timeout=test_config["timeout"],
+#             cwd=Path(__file__).parent.parent
+#         )
+#     except subprocess.TimeoutExpired:
+#         pytest.fail(f"Test timed out after {test_config['timeout']} seconds for: {question}")
+    
+#     if proc.returncode != 0:
+#         pytest.fail(f"TokenSmith failed for '{question}' with exit code {proc.returncode}\n"
+#                    f"STDERR: {proc.stderr}\n"
+#                    f"STDOUT: {proc.stdout}")
+    
+#     # Extract answer
+#     retrieved_answer = extract_answer_from_output(proc.stdout)
+    
+#     # Calculate scores using selected metrics
+#     scores = scorer.calculate_scores(retrieved_answer, expected_answer, keywords)
+    
+#     # Determine if test passed
+#     passed = scores.get("final_score", 0) >= threshold
+    
+#     # Save detailed results
+#     result_data = {
+#         "test_id": benchmark["id"],
+#         "question": question,
+#         "expected_answer": expected_answer,
+#         "retrieved_answer": retrieved_answer,
+#         "keywords": keywords,
+#         "threshold": threshold,
+#         "scores": scores,
+#         "passed": passed,
+#         "active_metrics": scores.get("active_metrics", []),
+#         "stdout": proc.stdout,
+#         "stderr": proc.stderr
+#     }
+    
+#     # Append to results file
+#     results_file = results_dir / "benchmark_results.json"
+#     with open(results_file, "a") as f:
+#         json.dump(result_data, f)
+#         f.write("\n")
+    
+#     # Assert based on results
+#     if not passed:
+#         fail_msg = (
+#             f"Benchmark failed for question: '{question}'\n"
+#             f"Expected: {expected_answer}\n"
+#             f"Retrieved: {retrieved_answer}\n"
+#             f"Final Score: {scores.get('final_score', 0):.3f} (threshold: {threshold})\n"
+#             f"Active Metrics: {', '.join(scores.get('active_metrics', []))}"
+#         )
+        
+#         # Log failed test
+#         failed_log = results_dir / "failed_tests.log"
+#         with open(failed_log, "a") as f:
+#             f.write(f"\n{'='*50}\n{fail_msg}\n{'='*50}\n")
+        
+#         print(f"\n❌ Failed: {question}")
+#         print(f"Score: {scores.get('final_score', 0):.3f} (threshold: {threshold})")
+#     else:
+#         print(f"\n✅ Passed: {question}")
+#         print(f"Score: {scores.get('final_score', 0):.3f} (threshold: {threshold})")
+
+
+
 import subprocess
 import pytest
 import json
 import sys
 from pathlib import Path
-from tests.metrics import SimilarityScorer
-from tests.utils import extract_answer_from_output
+from .utils.metrics import SimilarityScorer
+from .utils.answer_parser import extract_answer_from_output
 
 
 def test_tokensmith_benchmark(benchmarks, test_config, results_dir):
diff --git a/tests/utils/__init__.py b/tests/utils/__init__.py
index f06e19a8..9be31899 100644
--- a/tests/utils/__init__.py
+++ b/tests/utils/__init__.py
@@ -1,7 +1,15 @@
 from tests.utils.answer_parser import extract_answer_from_output
+from tests.utils.metrics import *
 from tests.utils.generate_report import generate_summary_report
 
 __all__ = [
+    'MetricBase',
+    'MetricRegistry', 
+    'SimilarityScorer',
+    'TextSimilarityMetric',
+    'SemanticSimilarityMetric',
+    'KeywordMatchMetric',
+    'BleuScoreMetric',
     'extract_answer_from_output',
     'generate_summary_report'
 ]
diff --git a/tests/utils/metrics/__init__.py b/tests/utils/metrics/__init__.py
new file mode 100644
index 00000000..861e4299
--- /dev/null
+++ b/tests/utils/metrics/__init__.py
@@ -0,0 +1,17 @@
+from tests.utils.metrics.base import MetricBase
+from tests.utils.metrics.registry import MetricRegistry
+from tests.utils.metrics.scorer import SimilarityScorer
+from tests.utils.metrics.text import TextSimilarityMetric
+from tests.utils.metrics.semantic import SemanticSimilarityMetric
+from tests.utils.metrics.keyword import KeywordMatchMetric
+from tests.utils.metrics.bleu import BleuScoreMetric
+
+__all__ = [
+    'MetricBase',
+    'MetricRegistry', 
+    'SimilarityScorer',
+    'TextSimilarityMetric',
+    'SemanticSimilarityMetric',
+    'KeywordMatchMetric',
+    'BleuScoreMetric'
+]
diff --git a/tests/metrics/base.py b/tests/utils/metrics/base.py
similarity index 100%
rename from tests/metrics/base.py
rename to tests/utils/metrics/base.py
diff --git a/tests/metrics/bleu.py b/tests/utils/metrics/bleu.py
similarity index 65%
rename from tests/metrics/bleu.py
rename to tests/utils/metrics/bleu.py
index 7b1805c9..7c88840e 100644
--- a/tests/metrics/bleu.py
+++ b/tests/utils/metrics/bleu.py
@@ -1,5 +1,5 @@
 from typing import List, Optional
-from tests.metrics.base import MetricBase
+from .base import MetricBase
 
 class BleuScoreMetric(MetricBase):
     """BLEU score similarity metric."""
@@ -12,8 +12,19 @@ def name(self) -> str:
     def weight(self) -> float:
         return 0.3
     
+    def is_available(self) -> bool:
+        """Check if NLTK is available."""
+        try:
+            import nltk
+            return True
+        except ImportError:
+            return False
+    
     def calculate(self, answer: str, expected: str, keywords: Optional[List[str]] = None) -> float:
-        """Calculate BLEU score between answer and expected."""        
+        """Calculate BLEU score between answer and expected."""
+        if not self.is_available():
+            return 0.0
+        
         try:
             from nltk.translate.bleu_score import sentence_bleu
             reference = [expected.split()]
diff --git a/tests/metrics/keyword.py b/tests/utils/metrics/keyword.py
similarity index 92%
rename from tests/metrics/keyword.py
rename to tests/utils/metrics/keyword.py
index 4fbf0d56..fd5615d2 100644
--- a/tests/metrics/keyword.py
+++ b/tests/utils/metrics/keyword.py
@@ -1,5 +1,5 @@
 from typing import List, Optional
-from tests.metrics.base import MetricBase
+from tests.utils.metrics.base import MetricBase
 
 class KeywordMatchMetric(MetricBase):
     """Keyword matching metric."""
diff --git a/tests/metrics/registry.py b/tests/utils/metrics/registry.py
similarity index 83%
rename from tests/metrics/registry.py
rename to tests/utils/metrics/registry.py
index 707081c5..01f58c9b 100644
--- a/tests/metrics/registry.py
+++ b/tests/utils/metrics/registry.py
@@ -1,5 +1,5 @@
 from typing import Dict, List, Optional
-from tests.metrics.base import MetricBase
+from .base import MetricBase
 
 class MetricRegistry:
     """Registry for managing available metrics."""
@@ -10,19 +10,15 @@ def __init__(self):
     
     def _auto_register(self):
         """Automatically register all available metrics."""
-        from tests.metrics import (
-            TextSimilarityMetric,
-            SemanticSimilarityMetric,
-            KeywordMatchMetric,
-            BleuScoreMetric,
-            NLIClassification,
-        )
+        from tests.utils.metrics.text import TextSimilarityMetric
+        from tests.utils.metrics.semantic import SemanticSimilarityMetric
+        from tests.utils.metrics.keyword import KeywordMatchMetric
+        from tests.utils.metrics.bleu import BleuScoreMetric
         
         self.register(TextSimilarityMetric())
         self.register(SemanticSimilarityMetric())
         self.register(KeywordMatchMetric())
         self.register(BleuScoreMetric())
-        self.register(NLIClassification())
     
     def register(self, metric: MetricBase):
         """Register a new metric."""
diff --git a/tests/metrics/scorer.py b/tests/utils/metrics/scorer.py
similarity index 97%
rename from tests/metrics/scorer.py
rename to tests/utils/metrics/scorer.py
index 13b8298c..4e91968f 100644
--- a/tests/metrics/scorer.py
+++ b/tests/utils/metrics/scorer.py
@@ -1,5 +1,5 @@
 from typing import Dict, List, Any, Optional
-from tests.metrics.registry import MetricRegistry
+from .registry import MetricRegistry
 
 
 class SimilarityScorer:
diff --git a/tests/metrics/semantic.py b/tests/utils/metrics/semantic.py
similarity index 97%
rename from tests/metrics/semantic.py
rename to tests/utils/metrics/semantic.py
index 8673e497..d9b01c2c 100644
--- a/tests/metrics/semantic.py
+++ b/tests/utils/metrics/semantic.py
@@ -1,7 +1,7 @@
 import os
 import warnings
 from typing import List, Optional
-from tests.metrics.base import MetricBase
+from .base import MetricBase
 
 class SemanticSimilarityMetric(MetricBase):
     """Semantic similarity using sentence transformers."""
diff --git a/tests/metrics/text.py b/tests/utils/metrics/text.py
similarity index 92%
rename from tests/metrics/text.py
rename to tests/utils/metrics/text.py
index a03272c3..a08de235 100644
--- a/tests/metrics/text.py
+++ b/tests/utils/metrics/text.py
@@ -1,6 +1,6 @@
 import difflib
 from typing import List, Optional
-from tests.metrics.base import MetricBase
+from .base import MetricBase
 
 class TextSimilarityMetric(MetricBase):
     """Text similarity using sequence matching."""