6 ヶ月前 · e0706614c0
--- a/config.py
+++ b/config.py
@@ -0,0 +1,77 @@
 
				+# 测试环境
			
 
				+
			
 
				+# 本地milvus
			
 
				+milvus_uri = "http://127.0.0.1:19530"
			
 
				+
			
 
				+# 测试环境 mysql 数据库配置
			
 
				+mysql_config = {
			
 
				+        "host": "xia0miduo.gicp.net",
			
 
				+        "port": 3336,
			
 
				+        "user": "root",
			
 
				+        "password": "T@kai2025",
			
 
				+        "database": "chat_deepseek",
			
 
				+        # "database": "rag_master",
			
 
				+}
			
 
				+
			
 
				+# 测试minio配置
			
 
				+minio_config = {
			
 
				+    "minio_endpoint" : 'xia0miduo.gicp.net:9000',
			
 
				+    "minio_access_key" : 'fileadmin',
			
 
				+    "minio_secret_key" : 'fileadmin',
			
 
				+    "minio_bucket" : 'papbtest',
			
 
				+    "minio_url": "http://xia0miduo.gicp.net:9000",
			
 
				+     "flag": False
			
 
				+}
			
 
				+
			
 
				+# 测试环境vllm 链接
			
 
				+# vllm_url = "http://xia0miduo.gicp.net:8102/v1"
			
 
				+model_name_vllm_url_dict = {
			
 
				+    "DeepSeek-R1-Distill-Qwen-14B": "http://xia0miduo.gicp.net:8102/v1"
			
 
				+}
			
 
				+
			
 
				+# 测试环境redis 配置
			
 
				+redis_config_dict = {
			
 
				+    "host": "localhost",
			
 
				+    "port": 6379,
			
 
				+    "db": 1
			
 
				+} 
			
 
				+
			
 
				+
			
 
				+
			
 
				+# 线上环境
			
 
				+
			
 
				+# # 线上环境 mysql 数据库配置
			
 
				+# mysql_config = {
			
 
				+#         "host": "127.0.0.1",
			
 
				+#         "port": 3306,
			
 
				+#         "user": "root",
			
 
				+#         "password": "Lx304307910",
			
 
				+#         "database": "chat_deepseek",
			
 
				+# }
			
 
				+
			
 
				+# # 线上milvus配置
			
 
				+# milvus_uri = "http://127.0.0.1:19530"
			
 
				+
			
 
				+# # 线上minio配置
			
 
				+# minio_config = {
			
 
				+#         "minio_endpoint" : 'minio.ryuiso.com:59000',
			
 
				+#         "minio_access_key" : 'oss_library',
			
 
				+#         "minio_secret_key" : 'yDkG9YJiC92G3vk52goST',
			
 
				+#         "minio_bucket" : 'deepseek-doc',
			
 
				+#         "minio_url": "https://minio.ryuiso.com:59000",
			
 
				+#         "flag": True
			
 
				+# }
			
 
				+
			
 
				+# # 线上vllm 链接
			
 
				+# # vllm_url = "http://10.1.27.6:11817/v1"
			
 
				+# model_name_vllm_url_dict = {
			
 
				+#     "DeepSeek-R1-Distill-Llama-70B": "http://10.1.27.6:11817/v1",
			
 
				+#     "Qwen2-72B": "http://10.1.27.6:11818/v1",
			
 
				+# }
			
 
				+
			
 
				+# # 线上环境redis 配置
			
 
				+# redis_config_dict = {
			
 
				+#     "host": "localhost",
			
 
				+#     "port": 6379,
			
 
				+#     "db": 1
			
 
				+# } 
			
--- a/network_search/search.py
+++ b/network_search/search.py
--- a/rag/__init__.py
+++ b/rag/__init__.py
--- a/rag/__pycache__/__init__.cpython-310.pyc
+++ b/rag/__pycache__/__init__.cpython-310.pyc
--- a/rag/__pycache__/__init__.cpython-311.pyc
+++ b/rag/__pycache__/__init__.cpython-311.pyc
--- a/rag/__pycache__/chat_message.cpython-310.pyc
+++ b/rag/__pycache__/chat_message.cpython-310.pyc
--- a/rag/__pycache__/chat_message.cpython-311.pyc
+++ b/rag/__pycache__/chat_message.cpython-311.pyc
--- a/rag/__pycache__/db.cpython-310.pyc
+++ b/rag/__pycache__/db.cpython-310.pyc
--- a/rag/__pycache__/db.cpython-311.pyc
+++ b/rag/__pycache__/db.cpython-311.pyc
--- a/rag/__pycache__/documents_process.cpython-310.pyc
+++ b/rag/__pycache__/documents_process.cpython-310.pyc
--- a/rag/__pycache__/file_process.cpython-310.pyc
+++ b/rag/__pycache__/file_process.cpython-310.pyc
--- a/rag/__pycache__/file_process.cpython-311.pyc
+++ b/rag/__pycache__/file_process.cpython-311.pyc
--- a/rag/__pycache__/llm.cpython-310.pyc
+++ b/rag/__pycache__/llm.cpython-310.pyc
--- a/rag/__pycache__/llm.cpython-311.pyc
+++ b/rag/__pycache__/llm.cpython-311.pyc
--- a/rag/__pycache__/load_model.cpython-310.pyc
+++ b/rag/__pycache__/load_model.cpython-310.pyc
--- a/rag/__pycache__/load_model.cpython-311.pyc
+++ b/rag/__pycache__/load_model.cpython-311.pyc
--- a/rag/chat_message.py
+++ b/rag/chat_message.py
@@ -0,0 +1,223 @@
 
				+from rag.db import MilvusOperate
			
 
				+from rag.load_model import *
			
 
				+from rag.llm import VllmApi
			
 
				+from config import redis_config_dict
			
 
				+import json
			
 
				+import re
			
 
				+import gc
			
 
				+import redis
			
 
				+from utils.get_logger import setup_logger
			
 
				+logger = setup_logger(__name__)
			
 
				+
			
 
				+rerank_model_mapping = {
			
 
				+    "bce_rerank_model": (bce_rerank_tokenizer, bce_rerank_base_model),
			
 
				+    "rerank": (bce_rerank_tokenizer, bce_rerank_base_model)
			
 
				+}
			
 
				+redis_host = redis_config_dict.get("host")
			
 
				+redis_port = redis_config_dict.get("port")
			
 
				+redis_db = redis_config_dict.get("db")
			
 
				+
			
 
				+class ChatRetrieverRag:
			
 
				+    def __init__(self, chat_json: dict = None, chat_id: str=None):
			
 
				+        self.chat_id = chat_id
			
 
				+        self.redis_client = redis.StrictRedis(host=redis_host, port=redis_port, db=redis_db)
			
 
				+        if not chat_id:
			
 
				+            self.vllm_client = VllmApi(chat_json)
			
 
				+
			
 
				+    def rerank_result(self,query, top_k, hybrid_search_result, rerank_embedding_name):
			
 
				+        rerank_list = []
			
 
				+        for result in hybrid_search_result:
			
 
				+            rerank_list.append([query, result["content"]])
			
 
				+
			
 
				+        tokenizer, rerank_model = rerank_model_mapping.get(rerank_embedding_name)
			
 
				+        # 重排序
			
 
				+        rerank_model.eval()
			
 
				+        inputs = tokenizer(rerank_list, padding=True, truncation=True, max_length=512, return_tensors="pt")
			
 
				+        inputs = {k: v.to(device) for k, v in inputs.items()}
			
 
				+        with torch.no_grad():
			
 
				+            logits = rerank_model(**inputs, return_dict=True).logits.view(-1,).float()
			
 
				+        logits = logits.detach().cpu()
			
 
				+        scores = torch.sigmoid(logits).tolist()
			
 
				+        # scores_list = scores.tolist()
			
 
				+        logger.info(f"重排序的得分：{scores}")
			
 
				+
			
 
				+        sorted_pairs = sorted(zip(scores, hybrid_search_result), key=lambda x: x[0], reverse=True)
			
 
				+        sorted_scores, sorted_search = zip(*sorted_pairs)
			
 
				+        sorted_scores_list = list(sorted_scores)
			
 
				+        sorted_search_list = list(sorted_search)
			
 
				+        for score, search in zip(sorted_scores_list, sorted_search_list):
			
 
				+            search["rerank_score"] = score
			
 
				+        del inputs, logits
			
 
				+        gc.collect()
			
 
				+        torch.cuda.empty_cache()
			
 
				+        return sorted_search_list
			
 
				+    
			
 
				+    def retriever_result(self, chat_json):
			
 
				+        mode_search_mode = {
			
 
				+            "embedding": "dense",
			
 
				+            "keyword": "sparse",
			
 
				+            "mixed": "hybrid",
			
 
				+        }
			
 
				+        collection_name = chat_json.get("knowledgeIds")  # 
			
 
				+        top = chat_json.get("sliceCount", 5)
			
 
				+        retriever_info = json.loads(chat_json.get("knowledgeInfo", "{}"))
			
 
				+        rag_embedding_name = chat_json.get("embeddingId")
			
 
				+        mode_rag = retriever_info.get("recall_method")
			
 
				+        mode = mode_search_mode.get(mode_rag, "hybrid")
			
 
				+        rerank_embedding_name = retriever_info.get("rerank_model_name")
			
 
				+        rerank_status = retriever_info.get("rerank_status")
			
 
				+        query = chat_json.get("query")
			
 
				+
			
 
				+        hybrid_search_result = MilvusOperate(
			
 
				+            collection_name=collection_name,embedding_name=rag_embedding_name)._search(query, k=top, mode=mode)
			
 
				+        logger.info(f"根据{collection_name}检索到结果：{hybrid_search_result}")
			
 
				+        if len(hybrid_search_result) <= 0:
			
 
				+            rerank_result_list = []
			
 
				+        elif rerank_status:
			
 
				+            rerank_result_list = self.rerank_result(query, top, hybrid_search_result, rerank_embedding_name)
			
 
				+        else:
			
 
				+            for result in hybrid_search_result:
			
 
				+                result["rerank_score"] = 1
			
 
				+            rerank_result_list = hybrid_search_result
			
 
				+        return rerank_result_list
			
 
				+
			
 
				+
			
 
				+    async def generate_rag_response(self, chat_json, chunk_content):
			
 
				+        # logger.info(f"rag聊天的请求参数：{chat_json}")
			
 
				+        # retriever_result_list = self.retriever_result(chat_json)
			
 
				+        # logger.info(f"向量库中获取的最终结果：{retriever_result_list}")
			
 
				+        prompt = chat_json.get("prompt")
			
 
				+        query = chat_json.get("query")
			
 
				+
			
 
				+        # chunk_content = ""
			
 
				+        # for retriever in retriever_result_list:
			
 
				+        #     chunk_content += retriever["content"]
			
 
				+        prompt = prompt.replace("{知识}", chunk_content).replace("{用户}", query)
			
 
				+        logger.info(f"请求的提示词：{prompt}")
			
 
				+        temperature = float(chat_json.get("temperature", 0.6))
			
 
				+        top_p = float(chat_json.get("topP", 0.7))
			
 
				+        max_token = chat_json.get("maxToken", 4096)
			
 
				+
			
 
				+        # 调用模型获取返回的结果
			
 
				+        model = chat_json.get("model", "DeepSeek-R1-Distill-Qwen-14B")
			
 
				+        # model = "DeepSeek-R1-Distill-Qwen-14B"
			
 
				+        chat_resp = ""
			
 
				+        for chunk in self.vllm_client.chat(prompt, model, temperature=temperature, top_p=top_p, max_tokens=max_token, stream=True, history=[]):
			
 
				+            if chunk.get("event") == "add":
			
 
				+                chat_resp += chunk.get("data")
			
 
				+                chunk["data"] = chat_resp
			
 
				+                yield chunk
			
 
				+            else:
			
 
				+                yield chunk
			
 
				+            
			
 
				+    def parse_retriever_list(self, retriever_result_list):
			
 
				+        doc_info = {}
			
 
				+        chunk_content = ""
			
 
				+
			
 
				+        # 组织成每个doc对应的json格式
			
 
				+        for retriever in retriever_result_list:
			
 
				+            chunk_text = retriever["content"]
			
 
				+            chunk_content += chunk_text
			
 
				+            doc_id = retriever["doc_id"]
			
 
				+            chunk_id = retriever["chunk_id"]
			
 
				+            rerank_score = retriever["rerank_score"]
			
 
				+            doc_name = retriever["metadata"]["source"]
			
 
				+            if doc_id in doc_info:
			
 
				+                c_d = {
			
 
				+                    "chunk_id": chunk_id,
			
 
				+                    "rerank_score": rerank_score,
			
 
				+                    "chunk_len": len(chunk_text)
			
 
				+                }
			
 
				+                doc_info[doc_id]["chunk_list"].append(c_d)
			
 
				+                # doc_info[doc_id]["rerank_score"].append(rerank_score)
			
 
				+            else:
			
 
				+                c_d = {
			
 
				+                    "chunk_id": chunk_id,
			
 
				+                    "rerank_score": rerank_score,
			
 
				+                    "chunk_len": len(chunk_text)
			
 
				+                }
			
 
				+                doc_info[doc_id] = {
			
 
				+                    "doc_name": doc_name,
			
 
				+                    "chunk_list": [c_d],
			
 
				+                }
			
 
				+
			
 
				+        doc_list = []
			
 
				+        for k, v in doc_info.items():
			
 
				+            d = {}
			
 
				+            d["doc_id"] = k
			
 
				+            d["doc_name"] = v.get("doc_name")
			
 
				+            d["chunk_nums"] = len(v.get("chunk_list"))
			
 
				+            d["chunk_info_list"] = v.get("chunk_list")
			
 
				+            # d["chunk_len"] = len(v.get("chunk_id_list"))
			
 
				+            doc_list.append(d)
			
 
				+
			
 
				+        return chunk_content, doc_list
			
 
				+
			
 
				+    async def generate_event(self, chat_json, request):
			
 
				+        chat_id = ""
			
 
				+        try:
			
 
				+            logger.info(f"rag聊天的请求参数：{chat_json}")
			
 
				+            knowledge_id = chat_json.get("knowledgeIds")
			
 
				+            retriever_result_list = self.retriever_result(chat_json)
			
 
				+            logger.info(f"向量库中获取的最终结果：{retriever_result_list}")
			
 
				+            chunk_content, doc_list = self.parse_retriever_list(retriever_result_list)
			
 
				+
			
 
				+            first = True
			
 
				+            async for event in self.generate_rag_response(chat_json, chunk_content):
			
 
				+                chat_id = event.get("id")
			
 
				+                if first:
			
 
				+                    json_dict = {"knowledge_id": knowledge_id, "doc": doc_list}
			
 
				+                    self.redis_client.set(chat_id, json.dumps(json_dict))
			
 
				+                    # logger.info(f"返回检索出的切片信息：{json_dict}")
			
 
				+                    # yield {"id": chat_id, "event": "json", "data": json_dict}
			
 
				+                    first = False
			
 
				+                yield event
			
 
				+                # yield json.dumps(event, ensure_ascii=False)
			
 
				+                if await request.is_disconnected():
			
 
				+                    logger.info(f"chat id:{chat_id}连接中断")
			
 
				+                    yield {"id": chat_id, "event": "interrupted", "data": ""}
			
 
				+                    return
			
 
				+                    # yield json.dumps({"id": chat_id, "event": "interrupted", "data": ""}, ensure_ascii=False)
			
 
				+        except Exception as e:
			
 
				+            logger.info(f"执行出错：{e}")
			
 
				+            yield {"id": chat_id, "event": "finish", "data": ""}
			
 
				+            return
			
 
				+            # yield json.dumps({"id": chat_id, "event": "finish", "data": ""}, ensure_ascii=False)
			
 
				+
			
 
				+    async def generate_relevant_query(self, query_json):
			
 
				+        messages = query_json.get("messages")
			
 
				+        model = query_json.get("model")
			
 
				+
			
 
				+        query_result = self.vllm_client.chat(model=model, stream=False, history=messages)
			
 
				+        
			
 
				+        for result in query_result:
			
 
				+            # result_json = json.loads(result)
			
 
				+            # logger.info(f"生成的问题：{result_json}")
			
 
				+            # result_str = result_json.get("choices", [{}])[0].get("message", {}).get("content", "").strip()
			
 
				+            result = result.strip()
			
 
				+            logger.info(f"模型生成的问题：{result}")
			
 
				+            try:
			
 
				+                if "```json" in result:
			
 
				+                    json_pattern = r'```json\s(.*?)```'
			
 
				+                    matches = re.findall(json_pattern, result, re.DOTALL)
			
 
				+                    result = matches[0]
			
 
				+                query_json = json.loads(result)
			
 
				+            except Exception as e:
			
 
				+                query_json = eval(result)
			
 
				+            query_list = query_json.get("问题")
			
 
				+
			
 
				+        return {"code": 200, "data": query_list}
			
 
				+
			
 
				+    async def search_slice(self):
			
 
				+        try:
			
 
				+            chunk_redis_str = self.redis_client.get(self.chat_id)
			
 
				+            chunk_json = json.loads(chunk_redis_str)
			
 
				+            chunk_json["code"] = 200
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"查询redis报错：{e}")
			
 
				+            chunk_json = {
			
 
				+                "code": 500,
			
 
				+                "message": str(e)
			
 
				+            }
			
 
				+        return chunk_json
			
 
				+
			
--- a/rag/db.py
+++ b/rag/db.py
@@ -0,0 +1,440 @@
 
				+from rag.vector_db.milvus_vector import HybridRetriever
			
 
				+from response_info import generate_message, generate_response
			
 
				+from utils.get_logger import setup_logger
			
 
				+from datetime import datetime
			
 
				+from uuid import uuid1
			
 
				+import mysql.connector
			
 
				+from mysql.connector import pooling, Error
			
 
				+from concurrent.futures import ThreadPoolExecutor, TimeoutError
			
 
				+from config import milvus_uri, mysql_config
			
 
				+
			
 
				+logger = setup_logger(__name__)
			
 
				+# uri = "http://localhost:19530"
			
 
				+
			
 
				+try:
			
 
				+    POOL = pooling.MySQLConnectionPool(
			
 
				+        pool_name="mysql_pool",
			
 
				+        pool_size=10,
			
 
				+        **mysql_config
			
 
				+    )
			
 
				+    logger.info("MySQL 连接池初始化成功")
			
 
				+except Error as e:
			
 
				+    logger.info(f"初始化 MySQL 连接池失败: {e}")
			
 
				+    POOL = None
			
 
				+
			
 
				+
			
 
				+class MilvusOperate:
			
 
				+
			
 
				+    def __init__(self, collection_name: str = "default", embedding_name:str = "e5"):
			
 
				+        self.collection = collection_name
			
 
				+        self.hybrid_retriever = HybridRetriever(uri=milvus_uri, embedding_name=embedding_name, collection_name=collection_name)
			
 
				+        self.mysql_client = MysqlOperate()
			
 
				+
			
 
				+    def _has_collection(self):
			
 
				+        is_collection = self.hybrid_retriever.has_collection()
			
 
				+        return is_collection
			
 
				+    
			
 
				+    def _create_collection(self):
			
 
				+        if self._has_collection():
			
 
				+            resp = {"code": 400, "message": "数据库已存在"}
			
 
				+        else:
			
 
				+            create_result = self.hybrid_retriever.build_collection()
			
 
				+            resp = generate_message(create_result)
			
 
				+        return resp
			
 
				+
			
 
				+    
			
 
				+    def _delete_collection(self):
			
 
				+        delete_result = self.hybrid_retriever.delete_collection(self.collection)
			
 
				+        resp = generate_message(delete_result)
			
 
				+        return resp
			
 
				+
			
 
				+    
			
 
				+    def _put_by_id(self, slice_json):
			
 
				+        slice_id = slice_json.get("slice_id", None)
			
 
				+        slice_text = slice_json.get("slice_text", None)
			
 
				+        update_result, chunk_len = self.hybrid_retriever.update_data(chunk_id=slice_id, chunk=slice_text)
			
 
				+        if update_result.endswith("success"):
			
 
				+            # 如果成功，更新mysql中知识库总长度和文档长度
			
 
				+            update_json = {}
			
 
				+            update_json["knowledge_id"] = slice_json.get("knowledge_id")
			
 
				+            update_json["doc_id"] = slice_json.get("document_id")
			
 
				+            update_json["chunk_len"] = chunk_len
			
 
				+            update_json["operate"] = "update"
			
 
				+            update_json["chunk_id"] = slice_id
			
 
				+            update_json["chunk_text"] = slice_text
			
 
				+            update_flag, update_str = self.mysql_client.update_total_doc_len(update_json)
			
 
				+        else:
			
 
				+            update_flag = False
			
 
				+            
			
 
				+        if not update_flag:
			
 
				+            update_result = "update_error"    
			
 
				+        
			
 
				+        resp = generate_message(update_result)
			
 
				+        return resp
			
 
				+    
			
 
				+    def _insert_slice(self, slice_json):
			
 
				+        slice_id = str(uuid1())
			
 
				+        knowledge_id = slice_json.get("knowledge_id")
			
 
				+        doc_id = slice_json.get("document_id")
			
 
				+        slice_text = slice_json.get("slice_text", None)
			
 
				+        doc_name = slice_json.get("doc_name")
			
 
				+        chunk_len = len(slice_text)
			
 
				+        metadata = {
			
 
				+            "content": slice_text,
			
 
				+            "doc_id": doc_id,
			
 
				+            "chunk_id": slice_id,
			
 
				+            "metadata": {"source": doc_name, "chunk_len": chunk_len}
			
 
				+        }
			
 
				+        insert_flag, insert_str = self.hybrid_retriever.insert_data(slice_text, metadata)
			
 
				+        if insert_flag:
			
 
				+            # 如果成功，更新mysql中知识库总长度和文档长度
			
 
				+            update_json = {}
			
 
				+            update_json["knowledge_id"] = slice_json.get("knowledge_id")
			
 
				+            update_json["doc_id"] = slice_json.get("document_id")
			
 
				+            update_json["chunk_len"] = chunk_len
			
 
				+            update_json["operate"] = "insert"
			
 
				+            update_json["chunk_id"] = slice_id
			
 
				+            update_json["chunk_text"] = slice_text
			
 
				+            update_flag, update_str = self.mysql_client.update_total_doc_len(update_json)
			
 
				+        else:
			
 
				+            logger.error(f"插入向量库出错：{insert_str}")
			
 
				+            update_flag = False
			
 
				+            update_str = "向量库写入出错"
			
 
				+            # pass
			
 
				+            
			
 
				+        if not update_flag:
			
 
				+            logger.error(f"新增切片中mysql数据库出错：{update_str}")
			
 
				+            insert_result = "insert_error"
			
 
				+        else:
			
 
				+            insert_result = "insert_success"
			
 
				+        
			
 
				+        resp = generate_message(insert_result)
			
 
				+        return resp
			
 
				+    
			
 
				+
			
 
				+    def _delete_by_chunk_id(self, chunk_id, knowledge_id, document_id):
			
 
				+        logger.info(f"删除的切片id：{chunk_id}")
			
 
				+        delete_result, delete_chunk_len = self.hybrid_retriever.delete_by_chunk_id(chunk_id=chunk_id)
			
 
				+        if delete_result.endswith("success"):
			
 
				+            chunk_len = delete_chunk_len[0]
			
 
				+            update_json = {
			
 
				+                "knowledge_id": knowledge_id,
			
 
				+                "doc_id": document_id,
			
 
				+                "chunk_len": -chunk_len,
			
 
				+                "operate": "delete",
			
 
				+                "chunk_id": chunk_id
			
 
				+            }
			
 
				+            update_flag, update_str = self.mysql_client.update_total_doc_len(update_json)
			
 
				+        else:
			
 
				+            logger.error("根据chunk id删除向量库失败")
			
 
				+            update_flag = False
			
 
				+            update_str = "根据chunk id删除失败"
			
 
				+        
			
 
				+        if not update_flag:
			
 
				+            logger.error(update_str)
			
 
				+            delete_result = "delete_error"
			
 
				+
			
 
				+        
			
 
				+        resp = generate_message(delete_result)
			
 
				+        return resp
			
 
				+    
			
 
				+    def _delete_by_doc_id(self, doc_id: str = None):
			
 
				+        logger.info(f"删除数据的id：{doc_id}")
			
 
				+        delete_result = self.hybrid_retriever.delete_by_doc_id(doc_id=doc_id)
			
 
				+        resp = generate_message(delete_result)
			
 
				+        return resp
			
 
				+    
			
 
				+
			
 
				+    def _search_by_chunk_id(self, chunk_id):
			
 
				+        if self._has_collection():
			
 
				+            query_result = self.hybrid_retriever.query_chunk_id(chunk_id=chunk_id)
			
 
				+        else:
			
 
				+            query_result = []
			
 
				+        logger.info(f"根据切片查询到的信息：{query_result}")
			
 
				+        resp = generate_response(query_result)
			
 
				+
			
 
				+        return resp
			
 
				+    
			
 
				+    
			
 
				+    def _search_by_key_word(self, search_json):
			
 
				+        if self._has_collection():
			
 
				+            doc_id = search_json.get("document_id", None)
			
 
				+            text = search_json.get("text", None)
			
 
				+            page_num = search_json.get("pageNum", 1)
			
 
				+            page_size = search_json.get("pageSize", 10)
			
 
				+            page_num = search_json.get("pageNum")  # 根据传过来的id处理对应知识库
			
 
				+            query_result = self.hybrid_retriever.query_filter(doc_id=doc_id, filter_field=text)
			
 
				+        else:
			
 
				+            query_result = []
			
 
				+        resp = generate_response(query_result,page_num,page_size)
			
 
				+
			
 
				+        return resp
			
 
				+    
			
 
				+    def _insert_data(self, docs):
			
 
				+        for doc in docs:
			
 
				+            chunk = doc.get("content")
			
 
				+            insert_flag, insert_info = self.hybrid_retriever.insert_data(chunk, doc)
			
 
				+            if not insert_flag:
			
 
				+                break
			
 
				+        resp = insert_flag
			
 
				+        return resp, insert_info
			
 
				+    
			
 
				+    def _batch_insert_data(self, docs, text_lists):
			
 
				+        insert_flag, insert_info = self.hybrid_retriever.batch_insert_data(text_lists, docs)
			
 
				+
			
 
				+        resp = insert_flag
			
 
				+        return resp, insert_info
			
 
				+
			
 
				+    def _search(self, query, k, mode):
			
 
				+        search_result = self.hybrid_retriever.search(query, k, mode)
			
 
				+        return search_result
			
 
				+
			
 
				+
			
 
				+class MysqlOperate:
			
 
				+
			
 
				+    def get_connection(self):
			
 
				+        """
			
 
				+        从连接池中获取一个连接
			
 
				+        :return: 数据库连接对象
			
 
				+        """
			
 
				+        try:
			
 
				+            with ThreadPoolExecutor() as executor:
			
 
				+                future = executor.submit(POOL.get_connection)
			
 
				+                connection = future.result(timeout=5.0)  # 设置超时时间为5秒
			
 
				+
			
 
				+                logger.info("成功从连接池获取连接")
			
 
				+                return connection, "success"
			
 
				+        except TimeoutError:
			
 
				+            logger.error("获取mysql数据库连接池超时")
			
 
				+            return None, "mysql获取连接池超时"
			
 
				+        except Error as e:
			
 
				+            logger.error(f"无法从连接池获取连接: {e}")
			
 
				+            return None, str(e)
			
 
				+
			
 
				+    def insert_to_slice(self, docs, knowledge_id, doc_id):
			
 
				+        """
			
 
				+        插入数据到切片信息表中 slice_info
			
 
				+        """
			
 
				+        connection = None
			
 
				+        cursor = None
			
 
				+        date_now = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
			
 
				+        values = []
			
 
				+        connection, cennction_info = self.get_connection()
			
 
				+        if not connection:
			
 
				+            return False, cennction_info
			
 
				+        
			
 
				+        for chunk in docs:
			
 
				+            slice_id = chunk.get("chunk_id")
			
 
				+            slice_text = chunk.get("content")
			
 
				+            chunk_index = chunk.get("metadata").get("chunk_index")
			
 
				+            values.append((slice_id, knowledge_id, doc_id, slice_text, date_now, chunk_index))
			
 
				+        try:
			
 
				+            cursor = connection.cursor()
			
 
				+            insert_sql = """
			
 
				+                INSERT INTO slice_info (
			
 
				+                    slice_id,
			
 
				+                    knowledge_id,
			
 
				+                    document_id,
			
 
				+                    slice_text,
			
 
				+                    create_time,
			
 
				+                    slice_index
			
 
				+                ) VALUES (%s, %s, %s, %s, %s,%s)
			
 
				+                """
			
 
				+            
			
 
				+            cursor.executemany(insert_sql, values)
			
 
				+            connection.commit()
			
 
				+            logger.info(f"批量插入切片数据成功。")
			
 
				+            return True, "success"
			
 
				+
			
 
				+        except Error as e:
			
 
				+            logger.error(f"数据库操作出错：{e}")
			
 
				+            connection.rollback()
			
 
				+            return False, str(e)
			
 
				+        finally:
			
 
				+            # if cursor:
			
 
				+            cursor.close()
			
 
				+            # if connection and connection.is_connected():
			
 
				+            connection.close()
			
 
				+
			
 
				+    def delete_to_slice(self, doc_id):
			
 
				+        """
			
 
				+        删除 slice_info库中切片信息
			
 
				+        """
			
 
				+        connection = None
			
 
				+        cursor = None
			
 
				+        connection, connection_info = self.get_connection()
			
 
				+        if not connection:
			
 
				+            return False, connection_info
			
 
				+        try:
			
 
				+            cursor = connection.cursor()
			
 
				+            delete_sql = f"DELETE FROM slice_info WHERE document_id = %s"
			
 
				+            cursor.execute(delete_sql, (doc_id,))
			
 
				+            connection.commit()
			
 
				+            logger.info(f"删除数据成功")
			
 
				+            return True, "success"
			
 
				+
			
 
				+        except Error as e:
			
 
				+            logger.error(f"根据{doc_id}删除数据失败：{e}")
			
 
				+            connection.rollback()
			
 
				+            return False, str(e)
			
 
				+        finally:
			
 
				+            # if cursor:
			
 
				+            cursor.close()
			
 
				+            # if connection and connection.is_connected():
			
 
				+            connection.close()
			
 
				+
			
 
				+    def insert_to_image_url(self, image_dict, knowledge_id, doc_id):
			
 
				+        """
			
 
				+        批量插入数据到指定表
			
 
				+        """
			
 
				+        connection = None
			
 
				+        cursor = None
			
 
				+        connection, connection_info = self.get_connection()
			
 
				+        if not connection:
			
 
				+            return False, connection_info
			
 
				+        
			
 
				+        date_now = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
			
 
				+        values = []
			
 
				+        for img_key, img_value in image_dict.items():
			
 
				+            origin_text = img_key
			
 
				+            media_url = img_value
			
 
				+            values.append((knowledge_id, doc_id, origin_text, "image", media_url, date_now))
			
 
				+        try:
			
 
				+            cursor = connection.cursor()
			
 
				+            insert_sql = """
			
 
				+                INSERT INTO bm_media_replacement (
			
 
				+                    knowledge_id,
			
 
				+                    document_id,
			
 
				+                    origin_text,
			
 
				+                    media_type,
			
 
				+                    media_url,
			
 
				+                    create_time
			
 
				+                ) VALUES (%s, %s, %s, %s, %s, %s)
			
 
				+                """
			
 
				+            cursor.executemany(insert_sql, values)
			
 
				+            connection.commit()
			
 
				+            logger.info(f"插入到bm_media_replacement表成功")
			
 
				+            return True, "success"
			
 
				+        except Error as e:
			
 
				+            logger.error(f"数据库操作出错：{e}")
			
 
				+            connection.rollback()
			
 
				+            return False, str(e)
			
 
				+        finally:
			
 
				+            # if cursor:
			
 
				+            cursor.close()
			
 
				+            # if connection and connection.is_connected():
			
 
				+            connection.close()
			
 
				+
			
 
				+    def delete_image_url(self, doc_id):
			
 
				+        """
			
 
				+        根据doc id删除bm_media_replacement中的数据
			
 
				+        """
			
 
				+        connection = None
			
 
				+        cursor = None
			
 
				+        connection, connection_info = self.get_connection()
			
 
				+        if not connection:
			
 
				+            return False, connection_info
			
 
				+        
			
 
				+        try:
			
 
				+            cursor = connection.cursor()
			
 
				+            delete_sql = f"DELETE FROM bm_media_replacement WHERE document_id = %s"
			
 
				+            cursor.execute(delete_sql, (doc_id,))
			
 
				+            connection.commit()
			
 
				+            logger.info(f"根据{doc_id} 删除bm_media_replacement表中数据成功")
			
 
				+            return True, "success"
			
 
				+        except Error as e:
			
 
				+            logger.error(f"根据{doc_id}删除 bm_media_replacement 数据库操作出错：{e}")
			
 
				+            connection.rollback()
			
 
				+            return False, str(e)
			
 
				+        finally:
			
 
				+            # if cursor:
			
 
				+            cursor.close()
			
 
				+            # if connection and connection.is_connected():
			
 
				+            connection.close()
			
 
				+
			
 
				+    def update_total_doc_len(self, update_json):
			
 
				+        """
			
 
				+        更新长度表和文档长度表，删除slice info表, 插入slice info 切片信息
			
 
				+        """
			
 
				+        knowledge_id = update_json.get("knowledge_id")
			
 
				+        doc_id = update_json.get("doc_id")
			
 
				+        chunk_len = update_json.get("chunk_len")
			
 
				+        operate = update_json.get("operate")
			
 
				+        chunk_id = update_json.get("chunk_id")
			
 
				+        chunk_text = update_json.get("chunk_text")
			
 
				+        connection = None
			
 
				+        cursor = None
			
 
				+        connection, connection_info = self.get_connection()
			
 
				+        if not connection:
			
 
				+            return False, connection_info
			
 
				+        try:
			
 
				+            cursor = connection.cursor()
			
 
				+            query_doc_word_num_sql = f"select word_num,slice_total from bm_document where document_id = %s"
			
 
				+            query_knowledge_word_num_sql = f"select word_num from bm_knowledge where knowledge_id = %s"
			
 
				+            cursor.execute(query_doc_word_num_sql, (doc_id,))
			
 
				+            doc_result = cursor.fetchone()
			
 
				+            logger.info(f"查询到的文档长度信息：{doc_result}")
			
 
				+            cursor.execute(query_knowledge_word_num_sql, (knowledge_id, ))
			
 
				+            knowledge_result = cursor.fetchone()
			
 
				+            logger.info(f"查询到的知识库总长度信息：{knowledge_result}")
			
 
				+            if not doc_result:
			
 
				+                new_word_num = 0
			
 
				+                slice_total = 0
			
 
				+            else:
			
 
				+                old_word_num = doc_result[0]
			
 
				+                slice_total = doc_result[1]
			
 
				+                new_word_num = old_word_num + chunk_len
			
 
				+                slice_total -= 1 if slice_total else 0
			
 
				+
			
 
				+            if not knowledge_result:
			
 
				+                new_knowledge_word_num = 0
			
 
				+            else:
			
 
				+                old_knowledge_word_num = knowledge_result[0]
			
 
				+                new_knowledge_word_num = old_knowledge_word_num + chunk_len
			
 
				+
			
 
				+            if operate == "update":
			
 
				+                update_sql = f"UPDATE bm_document SET word_num = %s WHERE document_id = %s"
			
 
				+                cursor.execute(update_sql, (new_word_num, doc_id))
			
 
				+
			
 
				+                date_now = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
			
 
				+                update_slice_sql = f"UPDATE slice_info SET slice_text = %s, update_time = %s WHERE slice_id = %s"
			
 
				+                cursor.execute(update_slice_sql, (chunk_text, date_now, chunk_id))
			
 
				+            elif operate == "insert":
			
 
				+                query_slice_info_index_sql = f"select MAX(slice_index) from slice_info where document_id = %s"
			
 
				+                cursor.execute(query_slice_info_index_sql, (doc_id,))
			
 
				+                chunk_index_result = cursor.fetchone()[0]
			
 
				+                # logger.info(chunk_index_result)
			
 
				+                if chunk_index_result:
			
 
				+                    chunk_max_index = int(chunk_index_result)
			
 
				+                else:
			
 
				+                    chunk_max_index = 0
			
 
				+
			
 
				+                update_sql = f"UPDATE bm_document SET word_num = %s WHERE document_id = %s"
			
 
				+                cursor.execute(update_sql, (new_word_num, doc_id))
			
 
				+
			
 
				+                date_now = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
			
 
				+                insert_slice_sql = "INSERT INTO slice_info (slice_id,knowledge_id,document_id,slice_text,create_time, slice_index) VALUES (%s, %s, %s, %s, %s, %s)"
			
 
				+                cursor.execute(insert_slice_sql, (chunk_id, knowledge_id, doc_id, chunk_text, date_now, chunk_max_index+1))
			
 
				+            else:
			
 
				+                update_sql = f"UPDATE bm_document SET word_num = %s, slice_total = %s WHERE document_id = %s"
			
 
				+                cursor.execute(update_sql, (new_word_num, slice_total, doc_id))
			
 
				+
			
 
				+                # 删除切片id对应的切片  
			
 
				+                delete_slice_sql = f"DELETE FROM slice_info where slice_id = %s"
			
 
				+                cursor.execute(delete_slice_sql, (chunk_id, ))
			
 
				+
			
 
				+            update_knowledge_sql = f"UPDATE bm_knowledge SET word_num = %s WHERE knowledge_id = %s"
			
 
				+            cursor.execute(update_knowledge_sql, (new_knowledge_word_num, knowledge_id))
			
 
				+
			
 
				+            connection.commit()
			
 
				+            logger.info("bm_document和bm_knowledge数据更新成功")
			
 
				+            return True, "success"
			
 
				+        except Error as e:
			
 
				+            logger.error(f"数据库操作出错：{e}")
			
 
				+            connection.rollback()
			
 
				+            return False, str(e)
			
 
				+        finally:
			
 
				+            # if cursor:
			
 
				+            cursor.close()
			
 
				+            # if connection and connection.is_connected():
			
 
				+            connection.close()
			
--- a/rag/document_load/__pycache__/image_load.cpython-310.pyc
+++ b/rag/document_load/__pycache__/image_load.cpython-310.pyc
--- a/rag/document_load/__pycache__/office_load.cpython-310.pyc
+++ b/rag/document_load/__pycache__/office_load.cpython-310.pyc
--- a/rag/document_load/__pycache__/pdf_load.cpython-310.pyc
+++ b/rag/document_load/__pycache__/pdf_load.cpython-310.pyc
--- a/rag/document_load/__pycache__/pdf_load.cpython-311.pyc
+++ b/rag/document_load/__pycache__/pdf_load.cpython-311.pyc
--- a/rag/document_load/__pycache__/txt_load.cpython-310.pyc
+++ b/rag/document_load/__pycache__/txt_load.cpython-310.pyc
--- a/rag/document_load/__pycache__/txt_load.cpython-311.pyc
+++ b/rag/document_load/__pycache__/txt_load.cpython-311.pyc
--- a/rag/document_load/__pycache__/word_load.cpython-310.pyc
+++ b/rag/document_load/__pycache__/word_load.cpython-310.pyc
--- a/rag/document_load/image_load.py
+++ b/rag/document_load/image_load.py
@@ -0,0 +1,26 @@
 
				+import os
			
 
				+
			
 
				+from magic_pdf.data.data_reader_writer import FileBasedDataWriter, FileBasedDataReader
			
 
				+from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
			
 
				+from magic_pdf.data.read_api import read_local_images
			
 
				+
			
 
				+
			
 
				+class MinerUParseImage():
			
 
				+    # def __init__(self, knowledge_id):
			
 
				+    #     self.knowledge_id = knowledge_id
			
 
				+
			
 
				+    async def extract_text(self, file_path):
			
 
				+        local_image_dir = "./tmp_file/images"
			
 
				+        image_dir = str(os.path.basename(local_image_dir))
			
 
				+
			
 
				+        os.makedirs(local_image_dir, exist_ok=True)
			
 
				+
			
 
				+        image_writer = FileBasedDataWriter(local_image_dir)
			
 
				+
			
 
				+
			
 
				+        ds = read_local_images(file_path)[0]  # 
			
 
				+        infer_result = ds.apply(doc_analyze, ocr=True)
			
 
				+        pipe_result = infer_result.pipe_ocr_mode(image_writer)
			
 
				+        content_list_content = pipe_result.get_content_list(image_dir)
			
 
				+
			
 
				+        return content_list_content
			
--- a/rag/document_load/office_load.py
+++ b/rag/document_load/office_load.py
@@ -0,0 +1,26 @@
 
				+import os
			
 
				+
			
 
				+from magic_pdf.data.data_reader_writer import FileBasedDataWriter, FileBasedDataReader
			
 
				+from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
			
 
				+from magic_pdf.data.read_api import read_local_office
			
 
				+
			
 
				+
			
 
				+class MinerUParseOffice():
			
 
				+    # def __init__(self, knowledge_id):
			
 
				+    #     self.knowledge_id = knowledge_id
			
 
				+
			
 
				+    async def extract_text(self, file_path):
			
 
				+        local_image_dir = "./tmp_file/images"
			
 
				+        image_dir = str(os.path.basename(local_image_dir))
			
 
				+
			
 
				+        os.makedirs(local_image_dir, exist_ok=True)
			
 
				+
			
 
				+        image_writer = FileBasedDataWriter(local_image_dir)
			
 
				+
			
 
				+
			
 
				+        ds = read_local_office(file_path)[0]  # 
			
 
				+        infer_result = ds.apply(doc_analyze, ocr=True)
			
 
				+        pipe_result = infer_result.pipe_ocr_mode(image_writer)
			
 
				+        content_list_content = pipe_result.get_content_list(image_dir)
			
 
				+
			
 
				+        return content_list_content
			
--- a/rag/document_load/pdf_load.py
+++ b/rag/document_load/pdf_load.py
@@ -0,0 +1,273 @@
 
				+import fitz  # PyMuPDF
			
 
				+import os
			
 
				+from PIL import Image
			
 
				+import io
			
 
				+import pdfplumber
			
 
				+from langchain_community.document_loaders.unstructured import UnstructuredFileLoader
			
 
				+from utils.upload_file_to_oss import UploadMinio
			
 
				+from config import minio_config
			
 
				+
			
 
				+import os
			
 
				+from magic_pdf.data.data_reader_writer import FileBasedDataWriter, FileBasedDataReader
			
 
				+from magic_pdf.data.dataset import PymuDocDataset
			
 
				+from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
			
 
				+from magic_pdf.config.enums import SupportedPdfParseMethod
			
 
				+
			
 
				+
			
 
				+class PDFLoader(UnstructuredFileLoader):
			
 
				+    def __init__(self, file_json):
			
 
				+        self.base_path = "./tmp_file"
			
 
				+        self.file_json = file_json
			
 
				+        self.flag = self.file_json.get("flag")  # 后续优化
			
 
				+        self.file_path_process()
			
 
				+        if self.flag == "update":
			
 
				+            self.flag_image_info_dict = {}
			
 
				+            if not self.output_pdf_path:
			
 
				+                self.upload_minio = UploadMinio()
			
 
				+                self.image_positions_dict = self.get_image_positions()
			
 
				+                self.images_path_dict, self.flag_image_info_dict = self.save_images()
			
 
				+                self.replace_images_with_text()
			
 
				+
			
 
				+        else:
			
 
				+            self.upload_minio = UploadMinio()
			
 
				+            self.image_positions_dict = self.get_image_positions()
			
 
				+            self.images_path_dict, self.flag_image_info_dict = self.save_images()
			
 
				+            self.replace_images_with_text()
			
 
				+
			
 
				+    def file_path_process(self):
			
 
				+        self.knowledge_id = self.file_json.get("knowledge_id")
			
 
				+        self.document_id = self.file_json.get("document_id")
			
 
				+        know_path = self.base_path + f"/{self.knowledge_id}"
			
 
				+        
			
 
				+        self.file_name = self.file_json.get("name")
			
 
				+        self.output_pdf_name = "output_" + self.file_name
			
 
				+        self.input_pdf_path = os.path.join(know_path, self.file_name)
			
 
				+        self.output_pdf_path = os.path.join(know_path, self.output_pdf_name)
			
 
				+        self.file_name_list = self.file_name.split(".")
			
 
				+        self.image_dir = ".".join(self.file_name_list[:-1])
			
 
				+        self.save_image_path = know_path + "/" + self.document_id
			
 
				+    
			
 
				+    def get_image_positions(self):
			
 
				+        images_dict = {}
			
 
				+        with pdfplumber.open(self.input_pdf_path) as pdf:
			
 
				+            page_num = 0
			
 
				+            for page in pdf.pages:
			
 
				+                images_dict[page_num] = {}
			
 
				+                image_num = 0
			
 
				+                img_list = {}
			
 
				+                img_list[image_num] = {}
			
 
				+                for image in page.images:
			
 
				+                    #print("Image position:", image)
			
 
				+                    img_list[image_num] = {"x0":image['x0'],"y0":image['y0']}
			
 
				+                    image_num += 1
			
 
				+                    img_list[image_num] = {}
			
 
				+                images_dict[page_num]=img_list
			
 
				+                page_num += 1
			
 
				+        # print(f"images list info: {images_dict}")
			
 
				+        return images_dict
			
 
				+    
			
 
				+    def save_images(self):
			
 
				+        # 创建图片保存目录
			
 
				+        os.makedirs(self.save_image_path, exist_ok=True)
			
 
				+        
			
 
				+        # 使用PyMuPDF打开PDF文件
			
 
				+        doc = fitz.open(self.input_pdf_path)
			
 
				+        all_images_dict = {}
			
 
				+        pdf_img_index = 1
			
 
				+        flag_img_info = {}
			
 
				+        for page_num in range(len(doc)):
			
 
				+            page = doc.load_page(page_num)
			
 
				+            images = page.get_images(full=True)
			
 
				+            page_image_dict = {}
			
 
				+            
			
 
				+            for img_index, img in enumerate(images):
			
 
				+                xref = img[0]  # 图片的XRef编号
			
 
				+                base_image = doc.extract_image(xref)
			
 
				+                image_bytes = base_image["image"]
			
 
				+                
			
 
				+                # 将字节数据转换为PIL图像
			
 
				+                pil_image = Image.open(io.BytesIO(image_bytes))
			
 
				+                
			
 
				+                # 生成唯一文件名
			
 
				+                # img_name = f"page{page_num+1}_img{img_index+1}.{base_image['ext']}"
			
 
				+                img_name = f"{self.document_id}_{pdf_img_index}.{base_image['ext']}"
			
 
				+                img_path = os.path.join(self.save_image_path, img_name)
			
 
				+                
			
 
				+                # page_image_dict[img_index] = img_path
			
 
				+                # 保存成image_name
			
 
				+                image_str = self.knowledge_id + "/" + self.document_id + "/" + img_name
			
 
				+                replace_text = f"【示意图序号_{self.document_id}_{pdf_img_index}】"
			
 
				+                page_image_dict[img_index] = replace_text  # 替换pdf中的文字
			
 
				+
			
 
				+                # 保存图片
			
 
				+                pil_image.save(img_path)
			
 
				+
			
 
				+                # 保存的图片上传的oss
			
 
				+                self.upload_minio.upload_file(img_path, f"/pdf/{image_str}")
			
 
				+                minio_url = minio_config.get("minio_url")
			
 
				+                minio_bucket = minio_config.get("minio_bucket")
			
 
				+                flag_img_info[replace_text] = f"{minio_url}/{minio_bucket}//pdf/{image_str}"
			
 
				+                pdf_img_index += 1
			
 
				+                
			
 
				+            all_images_dict[page_num] = page_image_dict
			
 
				+        
			
 
				+        # 关闭原始文档
			
 
				+        doc.close()
			
 
				+
			
 
				+        return all_images_dict, flag_img_info
			
 
				+    
			
 
				+    def replace_images_with_text(self):
			
 
				+        # 打开原始PDF
			
 
				+        doc = fitz.open(self.input_pdf_path)
			
 
				+        
			
 
				+        # 设置字体大小
			
 
				+        font_size = 12
			
 
				+        font_name = "SimSun"
			
 
				+        font_path = r"./utils/simsun.ttc"  # 当前系统中的字体路径
			
 
				+
			
 
				+        # 遍历每一页
			
 
				+        for page_num in range(len(doc)):
			
 
				+            page = doc.load_page(page_num)  # 获取页面
			
 
				+            
			
 
				+            images = page.get_images(full=True)  # 获取页面中的所有图片
			
 
				+            page_height =  page.rect.height
			
 
				+            # print("page_height: ", page_height)
			
 
				+            
			
 
				+            for img_index, img in enumerate(images):
			
 
				+                xref = img[0]  # 图片的XRef编号
			
 
				+                base_image = doc.extract_image(xref)  # 提取图片
			
 
				+    
			
 
				+                bbox = fitz.Rect(img[1:5])
			
 
				+                # print("bbox: ", bbox)
			
 
				+
			
 
				+                # 删除图片
			
 
				+                # page.delete_xref(xref)  # 删除图片
			
 
				+                doc._deleteObject(img[0])
			
 
				+                
			
 
				+                # 准备替换文本
			
 
				+                # replacement_text = f"page{page_num+1}_img{img_index+1}.png"
			
 
				+                replacement_text = self.images_path_dict[page_num][img_index]
			
 
				+                print(f"替换的文本：{replacement_text}")
			
 
				+                
			
 
				+                # 在删除的图片位置插入文本
			
 
				+                try:
			
 
				+                    
			
 
				+                    x0 = self.image_positions_dict[page_num][img_index]['x0']
			
 
				+                    y0 = page_height - self.image_positions_dict[page_num][img_index]['y0']
			
 
				+
			
 
				+                    # 插入文本坐标
			
 
				+                    print(f"x0: {x0}, y0: {y0}")
			
 
				+
			
 
				+                    # 使用fitz中自带的字体 china-s 效果显示不友好，插入的字体一行铺满 fontname="china-s",
			
 
				+                    page.insert_text((x0,y0), replacement_text,fontname=font_name, fontfile=font_path, fontsize=font_size, color=(0, 0, 0))
			
 
				+                    #page.insert_text((x,y+y1), replacement_text, fontsize=font_size, color=(0, 0, 0))
			
 
				+                except Exception as e:
			
 
				+                    print(f"Error inserting text for image on page {page_num + 1}: {e}")
			
 
				+            
			
 
				+
			
 
				+        # 保存修改后的PDF
			
 
				+        doc.save(self.output_pdf_path)
			
 
				+        doc.close()
			
 
				+        print(f"Processed PDF saved to: {self.output_pdf_path}")
			
 
				+
			
 
				+    def file2text(self):
			
 
				+        pdf_text = ""
			
 
				+        with fitz.open(self.output_pdf_path) as doc:
			
 
				+            for i, page in enumerate(doc):
			
 
				+                text = page.get_text("text").strip()
			
 
				+                lines = text.split("\n")
			
 
				+                if len(lines) > 0 and lines[-1].strip().isdigit():
			
 
				+                    text = "\n".join(lines[:-1])  # 移除最后一行
			
 
				+
			
 
				+                if len(lines) > 0 and lines[0].strip().isdigit():
			
 
				+                    text = "\n".join(lines[1:])  # 移除第一行
			
 
				+                # print(f"page text:{text.strip()}")
			
 
				+                # pdf_text += text + "\n"
			
 
				+                pdf_text += text
			
 
				+        # print(pdf_text)
			
 
				+        return pdf_text, self.flag_image_info_dict
			
 
				+
			
 
				+
			
 
				+
			
 
				+class MinerUParsePdf():
			
 
				+    # def __init__(self, knowledge_id, minio_client):
			
 
				+    #     self.knowledge_id = knowledge_id
			
 
				+    #     self.minio_client = minio_client
			
 
				+        
			
 
				+    async def extract_text(self, file_path):
			
 
				+        # pdf_file_name = file_path  
			
 
				+        # prepare env
			
 
				+        # local_image_dir = f"./tmp_file/{self.knowledge_id}/{doc_id}"
			
 
				+        local_image_dir = f"./tmp_file/images"
			
 
				+        image_dir = str(os.path.basename(local_image_dir))
			
 
				+
			
 
				+        os.makedirs(local_image_dir, exist_ok=True)
			
 
				+
			
 
				+        image_writer = FileBasedDataWriter(local_image_dir)
			
 
				+
			
 
				+        # read bytes
			
 
				+        reader1 = FileBasedDataReader("")
			
 
				+        pdf_bytes = reader1.read(file_path)  # read the pdf content
			
 
				+
			
 
				+        # proc
			
 
				+        ## Create Dataset Instance
			
 
				+        ds = PymuDocDataset(pdf_bytes)
			
 
				+        infer_result = ds.apply(doc_analyze, ocr=True)
			
 
				+
			
 
				+        ## pipeline
			
 
				+        pipe_result = infer_result.pipe_ocr_mode(image_writer)
			
 
				+        content_list_content = pipe_result.get_content_list(image_dir)
			
 
				+
			
 
				+        # image_num = 1
			
 
				+        # text = ""
			
 
				+        # flag_img_info = {}
			
 
				+        # current_page = ""
			
 
				+        # for i,content_dict in enumerate(content_list_content):
			
 
				+        #     page_index = content_dict.get("page_idx")
			
 
				+        #     if i == 0:
			
 
				+        #         current_page = page_index
			
 
				+        #     elif page_index != current_page:
			
 
				+        #         text += "<page>"
			
 
				+        #         current_page = page_index
			
 
				+        #     else:
			
 
				+        #         pass
			
 
				+
			
 
				+        #     if content_dict.get("type") == "text":
			
 
				+        #         content_text = content_dict.get("text")
			
 
				+        #         text_level = content_dict.get("text_level")
			
 
				+        #         if text_level:
			
 
				+        #             text += "#" * text_level + content_text
			
 
				+        #         else:
			
 
				+        #             text += content_text
			
 
				+
			
 
				+        #     elif content_dict.get("type") in ("image", "table"):
			
 
				+        #         image_path = content_dict.get("img_path")
			
 
				+        #         image_name = image_path.split("/")[1]
			
 
				+        #         save_image_path = local_image_dir + f"/{image_name}"
			
 
				+        #         replace_text = f"【示意图序号_{doc_id}_{image_num}】"
			
 
				+        #         minio_file_path = f"/pdf/{self.knowledge_id}/{doc_id}/{replace_text}.jpg"
			
 
				+        #         self.minio_client.upload_file(save_image_path, minio_file_path)
			
 
				+        #         minio_url = minio_config.get("minio_url")
			
 
				+        #         minio_bucket = minio_config.get("minio_bucket")
			
 
				+        #         flag_img_info[replace_text] = f"{minio_url}/{minio_bucket}/{minio_file_path}"
			
 
				+        #         text += replace_text
			
 
				+        #         image_num += 1
			
 
				+            
			
 
				+        #     else:
			
 
				+        #         ...
			
 
				+            
			
 
				+
			
 
				+        return content_list_content
			
 
				+                
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    # input_pdf = r"G:/work/资料/5.1 BMP业务系统使用手册 - 切片.pdf"
			
 
				+    # output_pdf = "./output.pdf"
			
 
				+    # image_folder = "./extracted_images"
			
 
				+    file_json = {
			
 
				+        "knowledge_id": "1234",
			
 
				+        "name": "5.1 BMP业务系统使用手册 - 切片.pdf",
			
 
				+        "document_id": "2222"
			
 
				+    }
			
 
				+    loader = PDFLoader(file_json)
			
 
				+    loader.replace_images_with_text()
			
--- a/rag/document_load/txt_load.py
+++ b/rag/document_load/txt_load.py
@@ -0,0 +1,9 @@
 
				+class TextLoad:
			
 
				+    def __init__(self):
			
 
				+        pass
			
 
				+        
			
 
				+    async def file2text(self, file_path):
			
 
				+        with open(file_path, "r", encoding="utf-8") as f:
			
 
				+            content = f.read()
			
 
				+
			
 
				+        return content
			
--- a/rag/documents_process.py
+++ b/rag/documents_process.py
@@ -0,0 +1,403 @@
 
				+import aiohttp
			
 
				+import aiofiles
			
 
				+from rag.db import MilvusOperate, MysqlOperate
			
 
				+from rag.document_load.pdf_load import MinerUParsePdf
			
 
				+from rag.document_load.office_load import MinerUParseOffice
			
 
				+from rag.document_load.txt_load import TextLoad
			
 
				+from rag.document_load.image_load import MinerUParseImage
			
 
				+from utils.upload_file_to_oss import UploadMinio
			
 
				+from utils.get_logger import setup_logger
			
 
				+from config import minio_config
			
 
				+import os
			
 
				+import time
			
 
				+from uuid import uuid1
			
 
				+from langchain_text_splitters import RecursiveCharacterTextSplitter
			
 
				+
			
 
				+pdf_parse = MinerUParsePdf()
			
 
				+office_parse = MinerUParseOffice()
			
 
				+text_parse = TextLoad()
			
 
				+image_parse = MinerUParseImage()
			
 
				+logger = setup_logger(__name__)
			
 
				+
			
 
				+
			
 
				+class ProcessDocuments():
			
 
				+    def __init__(self, file_json):
			
 
				+        self.file_json = file_json
			
 
				+        self.knowledge_id = self.file_json.get("knowledge_id")
			
 
				+        self.mysql_client = MysqlOperate()
			
 
				+        self.minio_client = UploadMinio()
			
 
				+        self.milvus_client = MilvusOperate(collection_name=self.knowledge_id)
			
 
				+
			
 
				+    def _get_file_type(self, name):
			
 
				+        if name.endswith(".txt"):
			
 
				+            return text_parse
			
 
				+        elif name.endswith('.pdf'):
			
 
				+            return pdf_parse
			
 
				+        elif name.endswith((".doc", ".docx", "ppt", "pptx")):
			
 
				+            return office_parse
			
 
				+        elif name.endswith((".jpg", "png", "jpeg")):
			
 
				+            return image_parse
			
 
				+        else:
			
 
				+            raise "不支持的文件格式"
			
 
				+        
			
 
				+    async def save_file_temp(self, session, url, name):
			
 
				+        down_file_path = "./tmp_file" + f"/{self.knowledge_id}"
			
 
				+        # down_file_path = "./tmp_file"
			
 
				+        os.makedirs(down_file_path, exist_ok=True)
			
 
				+
			
 
				+        down_file_name = down_file_path + f"/{name}"
			
 
				+        # if os.path.exists(down_file_name):
			
 
				+        #     pass
			
 
				+        # else:
			
 
				+        async with session.get(url, ssl=False) as resp:
			
 
				+            resp.raise_for_status()
			
 
				+            content_length = resp.headers.get('Content-Length')
			
 
				+            if content_length:
			
 
				+                file_size = int(content_length)
			
 
				+            else:
			
 
				+                file_size = 0
			
 
				+            async with aiofiles.open(down_file_name, 'wb') as f:
			
 
				+                async for chunk in resp.content.iter_chunked(1024):
			
 
				+                    await f.write(chunk)
			
 
				+        
			
 
				+        return down_file_name, file_size
			
 
				+
			
 
				+    def file_split_by_len(self, file_text):
			
 
				+        split_map = {
			
 
				+            "0": ["#"],  # 按标题段落切片
			
 
				+            "1": ["<page>"],  # 按页切片
			
 
				+            "2": ["\n"]   # 按问答对
			
 
				+        }
			
 
				+        separator_num = self.file_json.get("set_slice")
			
 
				+        slice_value = self.file_json.get("slice_value", "").replace("\\n", "\n")
			
 
				+        separator = split_map.get(separator_num) if split_map.get(separator_num) else [slice_value]
			
 
				+        logger.info(f"文本切分字符：{separator}")
			
 
				+        text_split = RecursiveCharacterTextSplitter(
			
 
				+            separators=separator,
			
 
				+            chunk_size=500,
			
 
				+            chunk_overlap=40,
			
 
				+            length_function=len
			
 
				+        )
			
 
				+        texts = text_split.split_text(file_text)
			
 
				+        return texts
			
 
				+    
			
 
				+    def split_text(self, file_text):
			
 
				+        text_split = RecursiveCharacterTextSplitter(
			
 
				+            separators=["\n\n", "\n"],
			
 
				+            chunk_size=500,
			
 
				+            chunk_overlap=40,
			
 
				+            length_function=len
			
 
				+        )
			
 
				+        texts = text_split.split_text(file_text)
			
 
				+        return texts
			
 
				+
			
 
				+    
			
 
				+    def split_by_title(self, file_content_list, set_table, doc_id):
			
 
				+        # TODO 处理根据标题切分逻辑 图片替换标识符，表格按照set table 0图片，1html数据
			
 
				+        text_lists = []
			
 
				+        text = ""
			
 
				+        image_num = 1
			
 
				+        flag_img_info = {}
			
 
				+        level_1_text = ""
			
 
				+        level_2_text = ""
			
 
				+        for i, content_dict in enumerate(file_content_list):
			
 
				+            text_type = content_dict.get("type")
			
 
				+            content_text = content_dict.get("text")
			
 
				+            if text_type == "text":
			
 
				+                text_level = content_dict.get("text_level", "")
			
 
				+                if text_level == 1:
			
 
				+                    if not level_1_text:
			
 
				+                        level_1_text = f"# {content_text}\n"
			
 
				+                        text += f"# {content_text}\n"
			
 
				+                    else:
			
 
				+                        text_lists.append(text)
			
 
				+                        text = f"# {content_text}\n"
			
 
				+                        level_1_text = f"# {content_text}\n"
			
 
				+                        level_2_text = ""
			
 
				+
			
 
				+                elif text_level == 2:
			
 
				+                    if not level_2_text:
			
 
				+                        text += f"## {content_text}\n"
			
 
				+                        level_2_text = f"## {content_text}\n"
			
 
				+                    else:
			
 
				+                        text_lists.append(text)
			
 
				+                        text = level_1_text + f"## {content_text}\n"
			
 
				+                else:
			
 
				+                    if text_level:
			
 
				+                        text += text_level*"#" + " " + content_text + "\n"
			
 
				+                    else:
			
 
				+                        text += content_text
			
 
				+
			
 
				+            elif text_type == "table" and set_table == "1":
			
 
				+                text += content_dict.get("table_body")
			
 
				+
			
 
				+            elif text_type in ("image", "table"):
			
 
				+                image_path = content_dict.get("img_path")
			
 
				+                if not image_path:
			
 
				+                    continue
			
 
				+                image_name = image_path.split("/")[1]
			
 
				+                save_image_path = "./tmp_file/images/" + f"/{image_name}"
			
 
				+                replace_text = f"【示意图序号_{doc_id}_{image_num}】"
			
 
				+                minio_file_path = f"/pdf/{self.knowledge_id}/{doc_id}/{replace_text}.jpg"
			
 
				+                self.minio_client.upload_file(save_image_path, minio_file_path)
			
 
				+                minio_url = minio_config.get("minio_url")
			
 
				+                minio_bucket = minio_config.get("minio_bucket")
			
 
				+                flag_img_info[replace_text] = f"{minio_url}/{minio_bucket}/{minio_file_path}"
			
 
				+                text += replace_text
			
 
				+                image_num += 1
			
 
				+            if i+1 == len(file_content_list):
			
 
				+                text_lists.append(text)
			
 
				+        return text_lists, flag_img_info
			
 
				+    
			
 
				+    def split_by_page(self, file_content_list, set_table, doc_id):
			
 
				+        # TODO 处理按照页面切分，图片处理成标识符，表格按照set table 0图片，1html数据
			
 
				+        text_lists = []
			
 
				+        current_page = ""
			
 
				+        text = ""
			
 
				+        image_num = 1
			
 
				+        flag_img_info = {}
			
 
				+        for i,content_dict in enumerate(file_content_list):
			
 
				+                page_index = content_dict.get("page_idx")
			
 
				+                if i == 0:
			
 
				+                    current_page = page_index
			
 
				+                elif page_index != current_page:
			
 
				+                    text_lists.append(text)
			
 
				+                    text = ""
			
 
				+                    current_page = page_index
			
 
				+
			
 
				+                text_type = content_dict.get("type")
			
 
				+                if text_type == "text":
			
 
				+                    content_text = content_dict.get("text")
			
 
				+                    text_level = content_dict.get("text_level")
			
 
				+                    if text_level:
			
 
				+                        text += "#" * text_level + " " + content_text
			
 
				+                    else:
			
 
				+                        text += content_text
			
 
				+
			
 
				+                elif text_type == "table" and set_table == "1":
			
 
				+                    text += content_dict.get("table_body")
			
 
				+
			
 
				+                elif text_type in ("image", "table"):
			
 
				+                    image_path = content_dict.get("img_path")
			
 
				+                    image_name = image_path.split("/")[1]
			
 
				+                    save_image_path = "./tmp_file/images/" + f"/{image_name}"
			
 
				+                    replace_text = f"【示意图序号_{doc_id}_{image_num}】"
			
 
				+                    minio_file_path = f"/pdf/{self.knowledge_id}/{doc_id}/{replace_text}.jpg"
			
 
				+                    self.minio_client.upload_file(save_image_path, minio_file_path)
			
 
				+                    minio_url = minio_config.get("minio_url")
			
 
				+                    minio_bucket = minio_config.get("minio_bucket")
			
 
				+                    flag_img_info[replace_text] = f"{minio_url}/{minio_bucket}/{minio_file_path}"
			
 
				+                    text += replace_text
			
 
				+                    image_num += 1
			
 
				+                if i+1 == len(file_content_list):
			
 
				+                    text_lists.append(text)
			
 
				+        return text_lists, flag_img_info
			
 
				+
			
 
				+    def split_by_self(self, file_content_list, set_table, slice_value, doc_id):
			
 
				+        # TODO 按照自定义的符号切分，图片处理成标识符，表格按照set table 0图片，1html数据，长度控制500以内，超过500切断
			
 
				+        logger.info(f"自定义的分隔符：{slice_value}")
			
 
				+        text = ""
			
 
				+        image_num = 1
			
 
				+        flag_img_info = {}
			
 
				+        for i, content_dict in enumerate(file_content_list):
			
 
				+            text_type = content_dict.get("type")
			
 
				+            if text_type == "text":
			
 
				+                content_text = content_dict.get("text")
			
 
				+                text_level = content_dict.get("text_level")
			
 
				+                if text_level:
			
 
				+                    text += "#" * text_level + " " + content_text
			
 
				+                else:
			
 
				+                    text += content_text
			
 
				+
			
 
				+            elif text_type == "table" and set_table == "1":
			
 
				+                text += content_dict.get("table_body")
			
 
				+
			
 
				+            elif text_type in ("image", "table"):
			
 
				+                image_path = content_dict.get("img_path")
			
 
				+                image_name = image_path.split("/")[1]
			
 
				+                save_image_path = "./tmp_file/images/" + f"/{image_name}"
			
 
				+                replace_text = f"【示意图序号_{doc_id}_{image_num}】"
			
 
				+                minio_file_path = f"/pdf/{self.knowledge_id}/{doc_id}/{replace_text}.jpg"
			
 
				+                self.minio_client.upload_file(save_image_path, minio_file_path)
			
 
				+                minio_url = minio_config.get("minio_url")
			
 
				+                minio_bucket = minio_config.get("minio_bucket")
			
 
				+                flag_img_info[replace_text] = f"{minio_url}/{minio_bucket}/{minio_file_path}"
			
 
				+                text += replace_text
			
 
				+                image_num += 1
			
 
				+
			
 
				+        split_lists = text.split(slice_value)
			
 
				+        text_lists = []
			
 
				+        for split_text in split_lists:
			
 
				+            r = len(split_text)//500
			
 
				+            if r >= 1:
			
 
				+                for i in range(r+1):
			
 
				+                    t = split_text[i*500:(i+1)*500]
			
 
				+                    if t:
			
 
				+                        text_lists.append(t)
			
 
				+            else:
			
 
				+                text_lists.append(split_text)
			
 
				+                
			
 
				+        return text_lists, flag_img_info
			
 
				+
			
 
				+    def file_split(self, file_content_list, doc_id):
			
 
				+        # TODO 根据文本列表进行切分 返回切分列表和存储图片的链接
			
 
				+        separator_num = self.file_json.get("set_slice")
			
 
				+        set_table = self.file_json.get("set_table")
			
 
				+        # separator = split_map.get(separator_num) if split_map.get(separator_num) else [slice_value]
			
 
				+        # logger.info(f"文本切分字符：{separator}")
			
 
				+        if isinstance(file_content_list, str):
			
 
				+            file_text = file_content_list
			
 
				+            text_lists = self.split_text(file_text)
			
 
				+            return text_lists, {}
			
 
				+
			
 
				+        elif separator_num == "0":
			
 
				+            # 使用标题段落切分，使用text_level=1，2 切分即一个# 还是两个#
			
 
				+            text_lists, flag_img_info = self.split_by_title(file_content_list, set_table, doc_id)
			
 
				+            return text_lists, flag_img_info
			
 
				+        elif separator_num == "1":
			
 
				+            # 按照页面方式切分
			
 
				+            text_lists, flag_img_info = self.split_by_page(file_content_list, set_table, doc_id)
			
 
				+            return text_lists, flag_img_info
			
 
				+        elif separator_num == "2":
			
 
				+            # 按照问答对切分 针对exce文档，暂不实现
			
 
				+            return [], {}
			
 
				+        else:
			
 
				+            # 自定义切分的方式，按照自定义字符以及文本长度切分，超过500
			
 
				+            slice_value = self.file_json.get("slice_value", "").replace("\\n", "\n")
			
 
				+            text_lists, flag_img_info = self.split_by_self(file_content_list, set_table, slice_value, doc_id)
			
 
				+            return text_lists, flag_img_info
			
 
				+
			
 
				+    
			
 
				+    def process_data_to_milvus_schema(self, text_lists, doc_id, name):
			
 
				+        """组织数据格式：
			
 
				+            {
			
 
				+                "content": text,
			
 
				+                "doc_id": doc_id,
			
 
				+                "chunk_id": chunk_id,
			
 
				+                "metadata": {"source": file_name},
			
 
				+            }
			
 
				+        """
			
 
				+        docs = []
			
 
				+        total_len = 0
			
 
				+        for i, text in enumerate(text_lists):
			
 
				+            chunk_id = str(uuid1())
			
 
				+            chunk_len = len(text)
			
 
				+            total_len += chunk_len
			
 
				+            d = {
			
 
				+                "content": text,
			
 
				+                "doc_id": doc_id,
			
 
				+                "chunk_id": chunk_id,
			
 
				+                "metadata": {"source": name, "chunk_index": i+1, "chunk_len": chunk_len}
			
 
				+            }
			
 
				+            docs.append(d)
			
 
				+        return docs, total_len
			
 
				+    
			
 
				+    async def process_documents(self, file_json):
			
 
				+        # 文档下载
			
 
				+        separator_num = file_json.get("set_slice")
			
 
				+        if separator_num == "2":
			
 
				+            return {"code": 500, "message": "暂不支持解析"}
			
 
				+        docs = file_json.get("docs")
			
 
				+        flag = file_json.get("flag")
			
 
				+        success_doc = []  # 记录解析成功的文档id
			
 
				+        for doc in docs:
			
 
				+            url = doc.get("url")
			
 
				+            name = doc.get("name")
			
 
				+            doc_id = doc.get("document_id")
			
 
				+            async with aiohttp.ClientSession() as session:
			
 
				+                down_file_name, file_size = await self.save_file_temp(session, url, name)
			
 
				+            
			
 
				+            file_parse = self._get_file_type(name)
			
 
				+
			
 
				+            file_content_list = await file_parse.extract_text(down_file_name)
			
 
				+            logger.info(f"mineru解析的pdf数据：{file_content_list}")
			
 
				+
			
 
				+            text_lists, flag_img_info = self.file_split(file_content_list, doc_id)
			
 
				+            
			
 
				+            docs, total_char_len = self.process_data_to_milvus_schema(text_lists, doc_id, name)
			
 
				+            logger.info(f"存储到milvus的文本数据：{docs}")
			
 
				+            if flag == "upload":
			
 
				+                # 插入到milvus库中
			
 
				+                insert_milvus_flag, insert_milvus_str = self.milvus_client._insert_data(docs)
			
 
				+                
			
 
				+                if insert_milvus_flag:
			
 
				+                    # 插入到mysql的slice info数据库中
			
 
				+                    insert_slice_flag, insert_mysql_info = self.mysql_client.insert_to_slice(docs, self.knowledge_id, doc_id)
			
 
				+                else:
			
 
				+                    # resp = {"code": 500, "message": insert_milvus_str}
			
 
				+                    # return resp
			
 
				+                    insert_slice_flag = False
			
 
				+                    parse_file_status = False
			
 
				+
			
 
				+                if insert_slice_flag:
			
 
				+                    # 插入mysql中的bm_media_replacement表中
			
 
				+                    insert_img_flag, insert_mysql_info =  self.mysql_client.insert_to_image_url(flag_img_info, self.knowledge_id, doc_id)
			
 
				+                else:
			
 
				+                    # resp = {"code": 500, "message": insert_mysql_info}
			
 
				+                    self.milvus_client._delete_by_doc_id(doc_id=doc_id)
			
 
				+                    insert_img_flag = False
			
 
				+
			
 
				+                    # return resp
			
 
				+                    parse_file_status = False
			
 
				+
			
 
				+                if insert_img_flag:
			
 
				+                    # resp = {"code": 200, "message": "文档解析成功"}
			
 
				+                    parse_file_status = True
			
 
				+                
			
 
				+                else:
			
 
				+                    self.milvus_client._delete_by_doc_id(doc_id=doc_id)
			
 
				+                    self.mysql_client.delete_image_url(doc_id=doc_id)
			
 
				+                    # resp = {"code": 500, "message": insert_mysql_info}
			
 
				+                    parse_file_status = False
			
 
				+
			
 
				+                # return resp
			
 
				+            
			
 
				+            elif flag == "update":  # 更新切片方式
			
 
				+                # 先把库中的数据删除
			
 
				+                self.milvus_client._delete_by_doc_id(doc_id=doc_id)
			
 
				+                self.mysql_client.delete_to_slice(doc_id=doc_id)
			
 
				+
			
 
				+                insert_milvus_start_time = time.time()
			
 
				+                insert_milvus_flag, insert_milvus_str = self.milvus_client._insert_data(docs)
			
 
				+                # insert_milvus_flag, insert_milvus_str = self.milvus_client._batch_insert_data(docs,text_lists)
			
 
				+                insert_milvus_end_time = time.time()
			
 
				+                logger.info(f"插入milvus数据库耗时：{insert_milvus_end_time - insert_milvus_start_time}")
			
 
				+
			
 
				+                if insert_milvus_flag:
			
 
				+                    # 插入到mysql的slice info数据库中
			
 
				+                    insert_mysql_start_time = time.time()
			
 
				+                    insert_slice_flag, insert_mysql_info = self.mysql_client.insert_to_slice(docs, self.knowledge_id, doc_id)
			
 
				+                    insert_mysql_end_time = time.time()
			
 
				+                    logger.info(f"插入mysql数据库耗时:{insert_mysql_end_time - insert_mysql_start_time}")
			
 
				+                else:
			
 
				+                    # resp = {"code": 500, "message": insert_milvus_str}
			
 
				+                    # return resp
			
 
				+                    insert_slice_flag = False
			
 
				+                    parse_file_status = False
			
 
				+                
			
 
				+                if insert_slice_flag:
			
 
				+                    # resp = {"code": 200, "message": "切片修改成功"}
			
 
				+                    parse_file_status = True
			
 
				+                
			
 
				+                else:
			
 
				+                    self.milvus_client._delete_by_doc_id(doc_id=doc_id)
			
 
				+                    # resp = {"code":500, "message": insert_mysql_info}
			
 
				+                    parse_file_status = False
			
 
				+
			
 
				+                # return resp
			
 
				+
			
 
				+            if parse_file_status:
			
 
				+                success_doc.append(doc_id)
			
 
				+            else:
			
 
				+                if flag == "upload":
			
 
				+                    for del_id in success_doc:
			
 
				+                        self.milvus_client._delete_by_doc_id(doc_id=del_id)
			
 
				+                        self.mysql_client.delete_image_url(doc_id=del_id)
			
 
				+                        self.mysql_client.delete_to_slice(doc_id=del_id)
			
 
				+
			
 
				+                return {"code": 500, "message": "解析失败", "knowledge_id" : self.knowledge_id, "doc_info": {}}
			
 
				+
			
 
				+        return {"code": 200, "message": "解析成功", "knowledge_id" : self.knowledge_id, "doc_info": {"file_size": file_size, "total_char_len": total_char_len, "slice_num": len(text_lists)}}
			
 
				+
			
 
				+
			
 
				+
			
--- a/rag/file_process.py
+++ b/rag/file_process.py
@@ -0,0 +1,184 @@
 
				+import requests
			
 
				+from fastapi import HTTPException
			
 
				+from typing import List, Dict
			
 
				+import os
			
 
				+from uuid import uuid1
			
 
				+import uuid
			
 
				+from rag.document_load.pdf_load import PDFLoader
			
 
				+from rag.document_load.txt_load import TextLoad
			
 
				+from langchain_text_splitters import RecursiveCharacterTextSplitter
			
 
				+from rag.db import MilvusOperate, MysqlOperate
			
 
				+import httpx
			
 
				+import time
			
 
				+from utils.get_logger import setup_logger
			
 
				+
			
 
				+logger = setup_logger(__name__)
			
 
				+
			
 
				+
			
 
				+file_dict = {
			
 
				+    "pdf": PDFLoader,
			
 
				+    # "txt": TextLoad
			
 
				+}
			
 
				+
			
 
				+class ParseFile:
			
 
				+    def __init__(self, file_json):
			
 
				+        self.file_json = file_json
			
 
				+        self.file_name = self.file_json.get("name")
			
 
				+        # self.file_url = self.file_json
			
 
				+        self.file_list = self.file_json.get("name").split(".")
			
 
				+        file_type = self.file_list[1]
			
 
				+        self.flag = self.file_json.get("flag")
			
 
				+        self.knowledge_id = self.file_json.get("knowledge_id")
			
 
				+        self.doc_id = self.file_json.get("document_id")
			
 
				+        self.save_file_to_tmp()
			
 
				+        self.load_file = file_dict.get(file_type, PDFLoader)(self.file_json)
			
 
				+        self.mysql_client = MysqlOperate()
			
 
				+        self.milvus_client = MilvusOperate(collection_name=self.knowledge_id)
			
 
				+
			
 
				+    def save_file_to_tmp(self):
			
 
				+        # 远程文件存到本地处理
			
 
				+        url = self.file_json.get("url")
			
 
				+
			
 
				+        know_path = "./tmp_file" + f"/{self.knowledge_id}"
			
 
				+        os.makedirs(know_path, exist_ok=True)
			
 
				+        tmp_file_name = f"./tmp_file/{self.knowledge_id}/{self.file_name}"
			
 
				+
			
 
				+        if self.flag == "upload":
			
 
				+            file_response = requests.get(url=url)
			
 
				+            with open(tmp_file_name, "wb") as f:
			
 
				+                f.write(file_response.content)
			
 
				+        elif self.flag == "update":
			
 
				+            if os.path.exists(tmp_file_name):
			
 
				+                pass
			
 
				+            else:
			
 
				+                file_response = requests.get(url=url)
			
 
				+                with open(tmp_file_name, "wb") as f:
			
 
				+                    f.write(file_response.content)
			
 
				+
			
 
				+        # return file_name
			
 
				+
			
 
				+
			
 
				+    def file_split(self, file_text):
			
 
				+        split_map = {
			
 
				+            "0": ["\n"],
			
 
				+            "1": ["\n"],
			
 
				+            "2": ["\n"]
			
 
				+        }
			
 
				+        separator_num = self.file_json.get("set_slice")
			
 
				+        slice_value = self.file_json.get("slice_value", "").replace("\\n", "\n")
			
 
				+        separator = split_map.get(separator_num) if split_map.get(separator_num) else [slice_value]
			
 
				+        logger.info(f"文本切分字符：{separator}")
			
 
				+        text_split = RecursiveCharacterTextSplitter(
			
 
				+            separators=separator,
			
 
				+            chunk_size=300,
			
 
				+            chunk_overlap=20,
			
 
				+            length_function=len
			
 
				+        )
			
 
				+        texts = text_split.split_text(file_text)
			
 
				+
			
 
				+        return texts
			
 
				+    
			
 
				+    def process_data_to_milvus_schema(self, text_lists):
			
 
				+        """组织数据格式：
			
 
				+            {
			
 
				+                "content": text,
			
 
				+                "doc_id": doc_id,
			
 
				+                "chunk_id": chunk_id,
			
 
				+                "metadata": {"source": file_name},
			
 
				+            }
			
 
				+        """
			
 
				+        # doc_id = self.file_json.get("document_id")
			
 
				+        docs = []
			
 
				+        for i, text in enumerate(text_lists):
			
 
				+            chunk_id = str(uuid1())
			
 
				+            d = {
			
 
				+                "content": text,
			
 
				+                "doc_id": self.doc_id,
			
 
				+                "chunk_id": chunk_id,
			
 
				+                "metadata": {"source": self.file_name, "chunk_index": i+1}
			
 
				+            }
			
 
				+            # d["content"] = text
			
 
				+            # d["doc_id"] = doc_id
			
 
				+            # d["chunk_id"] = chunk_id
			
 
				+            # d["metadata"] = {"source": self.file_name, "chunk_index": i+1}
			
 
				+            docs.append(d)
			
 
				+        return docs
			
 
				+
			
 
				+    def save_file_to_db(self):
			
 
				+        # 如果更改切片方式，需要删除对应knowledge id中doc id对应数据
			
 
				+        flag = self.file_json.get("flag")
			
 
				+        if flag == "update":
			
 
				+            # 执行删除操作
			
 
				+            self.milvus_client._delete_by_doc_id(doc_id=self.doc_id)
			
 
				+            self.mysql_client.delete_to_slice(doc_id=self.doc_id)
			
 
				+            # self.mysql_client.delete_image_url(doc_id=doc_id)
			
 
				+        file_text_start_time = time.time()
			
 
				+        file_text, image_dict = self.load_file.file2text()
			
 
				+        file_text_end_time = time.time()
			
 
				+        logger.info(f"pdf加载成文本耗时：{file_text_end_time - file_text_start_time}")
			
 
				+        text_lists = self.file_split(file_text)
			
 
				+        file_split_end_time = time.time()
			
 
				+        logger.info(f"文档切分的耗时：{file_split_end_time - file_text_end_time}")
			
 
				+        docs = self.process_data_to_milvus_schema(text_lists)
			
 
				+        logger.info(f"插入milvus的数据：{docs}")
			
 
				+
			
 
				+        # doc_id = self.file_json.get("document_id")
			
 
				+
			
 
				+        if flag == "upload":
			
 
				+            # 插入到milvus库中
			
 
				+            insert_milvus_flag, insert_milvus_str = self.milvus_client._insert_data(docs)
			
 
				+            
			
 
				+            if insert_milvus_flag:
			
 
				+                # 插入到mysql的slice info数据库中
			
 
				+                insert_slice_flag, insert_mysql_info = self.mysql_client.insert_to_slice(docs, self.knowledge_id, self.doc_id)
			
 
				+            else:
			
 
				+                resp = {"code": 500, "message": insert_milvus_str}
			
 
				+                return resp
			
 
				+
			
 
				+            if insert_slice_flag:
			
 
				+                # 插入mysql中的bm_media_replacement表中
			
 
				+                insert_img_flag, insert_mysql_info =  self.mysql_client.insert_to_image_url(image_dict, self.knowledge_id, self.doc_id)
			
 
				+            else:
			
 
				+                resp = {"code": 500, "message": insert_mysql_info}
			
 
				+                self.milvus_client._delete_by_doc_id(doc_id=self.doc_id)
			
 
				+
			
 
				+                return resp
			
 
				+
			
 
				+            if insert_img_flag:
			
 
				+                resp = {"code": 200, "message": "文档解析成功"}
			
 
				+            
			
 
				+            else:
			
 
				+                self.milvus_client._delete_by_doc_id(doc_id=self.doc_id)
			
 
				+                self.mysql_client.delete_image_url(doc_id=self.doc_id)
			
 
				+                resp = {"code": 500, "message": insert_mysql_info}
			
 
				+
			
 
				+            return resp
			
 
				+
			
 
				+
			
 
				+        elif flag == "update":
			
 
				+            # 插入到milvus库中
			
 
				+            insert_milvus_start_time = time.time()
			
 
				+            insert_milvus_flag, insert_milvus_str = self.milvus_client._insert_data(docs)
			
 
				+            # insert_milvus_flag, insert_milvus_str = self.milvus_client._batch_insert_data(docs,text_lists)
			
 
				+            insert_milvus_end_time = time.time()
			
 
				+            logger.info(f"插入milvus数据库耗时：{insert_milvus_end_time - insert_milvus_start_time}")
			
 
				+
			
 
				+            if insert_milvus_flag:
			
 
				+                # 插入到mysql的slice info数据库中
			
 
				+                insert_mysql_start_time = time.time()
			
 
				+                insert_slice_flag, insert_mysql_info = self.mysql_client.insert_to_slice(docs, self.knowledge_id, self.doc_id)
			
 
				+                insert_mysql_end_time = time.time()
			
 
				+                logger.info(f"插入mysql数据库耗时:{insert_mysql_end_time - insert_mysql_start_time}")
			
 
				+            else:
			
 
				+                resp = {"code": 500, "message": insert_milvus_str}
			
 
				+                return resp
			
 
				+            
			
 
				+            if insert_slice_flag:
			
 
				+                resp = {"code": 200, "message": "切片修改成功"}
			
 
				+            
			
 
				+            else:
			
 
				+                self.milvus_client._delete_by_doc_id(doc_id=self.doc_id)
			
 
				+                resp = {"code":500, "message": insert_mysql_info}
			
 
				+
			
 
				+            return resp
			
 
				+
			
--- a/rag/llm.py
+++ b/rag/llm.py
@@ -0,0 +1,187 @@
 
				+from openai import OpenAI
			
 
				+import requests
			
 
				+import json
			
 
				+from utils.get_logger import setup_logger
			
 
				+from config import model_name_vllm_url_dict
			
 
				+
			
 
				+logger = setup_logger(__name__)
			
 
				+
			
 
				+class VllmApi():
			
 
				+    def __init__(self, chat_json):
			
 
				+        openai_api_key = "EMPTY"
			
 
				+        model = chat_json.get("model")
			
 
				+        vllm_url = model_name_vllm_url_dict.get(model)
			
 
				+        openai_api_base = vllm_url
			
 
				+        self.vllm_chat_url = f"{vllm_url}/chat/completions"
			
 
				+        self.vllm_generate_url = f"{vllm_url}/completions"
			
 
				+        self.client = OpenAI(
			
 
				+            # defaults to os.environ.get("OPENAI_API_KEY")
			
 
				+            api_key=openai_api_key,
			
 
				+            base_url=openai_api_base,
			
 
				+        )
			
 
				+
			
 
				+    def chat(self,
			
 
				+             prompt : str = "",
			
 
				+             model: str = "deepseek-r1:7b",
			
 
				+             stream: bool = False,
			
 
				+             top_p: float = 0.9,
			
 
				+             temperature: float = 0.6,
			
 
				+             max_tokens: int = 1024,
			
 
				+             history: list = []
			
 
				+             ):
			
 
				+        if history:
			
 
				+            messages = history
			
 
				+        else:
			
 
				+            messages = [{"role": "user", "content": prompt}]
			
 
				+        chat_response = self.client.chat.completions.create(
			
 
				+            model=model,
			
 
				+            messages=messages,
			
 
				+            stream=stream,
			
 
				+            top_p=top_p,
			
 
				+            temperature=temperature, 
			
 
				+            max_tokens=max_tokens
			
 
				+        )
			
 
				+
			
 
				+        # 针对deepseek的模型，是否输出think部分
			
 
				+        yield_reasoning_content = True
			
 
				+        yield_content = True
			
 
				+        has_reason = ""
			
 
				+        if stream:
			
 
				+            for chunk in chat_response:
			
 
				+                logger.info(f"vllm返回的chunk信息：{chunk}")
			
 
				+                reasoning_content = None
			
 
				+                content = None
			
 
				+                chat_id = chunk.id
			
 
				+                # Check the content is reasoning_content or content
			
 
				+                if chunk.choices[0].delta.role == "assistant":
			
 
				+                    continue
			
 
				+                elif hasattr(chunk.choices[0].delta, "reasoning_content"):
			
 
				+                    reasoning_content = chunk.choices[0].delta.reasoning_content
			
 
				+                    if reasoning_content:
			
 
				+                        has_reason += reasoning_content
			
 
				+                elif hasattr(chunk.choices[0].delta, "content"):
			
 
				+                    content = chunk.choices[0].delta.content
			
 
				+
			
 
				+                if reasoning_content is not None:
			
 
				+                    if yield_reasoning_content:
			
 
				+                        yield_reasoning_content = False
			
 
				+                        reasoning_content = "```think" + reasoning_content
			
 
				+                        # print("reasoning_content:", end="", flush=True)
			
 
				+                    # print(reasoning_content, end="", flush=True)
			
 
				+                    # yield reasoning_content
			
 
				+                    yield {"id": chat_id, "event": "add", "data": reasoning_content}
			
 
				+                    
			
 
				+                elif content is not None:
			
 
				+                    if yield_content:
			
 
				+                        yield_content = False
			
 
				+                        if has_reason:
			
 
				+                            content = "think```" + content
			
 
				+                        else:
			
 
				+                            content = content
			
 
				+                    #     print("\ncontent:", end="", flush=True) 
			
 
				+                    # print(content, end="", flush=True)
			
 
				+                    # yield content
			
 
				+                    yield {"id": chat_id, "event": "add", "data": content}
			
 
				+                
			
 
				+                if chunk.choices[0].finish_reason:
			
 
				+                    yield {"id": chat_id, "event": "finish", "data": ""}
			
 
				+        
			
 
				+        else:
			
 
				+            # print(f"chat response: {chat_response.model_dump_json()}")
			
 
				+            yield chat_response.choices[0].message.content
			
 
				+
			
 
				+    def generate(self,
			
 
				+                 prompt: str,
			
 
				+                 model: str = "deepseek-r1:7b",
			
 
				+                 history: list = [],
			
 
				+                 stream: bool = False
			
 
				+                 ):
			
 
				+        completion = self.client.completions.create(
			
 
				+            model=model,
			
 
				+            prompt=prompt,
			
 
				+            max_tokens=1024,
			
 
				+            stream=stream
			
 
				+        )
			
 
				+
			
 
				+        if stream:
			
 
				+            for chunk in completion:
			
 
				+                print(f"generate chunk: {chunk}")
			
 
				+                yield chunk
			
 
				+        
			
 
				+        else:
			
 
				+            return completion
			
 
				+        
			
 
				+    def request_generate(self, model, prompt, max_tokens: int = 1024, temperature: float = 0.6, stream: bool = False):
			
 
				+        json_data = {
			
 
				+            "model": model,
			
 
				+            "prompt": prompt,
			
 
				+            "max_tokens": max_tokens,
			
 
				+            "temperature": temperature,
			
 
				+            "stream": stream
			
 
				+        }
			
 
				+        response = requests.post(self.vllm_generate_url,json=json_data, stream=stream)
			
 
				+        response.raise_for_status()
			
 
				+        if stream:
			
 
				+            for line in response.iter_lines():
			
 
				+                if line:
			
 
				+                    line_str = line.decode("utf-8")
			
 
				+                    if line_str.startswith("data: "):
			
 
				+                        json_str = line_str[len("data: "):]
			
 
				+                    if json_str == "[DONE]":
			
 
				+                        break
			
 
				+                    
			
 
				+                    print(f"返回的数据：{json.loads(json_str)}")
			
 
				+                    yield json.loads(json_str)
			
 
				+                
			
 
				+        else:
			
 
				+            logger.info(f"直接返回结果：{response.json()}")
			
 
				+            yield response.json()
			
 
				+
			
 
				+    def request_chat(self, 
			
 
				+                     model, 
			
 
				+                     prompt, 
			
 
				+                     history: list = [], 
			
 
				+                     temperature: float = 0.6, 
			
 
				+                     stream: bool = False,
			
 
				+                     top_p: float = 0.7):
			
 
				+        history.append({"role": "user", "content": prompt})
			
 
				+        json_data = {
			
 
				+            "model": model,
			
 
				+            "messages": history,
			
 
				+            "temperature": temperature,
			
 
				+            "stream": stream,
			
 
				+            "top_p": top_p
			
 
				+        }
			
 
				+        response = requests.post(self.vllm_chat_url,json=json_data, stream=stream)
			
 
				+        response.raise_for_status()
			
 
				+        if stream:
			
 
				+            for line in response.iter_lines():
			
 
				+                if line:
			
 
				+                    line_str = line.decode("utf-8")
			
 
				+                    if line_str.startswith("data: "):
			
 
				+                        json_str = line_str[len("data: "):]
			
 
				+
			
 
				+                    if json_str == "[DONE]":
			
 
				+                        break
			
 
				+                    
			
 
				+                    print(f"chat模式返回的数据：{json.loads(json_str)}")
			
 
				+                    yield json.loads(json_str)
			
 
				+        else:
			
 
				+            print(f"聊天模式直接返回结果：{response.json()}")
			
 
				+            return response.json()
			
 
				+
			
 
				+
			
 
				+def main():
			
 
				+    history = [{"role": "system", "content": "你是一个非常有帮助的助手，在回答用户问题的时候请以<think>开头。"}]
			
 
				+    # prompt = "请帮我计算鸡兔同笼的问题。从上面数有35个头，从下面数有94只脚，请问分别多少只兔子多少只鸡？"
			
 
				+    prompt = "请帮我将下面提供的中文翻译成日文，要求：1、直接输出翻译的结果，2、不要进行任何解释。需要翻译的内容：我下飞机的时候行李丢了。"
			
 
				+    model = "DeepSeek-R1-Distill-Qwen-14B"
			
 
				+    vllm_chat_resp = VllmApi().request_chat(prompt=prompt, model=model, history=history, stream=True)
			
 
				+
			
 
				+    # print("vllm 回复：")
			
 
				+    for chunk in vllm_chat_resp:
			
 
				+        pass
			
 
				+    #     print(chunk, end='', flush=True)
			
 
				+
			
 
				+if __name__=="__main__":
			
 
				+    main()
			
--- a/rag/load_model.py
+++ b/rag/load_model.py
@@ -0,0 +1,16 @@
 
				+from pymilvus import model
			
 
				+import torch
			
 
				+from transformers import AutoTokenizer, AutoModelForSequenceClassification
			
 
				+
			
 
				+device = "cuda" if torch.cuda.is_available() else "cpu"
			
 
				+
			
 
				+# 使用sentence transformer方式加载模型
			
 
				+# embedding_path = r"/opt/models/multilingual-e5-large-instruct/"  # 线上路径
			
 
				+embedding_path = r"G:/work/code/models/multilingual-e5-large-instruct/"  # 本地路径
			
 
				+sentence_transformer_ef = model.dense.SentenceTransformerEmbeddingFunction(model_name=embedding_path,device=device)
			
 
				+
			
 
				+# rerank模型
			
 
				+# bce_rerank_model_path = r"/opt/models/bce-reranker-base_v1"  # 线上路径
			
 
				+bce_rerank_model_path = r"G:/work/code/models/bce-reranker-base_v1"  # 本地路径
			
 
				+bce_rerank_tokenizer = AutoTokenizer.from_pretrained(bce_rerank_model_path)
			
 
				+bce_rerank_base_model = AutoModelForSequenceClassification.from_pretrained(bce_rerank_model_path).to(device)
			
--- a/rag/vector_db/__init__.py
+++ b/rag/vector_db/__init__.py
--- a/rag/vector_db/__pycache__/__init__.cpython-310.pyc
+++ b/rag/vector_db/__pycache__/__init__.cpython-310.pyc
--- a/rag/vector_db/__pycache__/__init__.cpython-311.pyc
+++ b/rag/vector_db/__pycache__/__init__.cpython-311.pyc
--- a/rag/vector_db/__pycache__/milvus_vector.cpython-310.pyc
+++ b/rag/vector_db/__pycache__/milvus_vector.cpython-310.pyc
--- a/rag/vector_db/__pycache__/milvus_vector.cpython-311.pyc
+++ b/rag/vector_db/__pycache__/milvus_vector.cpython-311.pyc
--- a/rag/vector_db/milvus_vector.py
+++ b/rag/vector_db/milvus_vector.py
@@ -0,0 +1,507 @@
 
				+import time
			
 
				+import numpy as np
			
 
				+from pymilvus import (
			
 
				+    MilvusClient,
			
 
				+    DataType,
			
 
				+    Function,
			
 
				+    FunctionType,
			
 
				+    AnnSearchRequest,
			
 
				+    RRFRanker,
			
 
				+)
			
 
				+# from pymilvus.model.hybrid import BGEM3EmbeddingFunction
			
 
				+from pymilvus import model
			
 
				+from rag.load_model import sentence_transformer_ef
			
 
				+from utils.get_logger import setup_logger
			
 
				+import torch
			
 
				+device = "cpu" if torch.cuda.is_available() else "cuda"
			
 
				+logger = setup_logger(__name__)
			
 
				+
			
 
				+# embedding_path = r"G:/work/code/models/multilingual-e5-large-instruct/"
			
 
				+# sentence_transformer_ef = model.dense.SentenceTransformerEmbeddingFunction(model_name=embedding_path,device=device)
			
 
				+
			
 
				+
			
 
				+embedding_mapping = {
			
 
				+    "e5": sentence_transformer_ef,
			
 
				+    "multilingual-e5-large-instruct": sentence_transformer_ef,
			
 
				+}
			
 
				+
			
 
				+class HybridRetriever:
			
 
				+    def __init__(self, uri, embedding_name:str="e5", collection_name:str ="hybrid"):
			
 
				+        self.uri = uri
			
 
				+        self.collection_name = collection_name
			
 
				+        # self.embedding_function = sentence_transformer_ef
			
 
				+        self.embedding_function = embedding_mapping.get(embedding_name, "e5")
			
 
				+        self.use_reranker = True
			
 
				+        self.use_sparse = True
			
 
				+        self.client = MilvusClient(uri=uri)
			
 
				+    
			
 
				+    def has_collection(self):
			
 
				+        try:
			
 
				+            collection_flag = self.client.has_collection(self.collection_name)
			
 
				+            logger.info(f"查询向量库的结果:{collection_flag}")
			
 
				+        except Exception as e:
			
 
				+            logger.info(f"查询向量库是否存在出错：{e}")
			
 
				+            collection_flag = False
			
 
				+        return collection_flag
			
 
				+
			
 
				+    def build_collection(self):
			
 
				+        if isinstance(self.embedding_function.dim, dict):
			
 
				+            dense_dim = self.embedding_function.dim["dense"]
			
 
				+        else:
			
 
				+            dense_dim = self.embedding_function.dim
			
 
				+        logger.info(f"创建数据库的向量维度：{dense_dim}")
			
 
				+        analyzer_params={
			
 
				+            "type": "chinese"
			
 
				+        }
			
 
				+
			
 
				+        schema = MilvusClient.create_schema()
			
 
				+        schema.add_field(
			
 
				+            field_name="pk",
			
 
				+            datatype=DataType.VARCHAR,
			
 
				+            is_primary=True,
			
 
				+            auto_id=True,
			
 
				+            max_length=100,
			
 
				+        )
			
 
				+        schema.add_field(
			
 
				+            field_name="content",
			
 
				+            datatype=DataType.VARCHAR,
			
 
				+            max_length=65535,
			
 
				+            analyzer_params=analyzer_params,
			
 
				+            enable_match=True,
			
 
				+            enable_analyzer=True,
			
 
				+        )
			
 
				+        schema.add_field(
			
 
				+            field_name="sparse_vector", datatype=DataType.SPARSE_FLOAT_VECTOR
			
 
				+        )
			
 
				+        schema.add_field(
			
 
				+            field_name="dense_vector", datatype=DataType.FLOAT_VECTOR, dim=dense_dim
			
 
				+        )
			
 
				+        schema.add_field(field_name="doc_id", datatype=DataType.VARCHAR, max_length=64)
			
 
				+        schema.add_field(
			
 
				+            field_name="chunk_id", datatype=DataType.VARCHAR, max_length=64
			
 
				+        )
			
 
				+        schema.add_field(field_name="metadata", datatype=DataType.JSON)
			
 
				+
			
 
				+        functions = Function(
			
 
				+            name="bm25",
			
 
				+            function_type=FunctionType.BM25,
			
 
				+            input_field_names=["content"],
			
 
				+            output_field_names="sparse_vector",
			
 
				+        )
			
 
				+
			
 
				+        schema.add_function(functions)
			
 
				+
			
 
				+        index_params = MilvusClient.prepare_index_params()
			
 
				+        index_params.add_index(
			
 
				+            field_name="sparse_vector",
			
 
				+            index_type="SPARSE_INVERTED_INDEX",
			
 
				+            metric_type="BM25",
			
 
				+        )
			
 
				+        index_params.add_index(
			
 
				+            field_name="dense_vector", index_type="FLAT", metric_type="IP"
			
 
				+        )
			
 
				+        try:
			
 
				+            self.client.create_collection(
			
 
				+                collection_name=self.collection_name,
			
 
				+                schema=schema,
			
 
				+                index_params=index_params,
			
 
				+            )
			
 
				+            return "create_collection_success"
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"创建{self.collection_name}数据库失败：{e}")
			
 
				+            return "create_collection_error"
			
 
				+
			
 
				+    def insert_data(self, chunk, metadata):
			
 
				+        logger.info("准备插入数据")
			
 
				+        with torch.no_grad():
			
 
				+            embedding = self.embedding_function([chunk])
			
 
				+        logger.info("获取文本的向量信息。")
			
 
				+        if isinstance(embedding, dict) and "dense" in embedding:
			
 
				+            # bge embedding 获取embedding的方式
			
 
				+            dense_vec = embedding["dense"][0]
			
 
				+        else:
			
 
				+            dense_vec = embedding[0]
			
 
				+        
			
 
				+        try:
			
 
				+            self.client.insert(
			
 
				+                self.collection_name, {"dense_vector": dense_vec, **metadata}
			
 
				+            )
			
 
				+            logger.info("插入一条数据成功。")
			
 
				+            return True, "success"
			
 
				+        except Exception as e:
			
 
				+            doc_id = metadata.get("doc_id")
			
 
				+            logger.error(f"处理文档：{doc_id}，插入数据出错：{e}")
			
 
				+            self.delete_by_doc_id(doc_id=doc_id)
			
 
				+            return False, str(e)
			
 
				+        
			
 
				+    def batch_insert_data(self, chunks, metadatas):
			
 
				+        logger.info("准备插入数据")
			
 
				+        embedding_lists = self.embedding_function.encode_documents(chunks)
			
 
				+        logger.info("获取文本的向量信息。")
			
 
				+        record_lists = []
			
 
				+        for embedding, metadata in zip(embedding_lists, metadatas):
			
 
				+            if isinstance(embedding, dict) and "dense" in embedding:
			
 
				+                # bge embedding 获取embedding的方式
			
 
				+                dense_vec = embedding["dense"][0]
			
 
				+            else:
			
 
				+                dense_vec = embedding.tolist()
			
 
				+
			
 
				+            # if hasattr(dense_vec, 'tolist'):
			
 
				+            #     dense_vec = dense_vec.tolist()
			
 
				+
			
 
				+            # logger.info(f"向量维度：{dense_vec}")
			
 
				+            
			
 
				+            # if isinstance(dense_vec, (float, int)):
			
 
				+            #     dense_vec = [dense_vec]
			
 
				+            
			
 
				+            # if isinstance(dense_vec, np.float32):
			
 
				+            #     dense_vec = [float(dense_vec)]
			
 
				+            
			
 
				+            record = {"dense_vector": dense_vec}
			
 
				+            record.update(metadata)
			
 
				+            record_lists.append(record)
			
 
				+        
			
 
				+        try:
			
 
				+            self.client.insert(
			
 
				+                self.collection_name, record_lists
			
 
				+            )
			
 
				+            logger.info("插入数据成功。")
			
 
				+            return True, "success"
			
 
				+        except Exception as e:
			
 
				+            doc_id = metadata.get("doc_id")
			
 
				+            logger.error(f"处理文档：{doc_id}，插入数据出错：{e}")
			
 
				+            self.delete_by_doc_id(doc_id=doc_id)
			
 
				+            return False, str(e)
			
 
				+                
			
 
				+
			
 
				+    def search(self, query: str, k: int = 20, mode="hybrid"):
			
 
				+
			
 
				+        output_fields = [
			
 
				+            "content",
			
 
				+            "doc_id",
			
 
				+            "chunk_id",
			
 
				+            "metadata",
			
 
				+        ]
			
 
				+        if mode in ["dense", "hybrid"]:
			
 
				+            with torch.no_grad():
			
 
				+                embedding = self.embedding_function([query])
			
 
				+            if isinstance(embedding, dict) and "dense" in embedding:
			
 
				+                dense_vec = embedding["dense"][0]
			
 
				+            else:
			
 
				+                dense_vec = embedding[0]
			
 
				+
			
 
				+        if mode == "sparse":
			
 
				+            results = self.client.search(
			
 
				+                collection_name=self.collection_name,
			
 
				+                data=[query],
			
 
				+                anns_field="sparse_vector",
			
 
				+                limit=k,
			
 
				+                output_fields=output_fields,
			
 
				+            )
			
 
				+        elif mode == "dense":
			
 
				+            results = self.client.search(
			
 
				+                collection_name=self.collection_name,
			
 
				+                data=[dense_vec],
			
 
				+                anns_field="dense_vector",
			
 
				+                limit=k,
			
 
				+                output_fields=output_fields,
			
 
				+            )
			
 
				+        elif mode == "hybrid":
			
 
				+            full_text_search_params = {"metric_type": "BM25"}
			
 
				+            full_text_search_req = AnnSearchRequest(
			
 
				+                [query], "sparse_vector", full_text_search_params, limit=k
			
 
				+            )
			
 
				+
			
 
				+            dense_search_params = {"metric_type": "IP"}
			
 
				+            dense_req = AnnSearchRequest(
			
 
				+                [dense_vec], "dense_vector", dense_search_params, limit=k
			
 
				+            )
			
 
				+
			
 
				+            results = self.client.hybrid_search(
			
 
				+                self.collection_name,
			
 
				+                [full_text_search_req, dense_req],
			
 
				+                ranker=RRFRanker(),
			
 
				+                limit=k,
			
 
				+                output_fields=output_fields,
			
 
				+            )
			
 
				+        else:
			
 
				+            raise ValueError("Invalid mode")
			
 
				+        return [
			
 
				+            {
			
 
				+                "doc_id": doc["entity"]["doc_id"],
			
 
				+                "chunk_id": doc["entity"]["chunk_id"],
			
 
				+                "content": doc["entity"]["content"],
			
 
				+                "metadata": doc["entity"]["metadata"],
			
 
				+                "score": doc["distance"],
			
 
				+            }
			
 
				+            for doc in results[0]
			
 
				+        ]
			
 
				+    
			
 
				+    def query_filter(self, doc_id, filter_field):
			
 
				+        # doc id 文档id，content中包含 filter_field 字段的
			
 
				+        query_output_field = [
			
 
				+            "content",
			
 
				+            "chunk_id",
			
 
				+            "doc_id",
			
 
				+            "metadata"
			
 
				+        ]
			
 
				+        # query_expr = f"doc_id in {doc_id} && content like '%{filter_field}%'"
			
 
				+        # 根据doc_id查询如果有关键词，根据关键词查询，如果没有关键词，只根据doc_id查询
			
 
				+        if filter_field:
			
 
				+            query_expr = f"doc_id == '{doc_id}' && content like '%{filter_field}%'"
			
 
				+        else:
			
 
				+            query_expr = f"doc_id == '{doc_id}'"
			
 
				+
			
 
				+        try:
			
 
				+            query_filter_results = self.client.query(collection_name=self.collection_name, filter=query_expr, output_fields=query_output_field)
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"根据关键词查询数据失败：{e}")
			
 
				+            query_filter_results = [{"code": 500}]
			
 
				+        return query_filter_results
			
 
				+        # for result in query_filter_results:
			
 
				+        #     print(f"根据doc id 和 field 过滤结果: {result}\n\n")
			
 
				+    
			
 
				+    def query_chunk_id(self, chunk_id):
			
 
				+        # chunk id，查询切片
			
 
				+        query_output_field = [
			
 
				+            "content",
			
 
				+            "doc_id",
			
 
				+            "chunk_id",
			
 
				+            # "metadata"
			
 
				+        ]
			
 
				+        query_expr = f"chunk_id == '{chunk_id}'"
			
 
				+        try:
			
 
				+            query_filter_results = self.client.query(collection_name=self.collection_name, filter=query_expr, output_fields=query_output_field)
			
 
				+        except Exception as e:
			
 
				+            logger.info(f"根据chunk id 查询出错：{e}")
			
 
				+            query_filter_results = [{"code": 500}]
			
 
				+        return query_filter_results
			
 
				+
			
 
				+    def update_data(self, chunk_id, chunk):
			
 
				+        # 根据chunk id查询对应的信息，
			
 
				+        chunk_expr = f"chunk_id == '{chunk_id}'"
			
 
				+        chunk_output_fields = [
			
 
				+            "pk",
			
 
				+            "doc_id",
			
 
				+            "chunk_id",
			
 
				+            "metadata"
			
 
				+        ]
			
 
				+        try:
			
 
				+            chunk_results = self.client.query(collection_name=self.collection_name, filter=chunk_expr, output_fields=chunk_output_fields)
			
 
				+            # logger.info(f"{chunk_id}更新切片的信息：{chunk_results}")
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"更新切片数据时查询失败：{e}")
			
 
				+            return "update_query_error", ""
			
 
				+        if not chunk_results:
			
 
				+            logger.info(f"根据{chunk_id}未在向量库中查询到对应数据，无法更新数据")
			
 
				+            return "update_query_no_result", ""
			
 
				+        with torch.no_grad():
			
 
				+            embedding = self.embedding_function([chunk])
			
 
				+        if isinstance(embedding, dict) and "dense" in embedding:
			
 
				+            # bge embedding 获取embedding的方式
			
 
				+            dense_vec = embedding["dense"][0]
			
 
				+        else:
			
 
				+            dense_vec = embedding[0]
			
 
				+        chunk_dict = chunk_results[0]
			
 
				+        metadata = chunk_dict.get("metadata")
			
 
				+        old_chunk_len = metadata.get("chunk_len")
			
 
				+        chunk_len = len(chunk)
			
 
				+        metadata["chunk_len"] = chunk_len
			
 
				+        chunk_dict["content"] = chunk
			
 
				+        chunk_dict["dense_vector"] = dense_vec
			
 
				+        chunk_dict["metadata"] = metadata
			
 
				+        try:
			
 
				+            update_res = self.client.upsert(collection_name=self.collection_name, data=[chunk_dict])
			
 
				+            logger.info(f"更新返回的数据：{update_res}")
			
 
				+            return "update_success", chunk_len - old_chunk_len
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"更新数据时出错：{e}")
			
 
				+            return "update_error", ""
			
 
				+            
			
 
				+    def update_data(self, chunk_id, chunk):
			
 
				+        # 根据chunk id查询对应的信息，
			
 
				+        chunk_expr = f"chunk_id == '{chunk_id}'"
			
 
				+        chunk_output_fields = [
			
 
				+            "pk",
			
 
				+            "doc_id",
			
 
				+            "chunk_id",
			
 
				+            "metadata"
			
 
				+        ]
			
 
				+        try:
			
 
				+            chunk_results = self.client.query(collection_name=self.collection_name, filter=chunk_expr, output_fields=chunk_output_fields)
			
 
				+            # logger.info(f"{chunk_id}更新切片的信息：{chunk_results}")
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"更新切片数据时查询失败：{e}")
			
 
				+            return "update_query_error", ""
			
 
				+        if not chunk_results:
			
 
				+            logger.info(f"根据{chunk_id}未查询到对应数据，无法更新数据")
			
 
				+            return "update_query_no_result", ""
			
 
				+        with torch.no_grad():
			
 
				+            embedding = self.embedding_function([chunk])
			
 
				+        if isinstance(embedding, dict) and "dense" in embedding:
			
 
				+            # bge embedding 获取embedding的方式
			
 
				+            dense_vec = embedding["dense"][0]
			
 
				+        else:
			
 
				+            dense_vec = embedding[0]
			
 
				+        chunk_dict = chunk_results[0]
			
 
				+        metadata = chunk_dict.get("metadata")
			
 
				+        old_chunk_len = metadata.get("chunk_len")
			
 
				+        chunk_len = len(chunk)
			
 
				+        metadata["chunk_len"] = chunk_len
			
 
				+        chunk_dict["content"] = chunk
			
 
				+        chunk_dict["dense_vector"] = dense_vec
			
 
				+        chunk_dict["metadata"] = metadata
			
 
				+        try:
			
 
				+            update_res = self.client.upsert(collection_name=self.collection_name, data=[chunk_dict])
			
 
				+            logger.info(f"更新返回的数据：{update_res}")
			
 
				+            return "update_success", chunk_len - old_chunk_len
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"更新数据时出错：{e}")
			
 
				+            return "update_error", ""
			
 
				+        
			
 
				+    def delete_collection(self, collection):
			
 
				+        try:
			
 
				+            self.client.drop_collection(collection_name=collection)
			
 
				+            return "delete_collection_success"
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"删除{collection}失败，出错原因：{e}")
			
 
				+            return "delete_collection_error"
			
 
				+
			
 
				+    def delete_by_chunk_id(self, chunk_id:str = None):
			
 
				+        # 根据文档id查询主键值 milvus只支持主键删除
			
 
				+        expr = f"chunk_id == '{chunk_id}'"
			
 
				+        try:
			
 
				+            results = self.client.query(collection_name=self.collection_name, filter=expr, output_fields=["pk","metadata"])  # 获取主键 id
			
 
				+            logger.info(f"根据切片id：{chunk_id}，查询的数据：{results}")
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"根据切片id查询主键失败：{e}")
			
 
				+            return "delete_query_error", []
			
 
				+        if not results:
			
 
				+            print(f"No data found for chunk id: {chunk_id}")
			
 
				+            # return "delete_no_result", []
			
 
				+            return "delete_success", 0
			
 
				+        
			
 
				+        # 提取主键值
			
 
				+        primary_keys = [result["pk"] for result in results]
			
 
				+        chunk_len = [result["metadata"]["chunk_len"] for result in results]
			
 
				+        logger.info(f"获取到的主键信息：{primary_keys}")
			
 
				+        
			
 
				+        # 执行删除操作
			
 
				+        expr_delete = f"pk in {primary_keys}"  # 构造删除表达式
			
 
				+        try:
			
 
				+            delete_res = self.client.delete(collection_name=self.collection_name, filter=expr_delete)
			
 
				+            logger.info(f"Deleted data with chunk_id: {delete_res}")
			
 
				+            return "delete_success", chunk_len
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"删除数据失败：{e}")
			
 
				+            return "delete_error", []
			
 
				+        
			
 
				+    def delete_by_doc_id(self, doc_id:str =None):
			
 
				+        # 根据文档id查询主键值 milvus只支持主键删除
			
 
				+        expr = f"doc_id == '{doc_id}'"
			
 
				+        try:
			
 
				+            results = self.client.query(collection_name=self.collection_name, filter=expr, output_fields=["pk"])  # 获取主键 id
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"根据切片id查询主键失败：{e}")
			
 
				+            return "delete_query_error"
			
 
				+        if not results:
			
 
				+            print(f"No data found for doc_id: {doc_id}")
			
 
				+            return "delete_no_result"
			
 
				+        
			
 
				+        # 提取主键值
			
 
				+        primary_keys = [result["pk"] for result in results]
			
 
				+        logger.info(f"获取到的主键信息：{primary_keys}")
			
 
				+        
			
 
				+        # 执行删除操作
			
 
				+        expr_delete = f"pk in {primary_keys}"  # 构造删除表达式
			
 
				+        try:
			
 
				+            delete_res = self.client.delete(collection_name=self.collection_name, filter=expr_delete)
			
 
				+            logger.info(f"Deleted data with doc_id: {delete_res}")
			
 
				+            return "delete_success"
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"删除数据失败：{e}")
			
 
				+            return "delete_error"
			
 
				+        
			
 
				+    
			
 
				+# 测试
			
 
				+# def parse_json_to_schema_data_format():
			
 
				+#     sql_text_list = load_sql_query_ddl_info()
			
 
				+#     docs = []
			
 
				+#     for sql_info in sql_text_list:
			
 
				+#         sql_text = sql_info.get("sql_text")
			
 
				+#         source = ",".join(sql_info.get("table_list", []))
			
 
				+#         source = sql_info.get("source") if not source else source
			
 
				+#         sql = sql_info.get("sql")
			
 
				+#         ddl = sql_info.get("table_ddl")
			
 
				+#         metadata = {"source": source, "sql": sql, "ddl": ddl}
			
 
				+#         text_list = sql_info.get("sim_sql_text_list", [])
			
 
				+#         text_list.append(sql_text)
			
 
				+#         doc_id = str(uuid4())
			
 
				+#         for text in text_list:
			
 
				+#             chunk_id = str(uuid4())
			
 
				+#             insert_dict = {
			
 
				+#                 "content": text,
			
 
				+#                 "doc_id": doc_id,
			
 
				+#                 "chunk_id": chunk_id,
			
 
				+#                 "metadata": metadata
			
 
				+#             }
			
 
				+#             docs.append(insert_dict)
			
 
				+    
			
 
				+#     return docs
			
 
				+
			
 
				+# def insert_data_to_milvus(standard_retriever):
			
 
				+#     sql_dataset = parse_json_to_schema_data_format()
			
 
				+#     standard_retriever.build_collection()
			
 
				+#     for sql_dict in sql_dataset:
			
 
				+#         text = sql_dict["content"]
			
 
				+#         standard_retriever.insert_data(text, sql_dict)
			
 
				+
			
 
				+def main():
			
 
				+    # dense_ef = BGEM3EmbeddingFunction()
			
 
				+    embedding_path = r"G:/work/code/models/multilingual-e5-large-instruct/"
			
 
				+    sentence_transformer_ef = model.dense.SentenceTransformerEmbeddingFunction(model_name=embedding_path,device=device)
			
 
				+    standard_retriever = HybridRetriever(
			
 
				+        uri="http://localhost:19530",
			
 
				+        collection_name="milvus_hybrid",
			
 
				+        dense_embedding_function=sentence_transformer_ef,
			
 
				+    )
			
 
				+    # 插入数据
			
 
				+    # insert_data_to_milvus(standard_retriever)
			
 
				+
			
 
				+    # 查询 混合检索：hybrid ，稀疏检索sparse，向量检索：dense
			
 
				+    # results = standard_retriever.search("查一下加班情况", mode="hybrid", k=3)
			
 
				+    # model=sparse 稀疏检索
			
 
				+    # print(f"稀疏检索结果：{results}")
			
 
				+
			
 
				+    # model=dense 向量检索
			
 
				+    # print(f"向量检索结果：{results}")
			
 
				+
			
 
				+    # model=hybrid
			
 
				+    # print(f"向量检索结果：{results}")
			
 
				+
			
 
				+    # 根据doc id删除数据
			
 
				+    # delete_start_time = time.time()
			
 
				+    # doc_id = "e72ebf78-6c0d-410b-8fbb-9a2057673064"
			
 
				+    # standard_retriever.delete_data(doc_id=doc_id)
			
 
				+    # delete_end_time = time.time()
			
 
				+    # print(f"删除耗时：{delete_end_time-delete_start_time}")
			
 
				+
			
 
				+    # 根据chunk_id 更新数据
			
 
				+    # update_start_time = time.time()
			
 
				+    # chunk = "查询一下员工加班的情况"
			
 
				+    # chunk_id = "a5e8dded-f5a7-4a1f-92cd-82fa8113b418"
			
 
				+    # standard_retriever.update_data(chunk_id, chunk)
			
 
				+    # update_end_time = time.time()
			
 
				+    # print(f"更新数据的时间：{update_end_time-update_start_time}")
			
 
				+
			
 
				+    # 根据doc id 和关键字查询
			
 
				+    query_start_time = time.time()
			
 
				+    filter_field = "加班"
			
 
				+    doc_id = ["7b73ae0b-db97-4315-ba71-783fe7a69c61", "96bbe5a8-5fcf-4769-8343-938acb8735bd"]
			
 
				+    standard_retriever.query_filter(doc_id, filter_field)
			
 
				+    query_end_time = time.time()
			
 
				+    print(f"关键字搜索数据的时间：{query_end_time-query_start_time}")
			
 
				+
			
 
				+
			
 
				+if __name__=="__main__":
			
 
				+    main()
			
--- a/rag_server.py
+++ b/rag_server.py
@@ -0,0 +1,146 @@
 
				+# 请求的入口
			
 
				+
			
 
				+from fastapi import FastAPI, File, UploadFile, Form, Request, Response, WebSocket, WebSocketDisconnect, Depends, APIRouter, Body
			
 
				+from fastapi.responses import JSONResponse, FileResponse, StreamingResponse
			
 
				+from fastapi.middleware.cors import CORSMiddleware
			
 
				+from sse_starlette import EventSourceResponse
			
 
				+import uvicorn
			
 
				+from utils.get_logger import setup_logger
			
 
				+from rag.vector_db.milvus_vector import HybridRetriever
			
 
				+from response_info import generate_message, generate_response
			
 
				+from rag.db import MilvusOperate
			
 
				+from rag.file_process import ParseFile
			
 
				+from rag.documents_process import ProcessDocuments
			
 
				+from rag.chat_message import ChatRetrieverRag
			
 
				+
			
 
				+
			
 
				+logger = setup_logger(__name__)
			
 
				+app = FastAPI()
			
 
				+
			
 
				+# 设置跨域
			
 
				+app.add_middleware(
			
 
				+    CORSMiddleware,
			
 
				+    allow_origins=["*"],
			
 
				+    allow_credentials=True,
			
 
				+    allow_methods=["*"],
			
 
				+    allow_headers=["*"],
			
 
				+)
			
 
				+
			
 
				+@app.get("/health")
			
 
				+async def health_check():
			
 
				+    return {"status": "healthy"}
			
 
				+
			
 
				+@app.post("/upload_knowledge")
			
 
				+async def upload_file_to_db(file_json: dict):
			
 
				+    logger.info(f"上传文件请求参数：{file_json}")
			
 
				+    parse_file = ProcessDocuments(file_json)
			
 
				+    resp = await parse_file.process_documents(file_json)
			
 
				+    # parse_file = ParseFile(file_json)
			
 
				+    # resp = parse_file.save_file_to_db()
			
 
				+
			
 
				+    logger.info(f"上传文件响应结果：{resp}")
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+
			
 
				+# @app.post("/network/search")
			
 
				+# async def chat_with_rag(request: Request, chat_json:dict):
			
 
				+#     retriever = ChatRetrieverRag(chat_json)
			
 
				+
			
 
				+#     return EventSourceResponse(retriever.generate_event(chat_json, request), ping=300)
			
 
				+
			
 
				+@app.post("/rag/chat")
			
 
				+async def chat_with_rag(request: Request, chat_json:dict):
			
 
				+    retriever = ChatRetrieverRag(chat_json)
			
 
				+
			
 
				+    return EventSourceResponse(retriever.generate_event(chat_json, request), ping=300)
			
 
				+
			
 
				+@app.post("/rag/query")
			
 
				+async def generate_query(request: Request, query_json:dict):
			
 
				+    logger.info(f"请求参数：{query_json}")
			
 
				+    relevant_query = ChatRetrieverRag(query_json)
			
 
				+    relevant_json = await relevant_query.generate_relevant_query(query_json)
			
 
				+
			
 
				+    return JSONResponse(relevant_json)
			
 
				+
			
 
				+@app.get("/rag/slice/search/{chat_id}")
			
 
				+async def generate_query(request: Request, chat_id:str = None):
			
 
				+    chat = ChatRetrieverRag(chat_id=chat_id)
			
 
				+    chunk_json = await chat.search_slice()
			
 
				+
			
 
				+    return JSONResponse(chunk_json)
			
 
				+
			
 
				+
			
 
				+@app.delete("/rag/delete_slice/{slice_id}/{knowledge_id}/{document_id}")
			
 
				+async def delete_by_chunk_id(slice_id:str=None, knowledge_id:str=None, document_id:str=None):
			
 
				+    logger.info(f"删除切片接口中，知识库：{knowledge_id}, 切片id：{slice_id}")
			
 
				+    resp = MilvusOperate(collection_name=knowledge_id)._delete_by_chunk_id(slice_id, knowledge_id, document_id)
			
 
				+    logger.info(f"删除切片信息的结果：{resp}")
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+@app.delete("/rag/delete_doc/{doc_id}/{knowledge_id}")
			
 
				+async def delete_by_doc_id(doc_id:str=None, knowledge_id:str=None):
			
 
				+    logger.info(f"删除文档id接口，知识库：{knowledge_id}, 文档id：{doc_id}")
			
 
				+    resp = MilvusOperate(collection_name=knowledge_id)._delete_by_doc_id(doc_id=doc_id)
			
 
				+    logger.info(f"删除文档的结果：{resp}")
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+@app.put("/rag/update_slice")
			
 
				+async def put_by_id(slice_json:dict):
			
 
				+    logger.info(f"更新切片信息的请求参数：{slice_json}")
			
 
				+    collection_name = slice_json.get("knowledge_id")
			
 
				+    resp = MilvusOperate(collection_name=collection_name)._put_by_id(slice_json)
			
 
				+
			
 
				+    logger.info(f"更新切片信息的结果：{resp}")
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+@app.post("/rag/insert_slice")
			
 
				+async def insert_slice_text(slice_json:dict):
			
 
				+    logger.info(f"新增切片信息的请求参数：{slice_json}")
			
 
				+    collection_name = slice_json.get("knowledge_id")
			
 
				+    resp = MilvusOperate(collection_name=collection_name)._insert_slice(slice_json)
			
 
				+
			
 
				+    logger.info(f"新增切片信息的结果：{resp}")
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+@app.get("/rag/search/{knowledge_id}/{slice_id}")
			
 
				+async def search_by_doc_id(knowledge_id:str=None, slice_id:str=None):
			
 
				+    # 根据切片id查询切片信息
			
 
				+    # print(f"知识库：{knowledge_id}, 切片：{slice_id}")
			
 
				+    logger.info(f"根据切片id查询的数据库名：{knowledge_id}，切片id：{slice_id}")
			
 
				+    collection_name = knowledge_id  # 根据传过来的id处理对应知识库
			
 
				+    resp = MilvusOperate(collection_name=collection_name)._search_by_chunk_id(slice_id)
			
 
				+
			
 
				+    logger.info(f"根据切片id查询结果：{resp}")
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+@app.post("/rag/search_word")
			
 
				+async def search_by_key_word(search_json:dict):
			
 
				+    # 根据doc_id 查询切片列表信息
			
 
				+    collection_name = search_json.get("knowledge_id")
			
 
				+    logger.info(f"根据关键字请求的参数：{search_json}")
			
 
				+    resp = MilvusOperate(collection_name=collection_name)._search_by_key_word(search_json)
			
 
				+
			
 
				+    logger.info(f"根据关键字查询的结果：{resp}")
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+@app.delete("/rag/delete_knowledge/{knowledge_id}")
			
 
				+async def delete_collection(knowledge_id: str = None):
			
 
				+    logger.info(f"删除数据库请求的参数：{knowledge_id}")
			
 
				+    resp = MilvusOperate(collection_name=knowledge_id)._delete_collection()
			
 
				+    logger.info(f"删除向量库结果：{resp}")
			
 
				+
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+@app.post("/rag/create_collection")
			
 
				+async def create_collection(collection: dict):
			
 
				+    collection_name = collection.get("knowledge_id")
			
 
				+    embedding_name = collection.get("embedding_id")
			
 
				+    logger.info(f"创建向量库的库名：{collection_name}，向量名称：{embedding_name}")
			
 
				+    resp = MilvusOperate(collection_name=collection_name, embedding_name=embedding_name)._create_collection()
			
 
				+    logger.info(f"创建向量库结果：{resp}")
			
 
				+    
			
 
				+    return JSONResponse(resp)
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    uvicorn.run(app, host="0.0.0.0", port=18079)
			
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,104 @@
 
				+aiohappyeyeballs==2.6.1
			
 
				+aiohttp==3.11.15
			
 
				+aiosignal==1.3.2
			
 
				+annotated-types==0.7.0
			
 
				+anyio==4.9.0
			
 
				+argon2-cffi==23.1.0
			
 
				+argon2-cffi-bindings==21.2.0
			
 
				+attrs==25.3.0
			
 
				+certifi==2025.1.31
			
 
				+cffi==1.17.1
			
 
				+charset-normalizer==3.4.1
			
 
				+click==8.1.8
			
 
				+colorama==0.4.6
			
 
				+coloredlogs==15.0.1
			
 
				+cryptography==44.0.2
			
 
				+dataclasses-json==0.6.7
			
 
				+distro==1.9.0
			
 
				+fastapi==0.115.12
			
 
				+filelock==3.13.1
			
 
				+flatbuffers==25.2.10
			
 
				+frozenlist==1.5.0
			
 
				+fsspec==2024.6.1
			
 
				+greenlet==3.1.1
			
 
				+grpcio==1.67.1
			
 
				+h11==0.14.0
			
 
				+httpcore==1.0.7
			
 
				+httpx==0.28.1
			
 
				+httpx-sse==0.4.0
			
 
				+huggingface-hub==0.30.1
			
 
				+humanfriendly==10.0
			
 
				+idna==3.10
			
 
				+Jinja2==3.1.4
			
 
				+jiter==0.9.0
			
 
				+joblib==1.4.2
			
 
				+jsonpatch==1.33
			
 
				+jsonpointer==3.0.0
			
 
				+langchain==0.3.22
			
 
				+langchain-community==0.3.18
			
 
				+langchain-core==0.3.49
			
 
				+langchain-text-splitters==0.3.7
			
 
				+langsmith==0.3.21
			
 
				+MarkupSafe==2.1.5
			
 
				+marshmallow==3.26.1
			
 
				+milvus-model==0.2.12
			
 
				+minio==7.2.15
			
 
				+mpmath==1.3.0
			
 
				+multidict==6.3.0
			
 
				+mypy-extensions==1.0.0
			
 
				+mysql-connector-python==9.2.0
			
 
				+networkx==3.3
			
 
				+numpy==1.26.4
			
 
				+onnxruntime==1.21.0
			
 
				+openai==1.72.0
			
 
				+orjson==3.10.16
			
 
				+packaging==24.2
			
 
				+pandas==2.2.3
			
 
				+pdfminer.six==20250327
			
 
				+pdfplumber==0.11.6
			
 
				+pillow==11.0.0
			
 
				+propcache==0.3.1
			
 
				+protobuf==6.30.2
			
 
				+pycparser==2.22
			
 
				+pycryptodome==3.22.0
			
 
				+pydantic==2.11.1
			
 
				+pydantic-settings==2.8.1
			
 
				+pydantic_core==2.33.0
			
 
				+pymilvus==2.5.4
			
 
				+PyMuPDF==1.25.5
			
 
				+pypdfium2==4.30.1
			
 
				+pyreadline3==3.5.4
			
 
				+python-dateutil==2.9.0.post0
			
 
				+python-dotenv==1.1.0
			
 
				+pytz==2025.2
			
 
				+PyYAML==6.0.2
			
 
				+regex==2024.11.6
			
 
				+requests==2.32.3
			
 
				+requests-toolbelt==1.0.0
			
 
				+safetensors==0.5.3
			
 
				+scikit-learn==1.6.1
			
 
				+scipy==1.15.2
			
 
				+sentence-transformers==4.0.1
			
 
				+six==1.17.0
			
 
				+sniffio==1.3.1
			
 
				+SQLAlchemy==2.0.40
			
 
				+sse-starlette==2.2.1
			
 
				+starlette==0.46.1
			
 
				+sympy==1.13.1
			
 
				+tenacity==9.0.0
			
 
				+threadpoolctl==3.6.0
			
 
				+tokenizers==0.21.1
			
 
				+torch==2.5.0+cu124
			
 
				+torchaudio==2.5.0+cu124
			
 
				+torchvision==0.20.0+cu124
			
 
				+tqdm==4.67.1
			
 
				+transformers==4.50.3
			
 
				+typing-inspect==0.9.0
			
 
				+typing-inspection==0.4.0
			
 
				+typing_extensions==4.12.2
			
 
				+tzdata==2025.2
			
 
				+ujson==5.10.0
			
 
				+urllib3==2.3.0
			
 
				+uvicorn==0.34.0
			
 
				+yarl==1.18.3
			
 
				+zstandard==0.23.0
			
--- a/response_info.py
+++ b/response_info.py
@@ -0,0 +1,85 @@
 
				+database_delete_update_response_mapping = {
			
 
				+    "delete_query_error": ("根据id查询出错", 500),
			
 
				+    "delete_no_result": ("向量库中未查询到对应的数据", 200),
			
 
				+    "delete_error": ("根据id删除数据失败", 500),
			
 
				+    "delete_success": ("删除成功", 200),
			
 
				+    "update_query_error": ("更新数据出错", 500),
			
 
				+    "update_query_no_result": ("未查询到需要更新的数据", 200),
			
 
				+    "update_error": ("更新数据时出错", 500),
			
 
				+    "update_success": ("更新成功", 200),
			
 
				+    "delete_collection_error": ("删除数据库失败", 500),
			
 
				+    "delete_collection_success": ("删除数据库成功", 200),
			
 
				+    "create_collection_error": ("创建数据库失败", 500),
			
 
				+    "create_collection_success": ("创建数据库成功", 200),
			
 
				+    "insert_success": ("插入切片成功", 200),
			
 
				+    "insert_error": ("插入切片失败", 500),
			
 
				+}
			
 
				+
			
 
				+
			
 
				+def generate_message(result):
			
 
				+    message, code = database_delete_update_response_mapping.get(result)
			
 
				+
			
 
				+    response_dict = {
			
 
				+        "code": code,
			
 
				+        "message": message
			
 
				+    }
			
 
				+    return response_dict
			
 
				+
			
 
				+def generate_response(result, page_num=0, page_size=10):
			
 
				+    if page_num:
			
 
				+        if not result:
			
 
				+            resp_dict = {"code": 200, "rows": [], "total": 0}
			
 
				+    
			
 
				+        elif "code" in result[0]:
			
 
				+            resp_dict = {}
			
 
				+            resp_dict.update(result[0])
			
 
				+            resp_dict["rows"] = []
			
 
				+            resp_dict["message"] = "查询向量库出错"
			
 
				+            resp_dict["total"] = 0
			
 
				+
			
 
				+            # return resp_dict
			
 
				+        else:
			
 
				+            rows = []
			
 
				+            total_len = len(result)
			
 
				+            skip = int(page_num-1) * int(page_size)
			
 
				+            iter_result = result[skip:skip+page_size]
			
 
				+            for i in iter_result:
			
 
				+                d = {}
			
 
				+                d["slice_id"] = i.get("chunk_id")
			
 
				+                d["document_id"] = i.get("doc_id")
			
 
				+                d["slice_text"] = i.get("content")
			
 
				+                d["slice_char_len"] = i.get("metadata").get("chunk_len")
			
 
				+                rows.append(d)
			
 
				+            resp_dict = {
			
 
				+                "code": 200,
			
 
				+                "rows": rows,
			
 
				+                "total": total_len
			
 
				+            }
			
 
				+            
			
 
				+        return resp_dict
			
 
				+    else:
			
 
				+        if not result:
			
 
				+            resp_dict = {"code": 200, "data": {}}
			
 
				+    
			
 
				+        elif "code" in result[0]:
			
 
				+            resp_dict = {}
			
 
				+            resp_dict.update(result[0])
			
 
				+            resp_dict["data"] = {}
			
 
				+            resp_dict["message"] = "查询向量库出错"
			
 
				+
			
 
				+            # return resp_dict
			
 
				+        else:
			
 
				+            d = {}
			
 
				+            for i in result:
			
 
				+                d["slice_id"] = i.get("chunk_id")
			
 
				+                d["document_id"] = i.get("doc_id")
			
 
				+                d["slice_text"] = i.get("content")
			
 
				+                # rows.append(d)
			
 
				+            resp_dict = {
			
 
				+                "code": 200,
			
 
				+                "data": d,
			
 
				+                # "total": total_len
			
 
				+            }
			
 
				+
			
 
				+        return resp_dict
			
 
				+    
			
--- a/utils/__init__.py
+++ b/utils/__init__.py
--- a/utils/__pycache__/__init__.cpython-310.pyc
+++ b/utils/__pycache__/__init__.cpython-310.pyc
--- a/utils/__pycache__/__init__.cpython-311.pyc
+++ b/utils/__pycache__/__init__.cpython-311.pyc
--- a/utils/__pycache__/get_logger.cpython-310.pyc
+++ b/utils/__pycache__/get_logger.cpython-310.pyc
--- a/utils/__pycache__/get_logger.cpython-311.pyc
+++ b/utils/__pycache__/get_logger.cpython-311.pyc
--- a/utils/__pycache__/upload_file_to_oss.cpython-310.pyc
+++ b/utils/__pycache__/upload_file_to_oss.cpython-310.pyc
--- a/utils/__pycache__/upload_file_to_oss.cpython-311.pyc
+++ b/utils/__pycache__/upload_file_to_oss.cpython-311.pyc
--- a/utils/get_logger.py
+++ b/utils/get_logger.py
@@ -0,0 +1,40 @@
 
				+import logging
			
 
				+from logging.handlers import TimedRotatingFileHandler
			
 
				+import os
			
 
				+
			
 
				+def setup_logger(file_name):
			
 
				+    # 获取一个日志记录器
			
 
				+    logger = logging.getLogger(file_name)
			
 
				+    
			
 
				+    # 设置日志级别
			
 
				+    logger.setLevel(logging.DEBUG)  # 设置最低的日志级别为DEBUG
			
 
				+
			
 
				+    # 创建一个文件处理器，并设置日志文件的路径
			
 
				+    # file_handler = logging.FileHandler(f"./logs/{file_name}.log", encoding="utf-8")
			
 
				+    log_file_path = os.path.join("./logs", f"{file_name}.log")
			
 
				+    file_handler = TimedRotatingFileHandler(
			
 
				+        filename=log_file_path,
			
 
				+        when="midnight",       # 每天午夜轮转
			
 
				+        interval=1,            # 每隔1天轮转一次
			
 
				+        encoding="utf-8"
			
 
				+    )
			
 
				+    
			
 
				+    # 设置文件处理器的日志级别
			
 
				+    file_handler.setLevel(logging.DEBUG)
			
 
				+    
			
 
				+    # 创建一个控制台处理器（可选，用于同时输出到控制台）
			
 
				+    console_handler = logging.StreamHandler()
			
 
				+    console_handler.setLevel(logging.DEBUG)
			
 
				+    
			
 
				+    # 创建一个格式化器，并设置日志条目的格式
			
 
				+    formatter = logging.Formatter('%(asctime)s - %(name)s - %(lineno)d - %(levelname)s - %(message)s')
			
 
				+    
			
 
				+    # 将格式化器添加到处理器
			
 
				+    file_handler.setFormatter(formatter)
			
 
				+    console_handler.setFormatter(formatter)
			
 
				+    
			
 
				+    # 将处理器添加到日志记录器
			
 
				+    logger.addHandler(file_handler)
			
 
				+    logger.addHandler(console_handler)
			
 
				+    
			
 
				+    return logger
			
--- a/utils/simsun.ttc
+++ b/utils/simsun.ttc
--- a/utils/upload_file_to_oss.py
+++ b/utils/upload_file_to_oss.py
@@ -0,0 +1,75 @@
 
				+from minio import Minio
			
 
				+from minio.error import S3Error
			
 
				+from minio.deleteobjects import DeleteObject
			
 
				+from config import minio_config
			
 
				+from utils.get_logger import setup_logger
			
 
				+
			
 
				+logger = setup_logger(__name__)
			
 
				+
			
 
				+class UploadMinio():
			
 
				+    def __init__(self):
			
 
				+        self.minio_endpoint = minio_config.get("minio_endpoint")
			
 
				+        self.minio_access_key = minio_config.get("minio_access_key")
			
 
				+        self.minio_secret_key = minio_config.get("minio_secret_key")
			
 
				+        self.minio_bucket = minio_config.get("minio_bucket")
			
 
				+        self.flag = minio_config.get("flag")
			
 
				+        self.minio_client = Minio(self.minio_endpoint,
			
 
				+                    access_key=self.minio_access_key,
			
 
				+                    secret_key=self.minio_secret_key,
			
 
				+                    cert_check=False,
			
 
				+                    # http_client=http_client,
			
 
				+                    secure=self.flag)  # 如果使用https，请将secure设置为True
			
 
				+
			
 
				+    def upload_file(self, local_file_path, minio_bucket_file):
			
 
				+        try:
			
 
				+            # 使用put_object方法将文件上传到MinIO
			
 
				+            self.minio_client.fput_object(self.minio_bucket, minio_bucket_file, local_file_path)
			
 
				+        
			
 
				+            logger.info(f"File {local_file_path} uploaded to MinIO successfully.")
			
 
				+            return True
			
 
				+        
			
 
				+        except S3Error as e:
			
 
				+            logger.error(f"Error uploading file to MinIO: {e}")
			
 
				+            return False
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"报错信息：{e}")
			
 
				+            return False
			
 
				+        
			
 
				+    def upload_io_bytes(self, minio_bucket_file, bytes_obj):
			
 
				+        try:
			
 
				+            # 使用put_object方法将文件上传到MinIO
			
 
				+            self.minio_client.put_object(self.minio_bucket,minio_bucket_file, bytes_obj, bytes_obj.tell())
			
 
				+        
			
 
				+            logger.info(f"File {minio_bucket_file} uploaded to MinIO successfully.")
			
 
				+            return True
			
 
				+        
			
 
				+        except S3Error as e:
			
 
				+            logger.error(f"Error uploading file to MinIO: {e}")
			
 
				+            return False
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"报错信息：{e}")
			
 
				+            return False
			
 
				+        
			
 
				+    def delete_doc_id_images(self, knowledge_id, doc_id):
			
 
				+        try:
			
 
				+            objects = self.minio_client.list_objects(self.minio_bucket, prefix=f"pdf/{knowledge_id}/{doc_id}", recursive=True)
			
 
				+
			
 
				+            objects_to_delete = []
			
 
				+            for obj in objects:
			
 
				+                objects_to_delete.append(DeleteObject(obj.object_name))
			
 
				+                # self.minio_client.remove_object(self.minio_bucket, obj.object_name)
			
 
				+            error_responses = self.minio_client.remove_objects(self.minio_bucket, objects_to_delete)
			
 
				+            for error in error_responses:
			
 
				+                if error:
			
 
				+                    delete_flag = False 
			
 
				+                    logger.info("Deletion Error: {}".format(error))
			
 
				+                    break
			
 
				+            else:
			
 
				+                logger.info("Sussess")
			
 
				+                delete_flag = True
			
 
				+            return delete_flag
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"删除minio图片出错：{e}")
			
 
				+            return False