瀏覽代碼

上传文件至 ''

ryuiso 5 天之前
父節點
當前提交
b00e0e7400
共有 2 個文件被更改,包括 113 次插入0 次删除
  1. 84 0
      README.md
  2. 29 0
      requirements.txt

+ 84 - 0
README.md

@@ -0,0 +1,84 @@
+# 合同信息提取系统
+
+[![Python 3.8+](https://img.shields.io/badge/python-3.8+-blue.svg)](https://www.python.org/downloads/)
+[![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)
+
+基于大语言模型的智能合同信息提取系统,自动从工程项目文档中提取结构化信息。
+
+## 快速开始
+
+### 1. 环境要求
+
+- **Python 3.8+**(需自行安装)
+- pip 包管理器
+
+### 2. 安装依赖
+
+```bash
+pip install -r requirements.txt
+```
+
+### 3. 配置
+
+编辑 `jk_min_rag_dome.py`,配置 LLM API 密钥和数据文件路径:
+
+```python
+self.api_key = "your-api-key"
+self.base_url = "https://api.deepseek.com"
+self.model = "deepseek-chat"
+```
+
+### 4. 运行
+
+```bash
+python jk_min_rag_dome.py
+```
+
+### 5. 使用
+
+1. 将项目文件夹放入 `input_dir/` 目录
+2. 系统自动处理并输出结果到 `output_dir/`
+
+## 目录结构
+
+```
+jk-ik/
+├── input_dir/           # 输入目录(放置待处理项目)
+│   └── 示例项目/
+│       └── 示例项目/
+│           └── 合同文档.txt
+├── output_dir/          # 输出目录(处理结果)
+├── data/                # 模拟数据目录
+├── docs/                # 文档目录
+│   └── README.md        # 详细使用文档
+├── jk_min_rag_dome.py   # 主程序
+├── requirements.txt     # 依赖列表
+└── README.md            # 本文件
+```
+
+## 核心功能
+
+- 🤖 AI 驱动的信息提取
+- 📁 批量处理项目文件夹
+- 🔍 项目名称模糊匹配
+- 📊 结构化 JSON 输出
+- 🔄 自动目录监控
+- 📦 支持 ZIP/7Z/RAR 解压
+
+## 支持的文件格式
+
+| 格式 | 扩展名 | 说明 |
+|------|--------|------|
+| Word | .docx | 原生支持 |
+| Word | .doc | 需要 antiword |
+| Excel | .xlsx, .xls | 原生支持 |
+| 文本 | .txt | 原生支持 |
+| 压缩 | .zip, .7z, .rar | 自动解压 |
+
+## 详细文档
+
+查看 [docs/README.md](docs/README.md) 获取完整的使用说明。
+
+## 许可证
+
+MIT License

+ 29 - 0
requirements.txt

@@ -0,0 +1,29 @@
+# 合同信息提取系统 - 依赖包
+
+# 核心依赖
+pandas>=2.0.0
+openpyxl>=3.1.0
+python-docx>=1.1.0
+docx2txt>=0.8
+
+# LLM 客户端
+openai>=1.0.0
+
+# 文件监控
+watchdog>=4.0.0
+
+# Token 计算
+tiktoken>=0.5.0
+
+# 压缩文件支持
+py7zr>=0.20.0
+rarfile>=4.2
+
+# 可选依赖(用于读取.xls 文件)
+# xlrd>=2.0.0
+
+# 可选依赖(用于读取.doc 文件,Linux/macOS 需要安装 antiword)
+# antiword 系统命令:
+#   macOS: brew install antiword
+#   Linux: apt-get install antiword
+#   Windows: 下载二进制文件并添加到 PATH