From dc11159a661175da5c60e49145df385feec72f59 Mon Sep 17 00:00:00 2001 From: zydi Date: Sun, 12 Jan 2025 07:05:03 +0000 Subject: [PATCH] update README --- README.md | 34 +++++++++++++++++----------------- 1 file changed, 17 insertions(+), 17 deletions(-) diff --git a/README.md b/README.md index d4b14e1..4d9fa68 100644 --- a/README.md +++ b/README.md @@ -7,11 +7,11 @@ ``` API/ ├── api/ # 视觉分析和处理模块 - │ ├── producer/ # 主程序入口,生产者,分配任务 - │ ├── cpm_analyze.py # CPM_OCR模型分析 - │ ├── qwenvl_analyze.py # QwenVL_OCR模型分析 - │ ├── cpm_scene.py # CPM_场景模型分析 - │ ├── qwenvl_scene.py # QwenVL_场景模型分析 + │ ├── producer/ # 生产者,分配任务 + │ ├── cpm_analyze.py # CPM_OCR分析 + │ ├── qwenvl_analyze.py # QwenVL_OCR分析 + │ ├── cpm_scene.py # CPM_场景分析 + │ ├── qwenvl_scene.py # QwenVL_场景分析 │ ├── compare.py # 人脸对比模型 │ ├── yolo.py # YOLO目标检测 │ ├── face.py # 人脸检测 @@ -19,16 +19,16 @@ │ ├── pose.py # 姿态估计 │ └── media.py # 媒体处理 ├── api_chat/ # 聊天和语音处理模块 - │ ├── producer_chat/ # 聊天生产者 + │ ├── producer_chat/ # 聊天生产者 │ ├── chat.py # 聊天功能 │ ├── tts.py # 文字转语音 │ ├── asr.py # 语音识别 │ ├── GPT_SoVITS/ # GPT_SoVITS模型集成, - │ ├── sample/ # OpenBMB模型——学习音色,音色+文本内容, + │ ├── sample/ # OpenBMB模型——学习音色,音色+文本内容 │ ├── tools/ # GPT_SoVITS模型——工具函数 │ ├── runtime/ # GPT_SoVITS模型——运行时函数 │ ├── docs/ # GPT_SoVITS模型——文档 - │ ├── TEMP/ # OpenBMB模型临时文件夹, + │ ├── TEMP/ # OpenBMB模型临时文件夹 │ └── before/ # 历史代码,可以忽略 ├── api_history/ # api历史代码,可以忽略 ├── chat_history/ # api_chat历史代码,可以忽略 @@ -37,17 +37,17 @@ ## 主要功能 -### 视觉分析模块 (api/) - - 目标检测和跟踪 - - 人脸识别 - - 人脸对比 - - 姿态估计 - - 跌倒检测 - - 场景理解(基于CPM和QwenVL模型) +### 视觉分析模块 (api/) 支持图片、视频 + - 目标检测 yolov8x + - 人脸检测 yolov8n-face + - 面部特征提取 insightface 、mediapipe + - 姿态估计 yolov8x-pose + - 跌倒检测 yolov8n-fall + - 场景理解、OCR分析(基于CPM和QwenVL-2B模型) ### 聊天对话模块 (api_chat/) - - 文本对话功能 - - 语音识别 (ASR): 通过Whisper模型 + - 文本对话功能(Ollama-qwen2.5:3b) + - 语音识别 (ASR): 通过Whisper-large-v3模型 - 文字转语音 (TTS): 通过GPT_SoVITS模型 - 多模型支持(通过Ollama)