update README

2025-01-12 07:05:03 +00:00
parent b22b949620
commit dc11159a66
1 changed files with 17 additions and 17 deletions
@@ -7,11 +7,11 @@
    ```
    API/
    ├── api/                   # 视觉分析和处理模块
-    │   ├── producer/          # 主程序入口，生产者，分配任务
+    │   ├── producer/          # 生产者，分配任务
-    │   ├── cpm_analyze.py     # CPM_OCR模型分析
+    │   ├── cpm_analyze.py     # CPM_OCR分析
-    │   ├── qwenvl_analyze.py  # QwenVL_OCR模型分析
+    │   ├── qwenvl_analyze.py  # QwenVL_OCR分析
-    │   ├── cpm_scene.py       # CPM_场景模型分析
+    │   ├── cpm_scene.py       # CPM_场景分析
-    │   ├── qwenvl_scene.py    # QwenVL_场景模型分析
+    │   ├── qwenvl_scene.py    # QwenVL_场景分析
    │   ├── compare.py         # 人脸对比模型
    │   ├── yolo.py            # YOLO目标检测
    │   ├── face.py            # 人脸检测
@@ -19,16 +19,16 @@
    │   ├── pose.py            # 姿态估计
    │   └── media.py           # 媒体处理
    ├── api_chat/            # 聊天和语音处理模块
-    │   ├── producer_chat/       # 聊天生产者
+    │   ├── producer_chat/    # 聊天生产者
    │   ├── chat.py           # 聊天功能
    │   ├── tts.py            # 文字转语音
    │   ├── asr.py            # 语音识别
    │   ├── GPT_SoVITS/      # GPT_SoVITS模型集成，
-    │   ├── sample/          # OpenBMB模型——学习音色，音色+文本内容，
+    │   ├── sample/          # OpenBMB模型——学习音色，音色+文本内容
    │   ├── tools/           # GPT_SoVITS模型——工具函数
    │   ├── runtime/         # GPT_SoVITS模型——运行时函数
    │   ├── docs/            # GPT_SoVITS模型——文档
-    │   ├── TEMP/            # OpenBMB模型临时文件夹，
+    │   ├── TEMP/            # OpenBMB模型临时文件夹
    │   └── before/          # 历史代码，可以忽略   
    ├── api_history/          # api历史代码，可以忽略
    ├── chat_history/         # api_chat历史代码，可以忽略
@@ -37,17 +37,17 @@
 ## 主要功能
-### 视觉分析模块 (api/)
+### 视觉分析模块 (api/) 支持图片、视频
-    - 目标检测和跟踪
+    - 目标检测 yolov8x
-    - 人脸识别
+    - 人脸检测 yolov8n-face
-    - 人脸对比
+    - 面部特征提取 insightface 、mediapipe
-    - 姿态估计
+    - 姿态估计 yolov8x-pose
-    - 跌倒检测
+    - 跌倒检测 yolov8n-fall
-    - 场景理解（基于CPM和QwenVL模型）
+    - 场景理解、OCR分析（基于CPM和QwenVL-2B模型）
 ### 聊天对话模块 (api_chat/)
-    - 文本对话功能
+    - 文本对话功能（Ollama-qwen2.5:3b）
-    - 语音识别 (ASR): 通过Whisper模型
+    - 语音识别 (ASR): 通过Whisper-large-v3模型
    - 文字转语音 (TTS): 通过GPT_SoVITS模型
    - 多模型支持（通过Ollama）