WeClone是一款创新性的微信数字分身解决方案,整合了最新的大语言模型与语音合成技术,帮助用户打造高度个性化的微信数字分身。本文将详细介绍WeClone的核心功能、技术原理以及完整使用教程。
WeClone核心技术解析
WeClone采用0.5B参数大模型处理微信语音消息,通过LoRA微调方法应用于对话数据训练,实现高达95%的声纹相似度克隆效果。系统三大核心功能包括:
- 聊天记录驱动的个性模型训练:分析用户历史对话数据,精准捕捉语言风格和表达习惯
- 高保真声纹克隆系统:仅需5秒语音样本即可快速建模,保持原声情感特征
- 微信机器人实时交互框架:支持多设备同步部署,自动处理好友请求和智能回复
完整安装教程
WeClone建议使用uv作为Python环境管理器,以下是详细安装步骤:
git clone https://github.com/xming521/WeClone.git
cd WeClone
uv venv .venv --python=3.9
source .venv/bin/activate
uv pip install --group main -e .
注意:基础安装不包含音频克隆功能(xcodec)的依赖项。
数据准备与处理
使用PyWxDump工具提取微信聊天记录是关键的第一步:
- 解密微信数据库后,导出CSV格式的聊天记录
- 将导出的CSV文件放置在
./data/csv
目录下 - 运行预处理脚本
./make_dataset/csv_to_json.py
处理数据
项目内置了敏感信息过滤功能,自动去除手机号、身份证号等隐私信息。
模型下载与配置
推荐从Hugging Face下载[ChatGLM3模型]()https://huggingface.co/THUDM/chatglm3-6b,若下载困难可使用魔搭社区:
export USE_MODELSCOPE_HUB=1
git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git
模型微调与训练
修改settings.json
文件配置训练参数:
- 调整
per_device_train_batch_size
控制显存占用 - 设置
num_train_epochs
等参数优化训练效果
单卡训练命令:
python src/train_sft.py
多卡训练需要安装deepspeed:
uv pip install deepspeed
deepspeed --num_gpus=使用显卡数量 src/train_sft.py
部署数字分身
推荐使用AstrBot框架部署微信机器人:
- 部署AstrBot并配置消息平台
- 启动API服务:
python ./src/api_service.py
- 在AstrBot中添加OpenAI类型服务提供商
- 关闭工具调用功能以保证微调效果
项目地址:https://github.com/xming521/WeClone
评论 (0)