《吵架机器人》-资料
训练数据生成
1:自定义(根据生活中的经验自定义数据语料)
2:爬虫抓取
3:利用现有aigc进行生成部分
大模型选择
https://arxiv.org/pdf/2305.11206.pdf lima: less is more for alignment
https://huggingface.co/datasets/GAIR/lima
https://arxiv.org/pdf/2305.15717.pdf The False Promise of Imitating Proprietary LLMs
根据这几篇论文我们得出:选择好的预训练模型 + 多样化的、高质量的数据集做微调。
less is more
LLaMA Bloom glm等大模型选择
前端选择
vue
后端选择
java- 多线程处理优势,处理流和webrtc
python-处理算法相关
ASR服务
1:实时语音转写服务 前端语音分流实现-js worker方式传送音频
2:实时语音处理,切分vad等
3:asr服务
TTS服务
声纹复刻服务
桌面应用
electron
致谢:感谢chatGPT