《吵架机器人》-资料

训练数据生成

1:自定义(根据生活中的经验自定义数据语料)

2:爬虫抓取

3:利用现有aigc进行生成部分

大模型选择

https://arxiv.org/pdf/2305.11206.pdf     lima: less is more for alignment

https://huggingface.co/datasets/GAIR/lima

https://arxiv.org/pdf/2305.15717.pdf The False Promise of Imitating Proprietary LLMs

根据这几篇论文我们得出:选择好的预训练模型 + 多样化的、高质量的数据集做微调。

less is more

LLaMA  Bloom  glm等大模型选择

前端选择

vue

后端选择

java- 多线程处理优势,处理流和webrtc

python-处理算法相关

ASR服务

1:实时语音转写服务 前端语音分流实现-js worker方式传送音频

2:实时语音处理,切分vad等

3:asr服务

TTS服务

声纹复刻服务

桌面应用

electron

致谢:感谢chatGPT