Latest

开源mrcp-client-java版本

开源mrcp-client-java版本

我们已经实现了 基于sip协议-mrcpv2协议的 mrcp-client java版本。 机缘巧合下,我们实现了 mrcp-client java版本。 我们查看了github上开源的mrcp相关的有node、c++、java版本的,但是java版本的只支持mrcp协议不支持sip协议。 因此我们萌生了自己动手实现一个sip+mrcpv2版本的java服务。 1:mrcp4j年久失修,里面有一些处理mrcp协议的bug。     mrcp4j 没有sip协议处理 2:我们基于peers实现sip协议。 我们先开源client,基于client你可以实现自定义音频文件传入给client,并通过client将媒体流传给mrcp-server服务, 同时client能够监听和处理来自server的asr信息。 以下是代码情况,近期请期待。
yin
我要自救-吵架机器人-怒怼工贼

我要自救-吵架机器人-怒怼工贼

需求:我要实现一个能够帮助语言组织能力欠佳的人,怒怼工贼。 设计: 输入:实时语音流 分析:语音转文字--》大模型处理(TMD-GPT)--》文字转语音--》实时回怼。 涉及相关技术领域如下: 编程语言:JavaScript、python、java 领域:AIGC、ASR、TTS、前端、webRTC、后端 前端选择 vue 实时音频-webrtc 后端选择 java- 多线程处理优势,处理流和webrtc python-处理算法相关 ASR服务 1:实时语音转写服务 前端语音分流实现-js worker方式传送音频 2:实时语音处理,切分vad等 3:asr服务 TTS服务 声纹复刻服务 桌面应用 electron CMD-GPT 1:数据生成1:
yin
ChatGLM微调

ChatGLM微调

清华大学最近新出了第二代chatGLM必须尝鲜一下。 下载chatGLM模型非常费劲,下载之后进行模型测试运行。 from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained('/mode/path', trust_remote_code=True) model = AutoModel.from_pretrained('/model/path', trust_remote_code=True,device='cuda') model = model.eval() model.chat(tokenizer, "测试测试") 我们使用 chatGLM-efficient-Tuning 项目进行微调。使用lora模型 微调也很方便: 自定义好训练数据 python src/train_sft.py
yin

《吵架机器人》-资料

训练数据生成 1:自定义(根据生活中的经验自定义数据语料) 2:爬虫抓取 3:利用现有aigc进行生成部分 大模型选择 https://arxiv.org/pdf/2305.11206.pdf     lima: less is more for alignment https://huggingface.co/datasets/GAIR/lima https://arxiv.org/pdf/2305.15717.pdf The False Promise of Imitating Proprietary LLMs 根据这几篇论文我们得出:选择好的预训练模型 + 多样化的、高质量的数据集做微调。 less is more LLaMA
yin