love-rtc

Sign in Subscribe

Latest

openim+接入freeswitch语音

架构设计：OpenIM + FreeSWITCH 实现用户语音通话 css复制编辑 ┌──────────────┐ 发起通话 ┌─────────────┐ │ 用户A（IM） ├──────────────────────▶│ OpenIM 服务 │ └──────────────┘ └────┬────────┘ │ ▼ ┌────────────────┐ │ Call Server/Bot │──┐ └────────────────┘ │ ▼ ┌─────────────┐ ┌─────────────┐ │ FreeSWITCH │◀─▶│ SIP 客户端 A │ └─────┬───────┘ └─────────────┘ │ ┌─────▼───────┐ │ SIP 客户端 B│◀─ 用户B（接听） └─────────────┘ 🛠️ 实现步骤 1. 为每个 OpenIM 用户配置 SIP 账号 FreeSWITCH 的 directory/default/ 配

openim+加上大模型机器人

要实现open im 结合llm 大模型，实现agent机器人。第一步，我们需要搭建im基建服务， https://github.com/openimsdk/open-im-server/blob/main/README_zh_CN.md open-im服务做为开源的后端服务，项目star较多，适合我们选择，文档较为完善。按照文档部署即可 Source Code Deployment | OpenIM Docs1. Environment and Component RequirementsOpenIM Docs 第二步，选择合适的客户端，web或者electron 部署执行的客户端即可。监听im回调。给im-server 配置回调地址。第三步选择需要监听的用户sendId进行机器人一一绑定。发送消息api，对接即可 http://127.0.0.1：10002/msg/

清华大学论文-大模型高效推理-综述

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因，即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后，引入了一个全面的分类法，将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外，本文还对关键子领域的代表性方法进行了对比实验，以及分析并给出一定的见解。最后，对相关工作进行总结，并对未来的研究方向进行了讨论。论文：A Survey on Efficient Inference for Large Language Models 地址：https://arxiv.org/abs/2404.14294 1 Introduction 近年来，大模型受到了学术界和工业界的广泛关注。 LLM领域经历了显著的增长和显著的成就。许多开源llm已经出现，包括gpt-系列(GPT-1， GPT-2和GPT-3)， OPT， lama系列(LLaMA ，

rust-阿里云oss连接

阿里云没有官方的oss-rust连接库。 axum = "0.6" # HTTP 服务框架 tokio = { version = "1", features = ["full"] } # 异步运行时 rust-s3 = "0.34" # S3 和 OSS SDK serde = { version = "1.0", features = ["derive"] } # 数据序列化和反序列化 serde_json = "1.0" # JSON 处理 tracing = "0.1" # 日志记录 tracing-subscriber = "0.3" # 日志订阅器使用rust-s3 来连接oss。 use dotenvy::dotenv; use s3::bucket::Bucket; use

word表格理解-llm

https://github.com/VikParuchuri/surya 开源领域对docx表格处理的在实现类似chatDoc ai应用时候，如果处理word的表格是一大重要业务点。 word表格识别、填充、等是对word理解的重要组成部分。一般word理解，包含段落理解、图片理解、表格理解。目前段落、图片理解算是比较简单. 比较单一输入源。。我们可以使用ocr理解图片信息、或者多模态大模型理解图片和文本。但表格的读取理解多了一层输入。当然我们可以直接将docx的xml所有内容扔给多模态大模型，但是资源和理解范围要求比较高，目前各类大模型均无法实现更好的效果。我们可以跳过ocr、或者多模态处理方式，主要专注在llm对文本处理的。我们想办法将docx中的表格，输出为html或者xml表格形式，让大模型进行处理。我们演示：用java实现docx读取，并合并单元格等，转为同等类型html。 import java.io.FileInputStream; import java.io.IOException; import

dxf-viewer文本高亮方案

我们最近使用ezdxf后端实现复杂dxf图纸。（工业一次系统图）遇到一个问题，使用各类cad软件打开文字显示正常，但是放入前端dxf-viewer框架中档图缩小时候，文字是完全模糊不见的。方案1：尝试切换各类字体、包括黑体。（无用）方案2：切换各类其他前端dxf展示，作用也不大。方案3：自己查看 dxf-viewer 源码，想通过了解底层实现逻辑来实现文本的高亮。 dxf-viewer：使用three.js 来实现渲染的。 three.js 是可以通过修改字体、修改渲染效果的。从这里入手： 1：监听dxf-viewer 渲染事件， 2：重新渲染和文本有关的entity。首先，我们得自定义three.js 使用的字体，three.js 使用json格式字体，你需要自己在官网通过脚本等，转化为json字体。 this.dxfViewer = new DxfViewer(this.$refs.canvasContainer, this.options)

MemGPT-学习-总结

MemGPT: Towards LLMs as Operating SystemsLarge language models (LLMs) have revolutionized AI, but are constrained by limited context windows, hindering their utility in tasks like extended conversations and document analysis. To enable using context beyond limited context windows, we propose virtual context management, a technique drawing…arXiv.orgCharles Packer 当前，

mrcp-server 版本发布

考虑到unimrcp使用不方便，我们开始寻求自研mrcp协议、sip等。之前开源了 client版本。https://github.com/laoyin/java-sip-mrcp GitHub - laoyin/java-sip-mrcp: java版本的mrcp服务，实现sip、mrcp等协议，实现实时语音流处理、回调等。java版本的mrcp服务，实现sip、mrcp等协议，实现实时语音流处理、回调等。. Contribute to laoyin/java-sip-mrcp development by creating an account on GitHub.GitHublaoyin 最近我们逐步完善了 mrcp-server版本，做大量代码测试等。自研java版本mrcp-server_哔哩哔哩_bilibilihttps://github.com/laoyin/java-sip-mrcp，基于此实现了server，用于和freeswitch进行asr交互。Java SIP

freeswitch-mediabug回调细节

有群友询问如何进行监听和会写媒体。很多人根据我的文档和文章知道了使用media bug，但是有几个回调有疑虑。我这边出一个源码的细则，大家便非常清楚了。类型解释 SWITCH_ABC_TYPE_INIT 初始化 close 关闭这里不再赘述 SWITCH_ABC_TYPE_WRITE_REPLACE：将读取的进行替换 SWITCH_ABC_TYPE_WRITE_REPLACE：写出时候，可以进行媒体替换代码样例那么你如何进行读取和写出时候进行替换呢？我们看一部分代码 static switch_bool_t replace_callback(switch_media_bug_t *bug, void *user_data, switch_abc_type_t type) { displace_

如何自定义freeswitch-cdr

关于cdr，只要涉及freeswitch，都关心cdr存储和处理。如果现有的cdr你自己不满意，如何自定义呢？我们参考freeswitch mod_json_cdr 来看看源码如何实现的。源码只有几百行，特别适合初学者学习。 /* * FreeSWITCH Modular Media Switching Software Library / Soft-Switch Application * Copyright (C) 2005-2014, Anthony Minessale II * * Version: MPL 1.1 * * The contents of this file are subject to the Mozilla Public License Version * 1.1 (the "License"); you may not

kam实践-安装和基本概念

安装：要在 Ubuntu 上安装 Kamailio，你可以按照以下步骤进行： 1. 打开终端。 2. 更新软件包列表： bashCopy code sudo apt update 1. 安装 Kamailio 及其附加组件： bashCopy code sudo apt install kamailio kamailio-mysql-modules kamailio-tls-modules kamailio-websocket-modules 这将安装 Kamailio 主程序以及一些常用的模块，如 MySQL 数据库支持、TLS（Transport Layer Security）支持和 WebSocket 支持。 1. 完成安装后，编辑 Kamailio 的配置文件。主配置文件位于 /etc/kamailio/kamailio.

电话实现大规模姓名匹配02

上一讲，我们讲到通过ner命名实体识别，实现信息提取。当我们分析完用户说的话，提取出对应的名称，接下来就是问题的重中之重。如果用户说的内容asr翻译的是李命薄，或者用户不记得对方名字，只有他的昵称。鸵鸟。我们如何去解决这类问题。多种方案 1：使用es做相似查询搜索 es及elasticsearch，熟悉es的人清楚，es将文本内容解析成token之后，使用倒排索引方式存储。如果我们使用es进行相似匹配，效果可能不好，因为姓名此类，如何使用分词呢？按字分词检索？ 2：使用词向量来做相似匹配。我个人采用词向量方式。什么是词向量，embedding 最近大模型爆火，很多人使用chatgpt，或者其他开源大模型时候，经常接触embedding。就是将文本转化为可以计算的向量。词向量-可以使用对汉字的词向量，方式很多。可以调用chatgpt的embedding接口可以使用bert-embedding方式，甚至可以使用Word2vec等等经典方式处理。解析出对应的embedding向量之后，将向量存储起来，形成embedding库

电话实现大规模姓名匹配01

客户有这样的需求，公司500-1000名员工，通过姓名、昵称转接给当事人。初看觉得是个简单问题，提取姓名+匹配即可。你期望的而输入 query == 姓名，然后做匹配。真实情况可能是： A： query== 帮我转接给李鬼（姓名） B： query== 那个叫李奎的帮我转接 C： query== 帮我转给黑旋风 ……………… 所以，这个简单的需求，其实是ner命名实体识别+多维相似匹配。 ner命名实体识别，我们可以采用bert等+crf来实现。对应提取的姓名而言，这只是实现了第一步。现在需要将姓名和近1000个进行相似匹配。实现了相似匹配还需要考虑一个问题，1000个姓名，包含了n个昵称。同时，还得考虑asr转写之后的口音问题。我们下一篇文章来介绍，我是如何处理的。

mrcp协议图解流程

最近很多小伙伴在询问想了解mrcp协议的具体流程和细节问题。抽空我就梳理一下，做个介绍。 mrcp协议，目前业界使用的是v2版本，即基于sip信令的mrcp协议。 mrcp协议和sip、rtp、密不可分的协议。以下是mrcpV2协议，大家有空可以详细研读协议本事。https://www.rfc-editor.org/rfc/rfc6787 如果你不想看枯燥的文档，可以继续看我的文章，希望对你有个深入浅出的理解。上图是mrcp协议的处理流程图。 mrcp-client-和server之间，首先先进行的是 sip协商。实际抓包流程如下图所示 sip协议的invite会携带 resource:speechrecog 代表client需求是asr识别。 server返回200会携带mrcp-v2的tcp端口和new channel 信息给到client。当client和server处理完sip-200-ack之后，就到了mrcp 处理asr、tts协议了。收到200后返回ack，client既可以进行 MRCP-RECONIZE client根据sip-