love-rtc

Sign in Subscribe

yin

清华大学论文-大模型高效推理-综述

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因，即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后，引入了一个全面的分类法，将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外，本文还对关键子领域的代表性方法进行了对比实验，以及分析并给出一定的见解。最后，对相关工作进行总结，并对未来的研究方向进行了讨论。论文：A Survey on Efficient Inference for Large Language Models 地址：https://arxiv.org/abs/2404.14294 1 Introduction 近年来，大模型受到了学术界和工业界的广泛关注。 LLM领域经历了显著的增长和显著的成就。许多开源llm已经出现，包括gpt-系列(GPT-1， GPT-2和GPT-3)， OPT， lama系列(LLaMA ，

rust-阿里云oss连接

阿里云没有官方的oss-rust连接库。 axum = "0.6" # HTTP 服务框架 tokio = { version = "1", features = ["full"] } # 异步运行时 rust-s3 = "0.34" # S3 和 OSS SDK serde = { version = "1.0", features = ["derive"] } # 数据序列化和反序列化 serde_json = "1.0" # JSON 处理 tracing = "0.1" # 日志记录 tracing-subscriber = "0.3" # 日志订阅器使用rust-s3 来连接oss。 use dotenvy::dotenv; use s3::bucket::Bucket; use

word表格理解-llm

https://github.com/VikParuchuri/surya 开源领域对docx表格处理的在实现类似chatDoc ai应用时候，如果处理word的表格是一大重要业务点。 word表格识别、填充、等是对word理解的重要组成部分。一般word理解，包含段落理解、图片理解、表格理解。目前段落、图片理解算是比较简单. 比较单一输入源。。我们可以使用ocr理解图片信息、或者多模态大模型理解图片和文本。但表格的读取理解多了一层输入。当然我们可以直接将docx的xml所有内容扔给多模态大模型，但是资源和理解范围要求比较高，目前各类大模型均无法实现更好的效果。我们可以跳过ocr、或者多模态处理方式，主要专注在llm对文本处理的。我们想办法将docx中的表格，输出为html或者xml表格形式，让大模型进行处理。我们演示：用java实现docx读取，并合并单元格等，转为同等类型html。 import java.io.FileInputStream; import java.io.IOException; import

dxf-viewer文本高亮方案

我们最近使用ezdxf后端实现复杂dxf图纸。（工业一次系统图）遇到一个问题，使用各类cad软件打开文字显示正常，但是放入前端dxf-viewer框架中档图缩小时候，文字是完全模糊不见的。方案1：尝试切换各类字体、包括黑体。（无用）方案2：切换各类其他前端dxf展示，作用也不大。方案3：自己查看 dxf-viewer 源码，想通过了解底层实现逻辑来实现文本的高亮。 dxf-viewer：使用three.js 来实现渲染的。 three.js 是可以通过修改字体、修改渲染效果的。从这里入手： 1：监听dxf-viewer 渲染事件， 2：重新渲染和文本有关的entity。首先，我们得自定义three.js 使用的字体，three.js 使用json格式字体，你需要自己在官网通过脚本等，转化为json字体。 this.dxfViewer = new DxfViewer(this.$refs.canvasContainer, this.options)

MemGPT-学习-总结

MemGPT: Towards LLMs as Operating SystemsLarge language models (LLMs) have revolutionized AI, but are constrained by limited context windows, hindering their utility in tasks like extended conversations and document analysis. To enable using context beyond limited context windows, we propose virtual context management, a technique drawing…arXiv.orgCharles Packer 当前，

mrcp-server 版本发布

考虑到unimrcp使用不方便，我们开始寻求自研mrcp协议、sip等。之前开源了 client版本。https://github.com/laoyin/java-sip-mrcp GitHub - laoyin/java-sip-mrcp: java版本的mrcp服务，实现sip、mrcp等协议，实现实时语音流处理、回调等。java版本的mrcp服务，实现sip、mrcp等协议，实现实时语音流处理、回调等。. Contribute to laoyin/java-sip-mrcp development by creating an account on GitHub.GitHublaoyin 最近我们逐步完善了 mrcp-server版本，做大量代码测试等。自研java版本mrcp-server_哔哩哔哩_bilibilihttps://github.com/laoyin/java-sip-mrcp，基于此实现了server，用于和freeswitch进行asr交互。Java SIP

freeswitch-mediabug回调细节

有群友询问如何进行监听和会写媒体。很多人根据我的文档和文章知道了使用media bug，但是有几个回调有疑虑。我这边出一个源码的细则，大家便非常清楚了。类型解释 SWITCH_ABC_TYPE_INIT 初始化 close 关闭这里不再赘述 SWITCH_ABC_TYPE_WRITE_REPLACE：将读取的进行替换 SWITCH_ABC_TYPE_WRITE_REPLACE：写出时候，可以进行媒体替换代码样例那么你如何进行读取和写出时候进行替换呢？我们看一部分代码 static switch_bool_t replace_callback(switch_media_bug_t *bug, void *user_data, switch_abc_type_t type) { displace_