word表格理解-llm
https://github.com/VikParuchuri/surya
开源领域对docx表格处理的
在实现类似chatDoc ai应用时候,如果处理word的表格是一大重要业务点。
word表格识别、填充、等是对word理解的重要组成部分。
一般word理解,包含段落理解、图片理解、表格理解。
目前段落、图片理解 算是比较简单. 比较单一输入源。。
我们可以使用ocr理解图片信息、或者多模态大模型理解图片和文本。 但表格的读取理解多了一层输入。
当然我们可以直接将docx的xml所有内容扔给多模态大模型,但是资源和理解范围要求比较高,目前各类大模型均无法实现更好的效果。
我们可以跳过ocr、或者多模态处理方式,主要专注在llm对文本处理的。 我们想办法将docx中的表格,输出为html或者xml表格形式,让大模型进行处理。
我们演示:用java实现docx读取,并合并单元格等,转为同等类型html。
import java.io.FileInputStream;
import java.io.IOException;
import