Kimi自动从PDF提取数据到数据库操作指南
```html 几十份PDF合同,需要把甲方名称、签约日期、金额这三项关键信息快速导入MySQL数据库。手动复制粘贴?不仅效率低、容易出错,还可能出现漏行的情况。那么,如何用Kimi来自动完成这个任务?下面拆解具体步骤。 先解决一个基础问题:你手上的PDF,到底能不能直接解析? 确认PDF是否为可复
几十份PDF合同,需要把甲方名称、签约日期、金额这三项关键信息快速导入MySQL数据库。手动复制粘贴?不仅效率低、容易出错,还可能出现漏行的情况。那么,如何用Kimi来自动完成这个任务?下面拆解具体步骤。
先解决一个基础问题:你手上的PDF,到底能不能直接解析?
确认PDF是否为可复制文本格式
怎么判断呢?很简单。打开PDF文件,试着用鼠标拖选任意一段文字。如果能高亮选中并且复制成功,说明这是文本型PDF,可以直接用Kimi提取。反之,如果文字无法选中,或者复制出来是一堆乱码,那它就是扫描图片型的PDF——必须先过OCR这一关。
目前,Kimi只支持文本型PDF的解析。如果把图片型PDF直接上传,得到的字段提取结果会全部为空。这一点必须警惕。

还有一种更保险的判断方法:用Adobe Acrobat或WPS打开PDF,进入“文件”→“属性”,查看“字体”列表。如果能看到具体的字体名称,比如SimSun、Arial,那说明是文本型。如果显示的是“Type 3”或者干脆是空白,那大概率就是图象型PDF了。
在Kimi中上传并结构化提取字段
确认PDF是文本型之后,就可以开始提取了。这里有两种操作方式。
方法一:使用Kimi网页版“文件对话”功能
进入kimi.moonshot.cn,点击左下角的“+”号,选择“上传文件”,然后上传单个PDF(目前不支持批量上传)。等待大约10到40秒的解析时间。解析完成后,在对话框里输入以下指令:
“请严格按以下JSON格式输出:{"甲方名称": "", "签约日期": "", "金额": ""}。只输出JSON,不要解释、不要换行、不要省略字段。”
注意,指令一定要明确——限定输出为无换行的纯JSON字符串。否则后续数据库导入会因多余的换行符报错。
方法二:调用Kimi API(需开通企业API权限)
如果你的数据量较大或者需要集成到自动化流程中,可以考虑使用API。构造POST请求,在body中包含file_base64和prompt模板。同样需要注意,prompt中必须明确限定输出格式为无换行的纯JSON字符串。
将Kimi输出的JSON写入MySQL
拿到Kimi返回的JSON字符串之后,接下来就是把它写入MySQL数据库了。整个过程可以分为三步。
第一步:准备临时表
在MySQL中先创建一张临时表,用来存放原始JSON数据。执行如下语句:
CREATE TEMPORARY TABLE pdf_temp (id INT AUTO_INCREMENT PRIMARY KEY, content JSON);
第二步:插入Kimi返回的原始JSON字符串
直接用INSERT语句把Kimi返回的JSON字符串插入到临时表中。例如:
INSERT INTO pdf_temp (content) VALUES ('{"甲方名称":"北京某某科技有限公司","签约日期":"2024-03-15","金额":"¥1,280,000.00"}');
如果数据量大,用Python脚本批量执行会更高效。
第三步:从JSON字段拆解为结构化列
这一步是把JSON中的字段提取出来,转换成结构化的表数据。核心操作是利用MySQL的JSON函数。执行如下查询:
SELECT
JSON_UNQUOTE(JSON_EXTRACT(content, '$."甲方名称"')) AS party_a,
JSON_UNQUOTE(JSON_EXTRACT(content, '$."签约日期"')) AS sign_date,
REPLACE(JSON_UNQUOTE(JSON_EXTRACT(content, '$."金额"')), '¥', '') AS amount
FROM pdf_temp;
这里有一个细节需要特别注意:金额字段本身带着千分位逗号和¥符号。如果直接转成DECIMAL类型,必然会失败。所以,必须先通过REPLACE函数清理掉这些非数字字符,然后再用CAST进行类型转换。这才是保证数据准确入库的关键所在。
完成这三步,几十份PDF的合同信息就能快速、准确地导入数据库了。
```你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Kimi自动从PDF提取数据到数据库操作指南要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LusionAI基于稳定扩散技术,免费生成高质量图片,完全支持个人和商业用途,无版权风险。操作极其简便,输入描述即可快速获得细节和风格匹配的作品,非常适合日常创作,无需注册,生成速度快,性价比很高。
TTSLabs为Twitch主播提供AI驱动的文字转语音功能,支持自定义捐赠播报的声音、音效及脏话过滤。桌面应用处理速度快于实时,与Streamlabs等平台无缝衔接,观众可通过指南了解可用选项。核心亮点包括高度自定义语音、AI生成自然音效及深度集成。
flowlist io是一款AI任务管理工具,能将用户的碎片化想法及情绪化输入直接转化为结构化项目名称和可执行任务,支持拖放排序、跨项目移动与任务拆分,帮助用户快速理清下一步行动,极大提升任务管理效率。
MyLikenessAI是一个肖像许可平台,艺术家可通过它授权肖像给AI公司并获取收益,生成式AI公司可免费集成引擎合规调用肖像,企业能在获得明确同意后安全地将AI生成形象投入商业用途。
- 日榜
- 周榜
- 月榜
热点快看
