您现在的位置是:百科 >>正文
澳鹏一站式文档智能识别,为大模型训练数据准备赋能
百科42651人已围观
简介上海2023年12月14日 /美通社/ -- 在大模型训练过程中,许多专业领域知识是基于书籍等纸质文档的形式记录的,常见于教材、期刊论文、特定学科研究等。例如工业、教育等涉及到专业领域的行业应用,大量 ...
上海2023年12月14日 /美通社/ -- 在大模型训练过程中,澳鹏许多专业领域知识是站式智能准备基于书籍等纸质文档的形式记录的,常见于教材、文档期刊论文、识别数据特定学科研究等。模型例如工业、训练教育等涉及到专业领域的澳鹏行业应用,大量需要训练的站式智能准备数据沉淀在纸质版上亟待利用。
澳鹏Appen全新推出文档智能识别接口,文档可将图片、识别数据不可编辑的模型PDF等文档一键识别转换成可编辑的Word或Markdown格式,方便对其中数据作进一步利用。训练接口支持识别文档中不同模态的澳鹏数据,如文本、站式智能准备插图、文档公式、表格等,并支持对不同版面进行识别和还原。
澳鹏全新推出一站式文档智能识别解决方案,为大模型训练数据准备赋能
在大模型的训练过程中,许多企业或行业数据沉淀在不可编辑的PDF、甚至是纸质文档中。若要将这些数据利用起来,无论是用作基础大模型的训练数据,还是用于RAG或微调,都需要先转化成可编辑的文档格式。
这些文档包含的内容有文本、表格、公式、插图等内容,现有的内容识别技术大多只能识别文字,而对其他形态的内容无法进行识别和转换。若要开发一个能识别所有格式内容的算法,其研发成本往往较高,识别速度和准确率亦无法得以保证。
澳鹏一站式文档智能识别解决方案集成了多种算法能力:首先使用版面识别算法,可识别出PDF中每一页的内容类型,包括文本、表格、公式、插图等;如页面中包含多种内容,则将每个独立的内容块截取出来;再根据内容块的内容类型,调用不同的识别算法,包括文本识别算法、表格识别算法、公式识别算法等。
识别完成后再将内容拼接到一个文档中,可还原成原始版面。同时,澳鹏也提供人工复核服务,进一步提升识别准确率。
在实际应用中,澳鹏一站式文档智能识别解决方案的优势主要包括:
-高效率低成本:使用澳鹏文档智能识别处理文档时,一个上百页的PDF只需耗时数分钟即可完成,远快于人工转写;可批量处理大量文件,降低人力成本。
-高安全性:无需企业外部人员参与文档内容转写过程,降低了敏感数据泄露的风险。
-易于集成:澳鹏文档智能识别方案可与企业现有的业务流程和系统集成,自动输入、输出数据。
助力高科技企业开发行业大模型,澳鹏一站式文档智能识别解决方案能够对专业细分学科数据进行结构化处理,将沉淀在纸质版、PDF等形态的数据应用于大模型训练中,帮助企业自动化地将各种类型的文档转化为结构化数据,为高效训练行业大模型赋能。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“画地成牢网”。http://www.tj-baode.com/news/43f68699270.html
相关文章
泉州一男子与老婆吵架饮酒解闷 竟路中停车睡觉
百科 12月13日22时19分,南安洪濑派出所接到群众报警,称在洪濑大桥头红绿灯路口有人停车睡觉。目前,王某因涉嫌危险驾驶已被刑事拘留。 王某醉驾被查 民警赶到现场后,见在泉 ...
【百科】
阅读更多郑州101人因治污不力被问责
百科新华社郑州5月30日电(记者王林园、刘怀丕)郑州市纪委近日发布了《关于对省攻坚办暗访发现我市大气污染典型问题责任追究情况的通报》。《通报》显示,今年以来,郑州市共查处相关职能部门移交的大气污染防治责任 ...
【百科】
阅读更多艺人王源稻城骑马说土味情话
百科最新一期的《哈哈农夫》在稻城录制,并且在新一期的节目中还新增可以为成员,那就是王源的好朋友魏大勋。两人曾经一起录制过《明星大侦探》,这次是两人第二次同框录制综艺,让粉丝们非常期待。这一期的节目很有意思 ...
【百科】
阅读更多