语知自然语言理解技术平台 / 数据加工

文本抽取

文本抽取是数据加工的一种重要形式,如何从一堆杂乱的数据中准确的获取自己想要的数据,是文本抽取的意义所在。语知科技的文本抽取是基于强大的HowNet知识体系,以语义结构解析、句法分析、以及专业领域知识总结等方式对内容进行分类抽取,大大减少了对样本量的需求,却提高了抽取内容的质量。抽取机制的原理是根据设定好的要抽取的要素(类),来抽取文本中所包含这些要素的实例;接口所抽取的要素是可以进行定制的,包括抽取的粒度大小,均可以由用户来决定。以下两个接口是语知科技为用户定制的抽取案例:

金融事件抽取接口


接口简介

金融事件抽取接口是以金融领域的事件及主客体为抽取对象,将文本放入HowNet知识库中进行解析,并根据事先确定的抽取要素,及抽取的粒度进行抽取并返回结果。

示例说明

例如,“北京语知科技有限公司预计将于明年3月份并购未来科技公司的相关股份”,对于这句文本,系统首先会抽取到事件的内容,即“并购”。然后根据语句的语义关系找到事件的主体,即“北京语知科技有限公司”,并以同样的方式找到事件的客体:“未来科技有限公司”,那么该事件的所有关键内容都已经被获取到并返回给了用户。

在线体验>>

视频演示

判案要素抽取接口


接口简介

判案要素抽取接口是以刑事案件犯罪事实为抽取对象,将文本放入HowNet知识库中进行解析,并根据事先确定的抽取要素,进行抽取并返回结果,本接口目前只适用于盗窃罪领域。

示例说明

例如,“2017年7月31日20时30分许,被告人李某在本区康桥小区2栋1单元门前,趁无人之际,将杜某停放在路边的价值人民币2384元的新蕾牌电动车1辆盗走。”,对于这句文本,系统会根据事先定义好的所有要抽取的标签,比如:“犯罪主体”“犯罪行为”“犯罪金额”等等,那么文本中的所有相关内容都已经被获取到,并打上标签返回给了用户。如“价值2384元”,就会被打上“数额较大”的标签,而整段文字将会被打上“一般盗窃行为”的标签。

在线体验>>

视频演示