Skip to content

🔧 LPMM知识库导入文件要求

OpenIE文件命名要求

进行提取完的OpenIE文件会命名为月-日-时-分-openie.json,存放在data/openie目录下。

此时,你可以进行改名,例如增加对内容的说明

但是,文件尾部的-openie.json后缀必须保留。

例子:

合法的文件名称:

  • 千恋万花剧情-openie.json
  • 明日方舟全剧情-openie.json
  • 网络热梗(截止到2023年10月)-openie.json

非法的文件名称:

  • 贴吧热梗-openie.txt(非json格式)
  • 明日方舟全剧情.json(没有openie标识)
  • 114514-openie.json(对内容描述不精确)

一、OpenIE 技术概述

Open Information Extraction (OpenIE) 是一种开放域信息抽取技术,旨在从非结构化文本中自动提取结构化关系三元组(主语-谓语-宾语),无需预定义关系类型。其核心特点包括:

  • 无监督性:不依赖预定义的领域本体或关系库。
  • 灵活性:可处理多样化的语言表达(如"苹果由乔布斯创立"和"乔布斯是苹果的创始人")。
  • 冗余容忍:允许同一关系不同表述的多次提取。

二、OpenIE 数据格式规范

1. 整体结构

json
{
    "docs": [
        {
            "idx": "文档的唯一标识符(通常是文本的SHA256哈希值)",
            "passage": "文档的原始文本",
            "extracted_entities": ["实体1", "实体2", ...],
            "extracted_triples": [["主语", "谓语", "宾语"], ...]
        },
        ...
    ],
    "avg_ent_chars": "实体平均字符数",
    "avg_ent_words": "实体平均词数"
}

2. 字段说明

字段类型描述
docs数组包含所有文档的抽取结果
idx字符串文档唯一标识符(通常用SHA256哈希值保证文本唯一性)
passage字符串原始文本内容
extracted_entities字符串数组从文本中识别出的所有实体(去重)
extracted_triples三元组数组抽取的结构化关系,每个三元组格式为 ["主语", "谓语", "宾语"]
avg_ent_chars数值实体的平均字符长度(统计所有extracted_entities
avg_ent_words数值实体的平均单词数(按空格分词计算)

3. 示例

json
{
    "docs": [
        {
            "idx": "a1b2c3...",
            "passage": "Steve Jobs founded Apple in 1976.",
            "extracted_entities": ["Steve Jobs", "Apple", "1976"],
            "extracted_triples": [
                ["Steve Jobs", "founded", "Apple"],
                ["Apple", "founded in", "1976"]
            ]
        }
    ],
    "avg_ent_chars": 8.3,
    "avg_ent_words": 1.7
}