论文部分内容阅读
随着经济全球化的不断加深,企业与企业之间的竞争已经变为供应链与供应链之间的竞争。企业想要提高竞争力,降低成本从而提高利润率,一条好的供应链是必不可少的。对于一条供应链来说,其中最重要的部分就是企业之间的供应关系。除此之外,企业供应关系对创业者、消费者和投资者也具有极为重要的意义。企业供应关系能让创业者在进入行业之初就能了解业界形势,帮助创业者选择合适的供应商。对于消费者来说,在选购产品的时候如果能了解产品生产厂商的零部件供应商信息,能够为自己的购买决策提供参考。而对于投资者来说,企业间的供应关系能够帮助他们正确掌握投资市场的走向,从而获取收益。因此,进行企业供应关系的抽取具有重要意义。本文的内容主要是研究企业供应关系的抽取。企业间的供应关系在了解和分析行业、做出投资决定选择商业伙伴等方面具有重要意义,属于实体关系抽取问题,而实体关系抽取的基础是命名实体识别。从目前命名实体识别和关系抽取的研究现状来看,基于词典规则的方法准确率比较高,但是需要领域专家的参与并且可移植性不强;基于统计学习的方法不需要领域专家的参与,但是在面向特定应用场景和文本类型时往往达不到预期中理想的效果,并且对训练数据的要求较高。目前单纯使用一种方法已经不能解决问题了,本文将基于统计学习的方法和基于规则词典的方法相结合,针对企业供应关系抽取的目标,提出了自己的问题解决思路。本文在企业供应关系抽取方面的研究可以分为三个部分。首先,本文研究了中文公司实体识别的方法,对金融文本中公司名称的特点进行了分析,针对现有问题,在现有命名实体识别工具的基础上结合依存句法分析和词典及规则方法,有针对性的处理了多个公司名称并列的情况,在上市公司年报文本上取得了较好的效果。其次,在产品名称识别方面,本文将边界词、产品关键词等特征融入到条件随机场中,同时利用依存句法分析对识别结果进行的修正,并使用句法依存关系进行复杂产品名称的边界识别,从而在上市公司年报文本上取得了较高的准确率、召回率和F值。第三,在企业供应关系判断和抽取方面,使用最近句法依赖动词来对实体之间的语义关系进行判断,采用人工构建和自动构建相结合的方式构建了关系指示词库,并利用关系指示词库判断文本的主题。最后在上市公司年报文本上进行了测试,取得了不错的效果。本文的贡献在于:首先,本文根据金融财经文本中产品名称的特点将其划分为产品类别词,并针对产品名称的特点融合了边界词和词典等特征有效的对其进行了识别。另外,本文提出使用的依存句法规则来对公司名称和产品名称的识别结果进行修正,有效的提高了实体识别的效果。最后,在关系判断方面,本文提出利用依存句法分析结合关系指示词库的方法进行多个实体之间关系的判断,从而精准的抽取了企业供应关系。