Web藏文文本资源挖掘与利用研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:jin_sarah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文结合链楼分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况.统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页.利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料.这些语料可用于藏文分词、命名实
其他文献
目的:通过合成具有新型高生物兼容性,能够兼容光、声敏一体化的分子探针,以光动力治疗效果作为对照,明确声动力疗法对细胞的杀伤作用,并在活体水平上探讨声动力疗法用于前列
在分析了大数据应用在企业及政府应用之广泛的基础上,给出了大数据应用的科普知识同公民自身文化素养、不同时期社会的教育发展程度以及不同时期社会经济、生产力水平相对应
改革开放以来,随着我国科学技术和社会主义现代化建设的发展,马克思主义科技观得到了很大的发展。从20世纪80年代对科学技术结构、规律和社会功能的一般性研究,到90年代提出
<正> 护理理论教学和临床教学是护理人才培养的两个重要环节。在教学内容和功能上应互为补充和融合,在时间安排上也要互相协调,合理衔接。因此,护理临床教学的改革思路应是按
目的建立罗库溴铵注射液含量测定方法。方法采用高效液相色谱法,色谱柱为硅胶柱(0.25m×4.6mm),流动相为乙腈(900ml):四甲基氢氧化铵溶液100ml(4.53g/L,用磷酸调p H至7.4),检
<正>新企业所得税法规定:对不论是福利企业还是非福利企业,也不论企业安置残疾人的比例,也不论残疾人的残疾程度如何,对安置残疾人的企业,在计算应纳税所得额时,一律在
本论文主要对螺旋藻多糖(Polysaccharide from Spirulina platensis,PSP)及其修饰后产物螺旋藻多糖硫酸酯(Sulfated Polysaccharide from Spirulina platensis,SPSP)的性质结构
復生故事是基於民間信仰的幻想模式,在民間廣為流傳的同時,也為文學家們所利用,演繹出許多充滿奇幻色彩的故事,展示出奇異瑰麗的故事情節,充滿了超越現實與超越自然的感召力量。本
口腔粘膜癌前病变或癌前状态是一种已有形态学上改变的组织,它与外观相应正常的口腔粘膜相比较具有更大的癌变可能。口腔粘膜癌前病变或癌前状态现已知的有口腔白斑,口腔红斑,口