课程中英文名称 计算语言学导论
The Introduction of Computional Linguistics
课程代码 22020105005
培养层次 大学本科
适用专业 语言学
课程属性 专业基础课
开设学期 3
学分数 3
(一)实验性质
验证型实验、综合型实验等。
(二)实验目的
通过上机实验,使学生在理解和掌握计算语言学相关理论的基础上,掌握计算语言学在自动分词、句法剖析、语料库建设等领域的实践方法和应用实现,培养学生在自然语言处理和中文信息处理领域的动手实践能力,进一步深入理解自然语言形式化分析的逻辑与路径。
(三)基本要求
1. 具备一定的编程能力,熟悉C++、C#或者Python等编程语言。
2. 掌握语料统计的基本方法和算法。
3. 熟悉正则表达式等字符串处理的基本方法。
4. 了解目前主流的自动分词、词性标注、句法剖析和语义分析等技术和平台。
序号 | 实验项目 | 关键步骤 | 内容提要 | 学时 | 实验 类型 |
1 | 语料库的构建 | 确定研究目标和问题、设定语料库规模和范围、收集语料数据、预处理数据、构建语料库结构、数据标注和注释、开发查询工具、实证分析和结果展示、评估和反思。 | 如何使用自动化工具收集文本,和清洗、存储与管理这些数据。 | 3 | 综合型 |
2 | 语料的统计与分析 | 设定实验目标、提取文本特征,如词频、情感极性等。应用统计和机器学习技术分析规律。解释结果,得出结论。 | 学习使用统计及自然语言处理(NLP)方法进行分析,探索文本中的规律与趋势。 | 2 | 创新型 |
3 | 基于短语结构语法和扩充转移网络的句法分析的对比 | 确定典型语料,建设上下文无关语法的形式语法集,尝试分别以广度优先、深度优先和扩充转移网络算法对语料进行形式化分析。 | 对同样的语料进行短语结构语法和扩充转移网络的形式化分析,对比两种句法自动分析理论的异同,理解回溯算法和并行算法在句法分析中的作用。 | 2 | 验证型 |
4 | 确定性句法分析系统 | 确定典型语料,根据确定性句法分析技术的要求,构建包括堆栈、成分缓冲器和规则包在内的确定性析句系统,对语料进行确定性句法分析。 | 理解确定性句法分析的基本思想,以及堆栈、成分缓冲器等字符串分析的方法,掌握“模式-规则”的句法形式化方法。 | 2 | 验证型 |
5 | 依存语法分析平台的使用 | 确定典型语料,通过哈工大LTP-HIT平台对语料进行依存句法自动分析,对结果进行验证和分析。 | 了解现有的句法分析平台,理解依存语法的形式化方法,掌握对句法自动分析结果的评价方法。 | 2 | 验证型 |
6 | 基于知网(Hownet)的自动语义标注和分析技术 | 确定典型语料,通过Hownet平台进行语义相似度的计算,并和Word2vec方法的语义相似度计算方法进行对比。 | 了解现有语义建设资源和平台,熟悉基于知识本体的语义分析方法和基于统计的语义分析方法。 | 2 | 验证型 |
7 |
|
|
|
|
|
8 |
|
|
|
|
|
9 |
|
|
|
|
|
10 |
|
|
|
|
|
布置的作业要求大家均认真完成。课上自由发言(不强制发言,不限制发言次数,但要求每位同学均有至少一次发言)。
根据实验结果电子文档的完成情况打分,分数占期末总成绩的40%。
刘颖.《计算语言学》,清华大学出版社,2014年.
宋继华,杨尔弘. 《中文信息处理教程》,高等教育出版社,2011年.
冯志伟.《自然语言计算机形式分析的理论和方法》,中国科学技术大学出版社. 2017年.
冯志伟 《计算语言学方法研究》,外语教育与研究出版社,2023年
撰写人:梁琳琳 马创新 审核人: