当前栏目:

《计算语言学导论》实验教学大纲

时间:2022-06-30浏览:51设置

课程中英文名称   计算语言学导论              

        The Introduction of  Computional Linguistics       

课程代码                            22020105005                             

培养层次         大学本科                  

适用专业         语言学                   

课程属性         专业基础课                 

开设学期          3                     

学分数          3                     

一、实验目的与要求

(一)实验性质

     验证型实验、综合型实验等。

(二)实验目的

      通过上机实验,使学生在理解和掌握计算语言学相关理论的基础上,掌握计算语言学在自动分词、句法剖析、语料库建设等领域的实践方法和应用实现,培养学生在自然语言处理和中文信息处理领域的动手实践能力,进一步深入理解自然语言形式化分析的逻辑与路径。

(三)基本要求

1. 具备一定的编程能力,熟悉C++C#或者Python等编程语言。

2. 掌握语料统计的基本方法和算法。

3. 熟悉正则表达式等字符串处理的基本方法。

4. 了解目前主流的自动分词、词性标注、句法剖析和语义分析等技术和平台。

 

二、实验项目与提要

序号

实验项目

关键步骤

内容提要

学时

实验

类型

1

语料库的构建

确定研究目标和问题、设定语料库规模和范围、收集语料数据、预处理数据、构建语料库结构、数据标注和注释、开发查询工具、实证分析和结果展示、评估和反思。

如何使用自动化工具收集文本,和清洗、存储与管理这些数据。

3

综合型

2

语料的统计与分析

设定实验目标、提取文本特征,如词频、情感极性等。应用统计和机器学习技术分析规律。解释结果,得出结论。

学习使用统计及自然语言处理(NLP)方法进行分析,探索文本中的规律与趋势。

2

创新型

3

基于短语结构语法和扩充转移网络的句法分析的对比

确定典型语料,建设上下文无关语法的形式语法集,尝试分别以广度优先、深度优先和扩充转移网络算法对语料进行形式化分析。

对同样的语料进行短语结构语法和扩充转移网络的形式化分析,对比两种句法自动分析理论的异同,理解回溯算法和并行算法在句法分析中的作用。

2

验证型

4

确定性句法分析系统

确定典型语料,根据确定性句法分析技术的要求,构建包括堆栈、成分缓冲器和规则包在内的确定性析句系统,对语料进行确定性句法分析。

理解确定性句法分析的基本思想,以及堆栈、成分缓冲器等字符串分析的方法,掌握“模式-规则”的句法形式化方法。

2

验证型

5

依存语法分析平台的使用

确定典型语料,通过哈工大LTP-HIT平台对语料进行依存句法自动分析,对结果进行验证和分析。

了解现有的句法分析平台,理解依存语法的形式化方法,掌握对句法自动分析结果的评价方法。

2

验证型

6

基于知网(Hownet)的自动语义标注和分析技术

确定典型语料,通过Hownet平台进行语义相似度的计算,并和Word2vec方法的语义相似度计算方法进行对比。

了解现有语义建设资源和平台,熟悉基于知识本体的语义分析方法和基于统计的语义分析方法。

2

验证型

7

 

 

 

 

 

8

 

 

 

 

 

9

 

 

 

 

 

10

 

 

 

 

 

三、作业要求及成绩考核办法

(一)作业要求

布置的作业要求大家均认真完成。课上自由发言(不强制发言,不限制发言次数,但要求每位同学均有至少一次发言)。

(二)成绩考核办法

     根据实验结果电子文档的完成情况打分,分数占期末总成绩的40%

四、教材及主要参考书

(一)教材

刘颖.《计算语言学》,清华大学出版社,2014.

(二)主要参考书

宋继华,杨尔弘. 《中文信息处理教程》,高等教育出版社,2011.

冯志伟.《自然语言计算机形式分析的理论和方法》,中国科学技术大学出版社. 2017.

冯志伟 《计算语言学方法研究》,外语教育与研究出版社,2023

 

撰写人:梁琳琳 马创新       审核人:

 


同栏目信息

其它相关信息