大数据时代的语料库语言学研究探索
本文谈两个问题:一是语料库之大容量与语料库语言学面临的挑战,二是索引行分析(KeywordinContext,KWIC)自动化研究探索.先谈第一个问题.回顾语料库语言学几十年的发展历程,人们对语料库有两种不同的理解.第一种是把语料库理解为抽样文本集合,即所谓的样本语料库(sample corpora),又称为平衡语料库(balanced corpora)(McEnery & Hardie,2012:6).持这种观点的学者认为,语料库就如同其他实证研究中的数据一样,需要采用严格科学的抽样方法采集,研究中数据的样本量和代表性同等重要.依据这种方式建成的语料库包括美国学者最早建成的布朗语料库...
Gespeichert in:
Veröffentlicht in: | 中国外语 2021-01, Vol.18 (1), p.13-14 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 本文谈两个问题:一是语料库之大容量与语料库语言学面临的挑战,二是索引行分析(KeywordinContext,KWIC)自动化研究探索.先谈第一个问题.回顾语料库语言学几十年的发展历程,人们对语料库有两种不同的理解.第一种是把语料库理解为抽样文本集合,即所谓的样本语料库(sample corpora),又称为平衡语料库(balanced corpora)(McEnery & Hardie,2012:6).持这种观点的学者认为,语料库就如同其他实证研究中的数据一样,需要采用严格科学的抽样方法采集,研究中数据的样本量和代表性同等重要.依据这种方式建成的语料库包括美国学者最早建成的布朗语料库(BrownCorpus),以及后来英国兰卡斯特大学语料库研究团队主持或参与建成的布朗家族语料库(Brown Family Corpora)和英国国家语料库(British National Corpus)等.另一种观点主张持续动态采集各种语料,以更为全面地反映语言使用的全貌.按照这种方法建成的语料库称为监控语料库(monitor corpus).最知名的监控语料库有英语文库(Bank of English)等. |
---|---|
ISSN: | 1672-9382 |