Tokenization
Contents
Tokenization¶
Chinese¶
- The Segmentation Guidelines for the Penn Chinese Treebank (3.0)
- Abstract
- Chapter 1 Introduction
- Chapter 2 Specification
- 2.1 Common noun: NN
- 2.2 Proper Noun: NR
- 2.3 Temporal noun: NT
- 2.4 Localizer: LC
- 2.5 Pronoun: PN
- 2.6 Determiner: DT
- 2.7 Cardinal number: CD
- 2.8 Ordinal number: OD
- 2.9 Measure word: M
- 2.10 Verb: VA, VC, VE, and VV
- 2.10.1 Reduplication: A A, ABAB, A ABB, A AB, ABB,ABAC
- 2.10.2 “Reduplication”: AA-kan, A-one-A, A-le-one-A,A-le-A
- 2.10.3 A-not-A
- 2.10.4 AD+V
- 2.10.5 MSP+V
- 2.10.6 N+V
- 2.10.7 V+N
- 2.10.8 V+R
- 2.10.9 Potential form: V-de/bu-R
- 2.10.10 V+DIR
- 2.10.11 V+AS
- 2.10.12 V+DER
- 2.10.13 Verb coordination without conjunctive words
- 2.10.14 V+coverb
- 2.10.15 Others
- 2.11 Adverb: AD
- 2.12 Preposition: P
- 2.13 Subordinating Conjunction: CS
- 2.14 Conjunction: CC
- 2.15 Particle: DEC, DEG, DEV, DER,AS, SP,ETC,and MSP
- 2.16 Interjection: IJ
- 2.17 Onomatopoeia: ON
- 2.18 Other noun-modifier: JJ
- 2.19 Punctuation: PU
- 2.20 Foreign word: FW
- 2.21 Others
- Chapter 3 Collocation with Some Morphemes
- Chapter 4 Common Collocations
- Appendix A Comparison with Other Guidelines
- Appendix B Treebank Part-of-Speech Tagset
- Bibliography
- MSR中文文本标注规范 (5.0 版)
- 第一章 概述
- 第二章 专有名词标注总则
- 第三章人名
- 第四章 地名
- 第五章 机构名
- 第六章 数字串标注总则
- 第七章 时间表达式标注细则
- 第八章 数字表达式标注细则
- 8.1如果整数、分数、小数、序数后面有量词,数量短语要整体标注
- 8.2单纯的数字、词表词(包括俗语)中的数字都不作标注
- 8.3约、近是一个不确切概念,故不同后面的数字串一起标注
- 8.4钱款式中的地名
- 8.5钱款标注中的特例
- 8.6频率的特例
- 8.7名词方没有与之搭配的量词,因此可以和前面的数词直接结合
- 8.8一相当于英语的冠词a,一般不标
- 8.9一(1)+量词不标注int
- 8.10一(1)”+物理单位元需按度量表达式标注
- 8.11分数词素半
- 8.12序数词素首
- 8.13序数词+量词结构,应整体作为ord标注
- 8.14仅当形容词前表示比赛名次时才和后面的序数结构一起标注
- 8.15文本中表示标号的数字不标
- 8.16人名、地名、机构名中的数字,不单独标注int
- 8.17外文字符串的标注
- 8.18数学公式和机型标号均作为一个整体来切分和标注
- 第九章 分词歧义消解细则