미나랑 해보자

이론언어학 1. 개론 본문

데이터청년캠퍼스/이론언어학

이론언어학 1. 개론

미나랑 2021. 7. 6. 19:03

언어학과 자연어처리에 대한 아주 간단한 인트로이다. 배운 걸 정리하려는 목적이지만 혹시 정주행 하시는 분이 있다면 이러저러한게 있구나~ 하고 쓱 보시면 될 것 같다. 자연어처리에 관한 내용도 조금은 나오고 위 수업은 영어학이었지만 언어학 전공수업 시간에 배운 타언어도 조금 언급하게 될 것 같다.

1. 자연어처리 개론

1. 자연어&자연어처리란?

-자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일

-자연어 이해, 자연어 생성, 음성인식, 음성합성, 기계번역 등

-이전에는 규칙기반 방법(rule based)을 주로 사용했으나 최근에는 머신러닝을 사용하면서 정확도가 높아짐

 

2. 자연어처리의 한계(현재)

-비정형데이터(띄어쓰기가 없는 경우, 영어 알파벳 등으로 자모음을 대체하여 표기하는 경우) 처리가 어렵다

-숙어, 신조어 등을 처리하기 어렵다

 

3. 자연어처리의 단계

Sentence splitting-> Tokenization(단어단위로 나누기)-> Morphological analysis(형태소 분석)-> Part-of-speech tagging(품사 태깅)-> Shallow parsing(품사적 다의어가 존재하는 경우 맥락을 고려)-> Named entity recognition(개체명인식, 고유명사나 여러 단어가 한가지 뜻을 이루는 경우)-> Syntactic parsing-> Semantic role Labeling(문장 내 역할 부여, 요즘은 자주 사용하지 않는다고 함)-> Semantic/Pragmatic analysis

 

 

2. 언어란? 언어를 안다는 건 무엇인가?

1. 소리 체계(sound system)을 안다는 것

-> 언어의 어떤 소리가 음소(뜻을 구분해주는 최소의 소리단위)이고 어떤 소리가 언어가 될 수 없는지를 아는 것.

예) 한국어에는 달/딸/탈이 모두 다른 소리이지만 영어는 위 소리가 음소가 아니기 때문에 세 소리를 구분하기 어렵다

 

2. 단어(word)를 안다는 것

-> 어떤 소리들의 연쇄가 특정한 의미를 나타낸다(signify)는 것을 안다

-> 소리(speech sound)와 그 의미는 자의적, 임의적(arbitrary)이다

-> 표지판과 같이 단어 역시 관습적으로 그렇게 부를 뿐이다

-> 시니피앙(형태)과 시니피에(의미)는 자의적이다

-> 의성어, 의태어 등도 같은 소리이지만 언어마다 나타내는 소리가 다르다.

 

3. 문장과 비문장(정문과 비문)을 안다는 것

-> 유한한 언어규칙으로 무한한 개수의 문장을 만들 수 있다

-> 우리는 언어규칙을 통해 이전에 전혀 들어보지 못한 문장을 만들 수 있다

-> 언어 규칙에 대한 지식은 정문과 비문을 구분할 수 있게 해준다

 

4. 문법의 종류

1) 기술문법(Descriptive grammar)

모든 문법은 동등하다는 입장

 

2) 규범문법(Prescriptive grammar)

더 적합한 문법이 있다는 주장. 요즘에는 잘 사용하지 않는 문법사상

예) 서울말이 짱이라고 생각하기. 서울말은 다른 지역과 마찬가지로 서울 지역에서 사용되는 사투리에 불과하다.

 

3) 보편문법(Universal grammar)

-> 촘스키가 주장한 인간 내적의 문법체계. 인간은 모든 언어를 배울 수 있는 능력을 타고 태어나지만 시간이 지남에 따라 모어(모국어)를 배우고 사용하는 능력 외에는 퇴화된다고 주장.

'데이터청년캠퍼스 > 이론언어학' 카테고리의 다른 글

이론언어학 3. 통사론  (0) 2021.07.17
이론언어학 2. 형태론(Morphology)  (0) 2021.07.06