미나랑 해보자

210920~210924 TIL 본문

TIL(Today I Learned)

210920~210924 TIL

미나랑 2021. 9. 24. 23:43

1. 포트폴리오

드디어 포폴을 완성했다!!
그동안 했던 프로젝트, 활동들, 포부 등등
이 내용을 넣어야할지, 말어야할지, 넣는다면 어떤 부분을 어필해야할지 정말 많은 고민이 있었다. 처음 만들어보는거라 어렵기도 하고, 고민이 되기도 했지만 그래도 재미있었고 나름 괜찮았던 것 같다😊


2. 졸논준비

가짜뉴스 판별기를 언어학적 분석(품사, 타입토큰비율)을 더해서 성능을 높이는 주제를 생각하고 있다.
기존의 논문들이 아직 word2vec정도 밖에 진행하지 않았고 SOTA가 75%정도로 낮은 편이라 XGBoost나 랜덤포레스트 같은 알고리즘을 사용하면 충분히 경쟁력있다고 판단했다.

하지만 큰 문제가 있었다. 바로 데이터 수집 문제!!
기존 선행연구에서 SNUfactcheck 사이트에서 크롤링을 해왔다길래 나도 그러면 되겠거니 하고 생각했는데 아마 직접 손으로 크롤링하셨던 것 같다.
나의 경우 뉴스기사 헤드라인, 기사 분류, 날짜, 원문 정도의 데이터가 필요한데 해당 사이트는 어떤 부분에서 팩트체크가 필요한지, 왜 이 부분이 가짜인지를 설명하고 정정하는 것을 목표로 한다.
따라서 사이트 내에는 원문 전체를 담지 않았고, 원문으로 연결하면 각 페이지마다 헤드라인이나 원문에 대한 태그가 달라서 내가 가진 크롤러로는 크롤링이 불가능했다.
더군다나 팩트체크의 대상이 되는 것이 신문기사 뿐만이 아니라 특정 커뮤니티나 유명인의 발언 등도 포함하는 것이라서 뉴스기사만 크롤링을 했을 때 양이 많아야 300개 정도라고 판단했다.
너무 적은 수라 패닉에 빠졌고, 이건 먼저 영어데이터를 해보고 한국어로 넘어가야하나 아니면 영어데이터만 활용해야하나 전전긍긍하던 차에 구세주를 발견했다.

한국언론진흥재단에서 구축한 가짜뉴스에 대한 메타데이터
링크: https://www.data.go.kr/data/15086437/fileData.do

한국언론진흥재단_뉴스빅데이터_메타데이터_가짜뉴스_20201231

뉴스데이터베이스

www.data.go.kr

등록일 기준(21.08.30) 현재(21.09.24) 구축된 지 한달도 안된 따끈따끈한 데이터이다. 11,000개가 넘는 가짜뉴스데이터정보를 얻을 수 있었다.
일반 기사의 경우에도 해당 데이터를 구축한 빅카인즈 사이트에 가면 조건에 맞는 뉴스기사를 20,000개까지 무료로 제공한다.

이제 EDA하고, 전처리로 데이터개수 맞추고 돌려보는 일만 남았다.

3. 자소서 레퍼런스 참고 중


포트폴리오가 끝나니 자소서가 시작되었다.
자소서의 문항들은 본질을 묻는 것 같아서 어렵다.

왜 여길 들어오고 싶은데?
그동안 뭐 했는데?
와서 뭐 할건데?
...
어렵다.

더군다나 나는 드러내는 것도 그다지 좋아하는 편이 아니고 자랑도 잘 못해서 포장의 대상이 내가 되는 경험이 즐겁지는 않다.

또 고민고민하고, 레퍼런스도 많이 찾아본 결과 정말 진심으로 써보기로 했다.
진심으로 왜 하고싶은지
왜 데이터사이언스를 배우고 싶은지 썰풀듯이 쓰고 있다.
잘 정리해서 주변 사람들한테 보여줘야지

'TIL(Today I Learned)' 카테고리의 다른 글

220113 TIL  (0) 2022.01.13
220112 TIL  (0) 2022.01.12
210917~210919 TIL  (0) 2021.09.19
0916 TIL(Today I learned)  (0) 2021.09.16
0915 TIL(Today I Learned)  (0) 2021.09.16