본문 바로가기

프로그래밍

해커톤 (1) - 주제 선정

활동중인 동아리에서 개최하는 해커톤이 개최되었다.

주제는 디지틸 격차로 인한 문제를 해결하는 서비스를 개발하는것.

우리팀은 디지털 격차로 인한 디지털 리터러시를 해결하는 서비스로 방향을 잡았다.

 

 

아무래도 디지털 정보 생태계에서 이를 잘 못 다루시는 분들은 상대적으로 편향된 정보를 받아들이고

이로 인한 가짜 정보의 유입이 더욱 무분별하게 이루어질수 있기 때문에

가짜뉴스를 판별하는 서비스를 기획하기로 하였다

 


 

 

 

잠시 다른 얘기를 하자면

 

팀원 4명 중 한 분은 PM, 한 분은 프론트, 나와 같이 한 분은 백엔드를 맡고 프로젝트를 진행하였다.

PM분과 프론트분은 인턴을 하고 계신지라 아시는것도 많고

이런저런 경험도 많으셔서 회의를 진행하는 도중에도 배울점이 너무 많았다.

 

같이 백엔드를 하시는 분도 나보다 Spring 지식이 많으셔서

지나고 생각해보니 걸림돌이 된 기억만 있다

 

나는 이번에 NOTION도 제대로 처음 써보고, Pigma 도 처음..

깃헙활용도 잘 모르니

(아무것도 몰라..)

첫 회의 때부터 어버버,, 했던것 같다

 

이때부터 뭔가

 

'아, 나 모르는게 왜 이렇게 많지..?'

 

이런 내 자신이 싫어지는 순간들이 너무 많았다 ㅋㅋㅋ

여튼 다시 주제 얘기로 돌아와서

 

 

 


 

 

 

일단 우리는 어떤 컨텐츠를 제공할지에 대해 고민했다.

 

우리는 주요 타겟을 유튜브로 뉴스를 시청하는 대상으로 타겟했고

그 대상을 위해 해당 유튜브에서 제공하는 정보들이

진실인지 가짜인지

판단을 도와주는 여러가지 정보를 마련하는 것을 목표로 했다.

 


 

우리가 제공하는 정보는

 

1. 해당 컨텐츠의 카테고리

유튜브는 어떤 알고리즘인지는 모르겠지만 자체 기준으로

영상의 카테고리를 제공한다.

우리는 이 영상의 카테고리가 뉴스인지 아닌지

사용자에게 알려주도록 했다.

 

 

1. 게시자가 공인된 신문사 방송사 인지

'공인된' 이라는 기준이 애매 했지만

우리팀은 네이버와 다음에 제휴된 언론사들을 기준으로

공인된 게시자의 기준을 마련했다.

언론사들이 운영하는 유튜브 채널을 데이터베이스에 담아

해당 채널이 데이터베이스에 있는지

사용자들에게 알려주도록했다.

 

1. 해당 뉴스가 가짜 뉴스인지 아닌지

이 부분이 제일 어려웠다.

가짜 뉴스의 기준을 마련하기도 어려웠고

설령 기준을 마련한다고 하도 

그 많은 글들을 어떻게 판별할지도 머리가 아팠다..

 

일단 단면적으로 생각되는 문제는 두가지였다.

 

 

1) 가짜 뉴스의 기준을 어떻게 정할 것 인가?

 

2) 가짜 뉴스를 어떻게 판별 할 것 인가?

 

 

 

우리는 이를 해결하기 위해 첫번째로 생각한 방법은

 

나름의 알고리즘을 구축하는 것 이었다.

 

근데 이게;;

 

 

우리 나름대로 알고리즘을 구축한다고 해도

이를 검증할 도구도 부족하고

사용자들에게 제공하기에는

신뢰성이 떨어지는 방법이니

다른 수단을 고민 해야했다.

 

프론트 담당자분이 한 가지 제안을 했다.

 

https://khw742002.tistory.com/61

모델링

 

이미 가짜 뉴스를 판별하는 모델링을 시도한 팀이 있었다!

 

이 모델링을 적용 시킬수만 있다면

어렵지않게 문제를 풀어나갈 수 있었다

 

결론부터 말하자면 ! 

실패..

안되더라

 

모델링을 참고해서 코드를 짜본 결과이다.

 

 

 

데이터를 계속 돌리면서 acc값이 1에 가까워 져야 신뢰성이 생기고

성공적인 모델링인데

 

보이는것처럼 acc값이 계속 똑같고 loss 값도 잡히질 않았다.

 

데이터를 수정하고 다르게 접근해도 해당 문제가 해결이 되지 않아서.. 이게 참..

 

 

 

결국 모델링은 포기를해야 했다