[+] 인공지능 [+]
-
NLLB-200 distilled 350M 두근두근 개발일지[+] 인공지능 [+] 2024. 4. 26. 16:08
배경졸업 전 캡스톤 디자인 프로젝트에서 생성형AI를 사용한 서비스를 만들고자 하였다. 교수님도 생성형AI가 들어갔으면 하셨고, 무엇보다도 내가 원했다! 최종적으로 생각한 그림은 크롬 익스텐션으로 영문 이미지를 캡쳐하는 즉시 이미지가 한국어로 번역된 이미지로 보여지는 그런 형태의 제품을 고안했다. 초기엔 LLM을 QLora를 통해 학습하는 방식을 택했으나, 요즘 나오는 LLM들이 1B은 훌쩍 넘어가는데, 인퍼런스 타임이 최대한 빠릿빠릿해야 사용함에 불편함이 없을 것이다. 그리고 GPU서버를 쓰는데에 비용이 적잖이 들어간다. AI서비스가 GPU서버 없이 운영된다는건 좀 모순이긴 하지만... 뭐 어쩌겠는가... 돈없는 대학생인데... ㅠㅠ 😭😭😭 결국 LLM 포기 추가적인 리서치를 통해 Meta에서 공개..
-
[논문 리뷰] ELMo : Deep contextualized word representations[+] 인공지능 [+] 2021. 5. 11. 14:34
소개 높은 퀄리티의 representation을 만들어 내는것은 어려운 일이다. 언어의 문법적 의미론적인 특성을 고려해야하고, 다의어의 경우 문맥상 쓰임에 따라 상이기때문이다. 본 논문은 뉴럴 네트워크를 이용하여 문맥을 반영한 임베딩 기법을 제안한다. 전체 문장을 입력으로 제공받아 각 토큰 단위의 임베딩 벡터를 출력한다. 두개의 양방향 순환신경망을 사용하여 해당 토큰의 이전 맥락과 이후 맥락을 동시에 고려한다. 본 모델은 현존하는 down stream task에 쉽게 적용가능하며, 6가지 언어이해 문제에서 SOTA를 갱신한다. 문맥을 반영한 임베딩 모델이다. 언어 모델을 활용한 입베딩 기법이다. 본론 문장단위의 텍스트를 입력으로 받는다. 해당 텍스트는 문맥이 고려되지않은 token Embedding이나 ..
-
Text Summarization : Models[+] 인공지능 [+] 2021. 3. 7. 23:14
Extractive Models SummaRuNNer - R Nallapati et al (2016) SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents 두개의 양방향 RNN 사용 매 타입스탭 마다 단어를 입력으로 받아 vector를 생성후 평균 풀링을 진행하여 한 문장을 하나의 벡터로 표현 문장 벡터들이 순차적으로 RNN을 거쳐 Classification 수행 일반적인 Classification과는 달리 다양한 파라미터를 추가해서 고유성, 차별성, 위치 정보 등을 고려함 NeuSum - Qingyu Zhou et al (2018) Neural Document Summari..
-
Text Summarization: Overview and Metric[+] 인공지능 [+] 2021. 2. 20. 19:36
Motivation 특정한 문제를 해결하기 위해서, 이에 대한 최신 정보 혹은 최근 연구를 필요로 합니다. 습득해야하는 정보량이 늘어남에 따라 핵심만 선별하고자 하고, 명료하며 정제된 형태로 접근하고자합니다. 최신 정보 뿐 아니라, 회의록 작성, 논평, 헤드라인, 보고서 등 다양한 분야에서 요약을 필요로 합니다. Definition Text summarization is the process of distilling the most important information from a source (or sources) to produce an abridged version for a particular user (or users) and task (or tasks). Advances in Automati..
-
BERT 구조와 Transformer Encoder 살펴보기[+] 인공지능 [+] 2021. 1. 23. 16:46
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding BERT (Bidirectional Encoder Representations from Transformers) 자연어 처리를 공부하는 사람이라면 모르기 어려운 모델입니다. 혹자는 "우리는 BERT 의 시대에 살고있다"는 표현을 사용하기도 합니다. BERT 모델의 논문 부제로 Pre-train, Bidirectional, Language Understanding, 또 BERT의 풀네임 중에 Encoder, Transformers, Representations 라는 키워드가 사용되는데 이는 BERT의 성격을 잘 포함하고 있다고 생각합니다. 우선 BERT는 Lang..
-
CNN 개요와 흐름[+] 인공지능 [+] 2020. 12. 13. 19:59
INDEX 0. CNN의 탄생 배경 1. CNN의 개요 1-1. 합성곱 층 (Convolution Layer) 1-2. 풀링 층 (Pooling Layer) 2. CNN의 흐름 LeNet-5 - 얀 르쿤(1998) AlexNet - 알렉스 크리체프스키(2012) GoogLeNet - 크리스찬 세게디(2014) 0. CNN의 탄생 배경 CNN에 대한 아이디어는 일부 범위 안에 있는 시각 자극에만 반응한다는 데에서 착안하였습니다. 그도 그럴 것이, 타인이 저를 알아보는 것은 저의 명치를 보고 알아보는 것도 아니고, 제 어깨나 무릎도 아닌 헤어스타일과 이목구비를 보고 저를 인식할 것입니다. 이미지 인식 문제에서 완전 연결층(FC)을 이용하여 물체를 인식하는 작업은 유효하지만, 큰 이미지에 대해서는 문제가 됩니..
-
인공 신경망의 역사[+] 인공지능 [+] 2020. 11. 25. 07:48
더보기 최근 친구와 '기본'을 주제로 담화를 나눈던 도중 "어린아이나 아는 걸 뭣하러 해야하는가?"라는 핀잔에 "어린아이도 아는 걸 행하지 않으면 무슨 소용이 있겠나?"라는 일침으로 귀한 깨닳음을 얻은 경험이 있습니다. 인공지능을 공부하는 학생으로서 가장 '기본'이 된다고 생각하는 내용을 정리해 보았습니다. 인공 신경망을 다루기 전 생물학적 뉴런에 대해서 먼저 살펴봅시다. 왼쪽에 보이는 그림은 생물학적 뉴런을 나타냅니다. 동물의 뇌에서 발견됩니다. 각각의 뉴런 세포는 짧은 전기 자극을 만들어내어 다른 뉴런에게 전달합니다. 하나의 뉴런은 단순하게 동작하지만, 보통의 뇌는 수십억개의 뉴런으로 구성되어 유기적으로 동작합니다. 이에 착안하여 최초로 뇌를 모방한 단순한 신경망 모델을 제시하였는데, 이것이 나중에 ..