워드 클라우드로 내용 정리하기, 독서
이름 : Michelle
조회수 : 73

​​​Yeti(예티)​안녕하세요호기심의 워드클라우드 시작 사이언스존의막둥이 예티예요 만나서 반가워요~ :D​​​​​텍스트 마이닝-워드 클라우드​​글자로 이루어진 구름을 본 적 있나요?​​지금 이 순간에도무수히 많은 데이터들이 발행하고 있습니다​만약 이 데이터들을 분석할 수만 있다면 여러 분야에서 유용하게 사용할 수 있을 거예요.​하지만, 인터넷 사이트에 무심코 쓴 댓글, 혹은 앱(SNS) 상의 의미 없이 올린 사진 등을 체계적으로 분석하여 결과를 내기란 결코 쉽지 않은 일입니다.​이러한 비정형 데이터를 분석하기 위한 작업을데이터 마이닝(date mining)이라고 합니다.​​텍스트를 예로 들면 텍스트 안에 포함된 여러 단어들 중 중요하다고 판단되는 단어만 골라낸 다음 빈도수에 따라 정렬을 시킵니다. 이렇게 정렬한 데이터를 바탕으로 중요도에 따라 크기를 달리하여 한눈에 표현한다면 데이터가 어떤 내용을 담고 있는지 쉽게 알 수 있게 됩니다. ​이때 표현된 글자의 모임을 워드 클라우드(word cloud)라고 합니다.​​​​​쉽게 말씀드릴게요~​​​영화 사이트의 리뷰 모음​​영화의 반응을 알기 위해 모든 리뷰들을 분석해야 하지만,엄청난 양의 글을 사람이 하나하나 정리하기는 불가능합니다!​이때 필요한 기술이텍스트 마이닝​​많은 양의 글에서 특정 워드클라우드 단어를 추출해낸 후중요도와 빈도를 구분해 우리에게 유의미한 결과를 보여줍니다​​​​​​하지만, 단순히 숫자로만 나타낸다면 한눈에 알기 힘들어요이런 경우워드 클라우드를 이용하여​​출처: Wordcloud.kr​​빈도가 높은 단어는 크게낮은 단어는 작게나타낸다면 한눈에 알아보기 쉽겠죠?​​​​​텍스트(text) : 글자로 구성된 문서마이닝(mining) : 채굴, 채광, 광업텍스트 마이닝 : 비정형 텍스트 데이터에서 새롭고 유용한 정보를 자아내는 과정 또는 기술​워드(word) : 단어, 낱말, 말클라우드(cl oud) : 구름, 자욱한 것, 흐리다워드 클라우드 : 단어 구름으로 특정 단어의 빈도나 중요성을 글자의 크기로 나타낸 이미지네이버 국어사전​​​조금 더 알아볼게요~​​데이터 마이닝 (Data Mining)​​​ 비정형 데이터© socialcut, 출처 Unsplash​데이터의 종류는 형태에 따라 정형 데이터와 비정형 데이터로 나눌 수 있습니다. 이때 정형 데이터는 구조화된 데이터로 특정한 구조에 따라 쉽게 표현될 수 있는 데이터입니다. 반면에 비정형 데이터는 정해진 구조가 없습니다. 우리가 SNS에 쓴 글, 사진, 영상 등이 비정형 데이터의 예시입니다.​ 4차 산업 이후로 이러한 비정형 데이터를 분석하는 일이 각광을 워드클라우드 받고 있습니다. 특히 비정형 데이터 중에서 텍스트 데이터만을 분석하는 것을 지칭하여 텍스트 마이닝(text mining)이라고 부르고 있습니다. ​사실 텍스트 마이닝은 1970년대부터 개발된 기술로서 최근에 개발된 기술은 아닙니다. 하지만 각종 소셜미디어로 인한 빅데이터의 발생과 이때 발생하는 텍스트들을 분석하기 위하여 근래에 들어 더욱 활발해지게 된 것입니다. ​텍스트 마이닝에 필요한 기술에는 언어학, 수학, 통계학, 컴퓨터공학 등 여러 가지 분야의 지식들이 총동원되어 목적에 맞게 유의미한 정보를 추출하게 됩니다.​​​텍스트 마이닝의 순서​© mcmurryjulie, 출처 Pixabay​​텍스트 마이닝을 하기 위해서는 몇 가지 절차를 거쳐야만 합니다.​첫째로 명사를 기본으로 한 단어들의 일체를 추출합니다. 텍스트가 가진 정보 중에서 명사는 가장 기본이 되며 여기에 한글 사전을 적용하여 추출한다면 더욱 쉽게 마이닝이 이루어지게 됩니다. 물론 모든 명사가 의미 있게 적용되지는 않습니다. 조사, 접미사, 동사, 공백 문자 등은 명사임에도 불구하고 중요한 데이터로 판단하기 어렵습니다.​명사의 추출이 끝났다면 추출한 명사의 빈도수를 계산합니다. 텍스트 데이터에 나타난 워드클라우드 명사들을 자주 나온 순서대로 정렬하게 되는데 여기서도 물론 중요치 않은 데이터들이 발생합니다. 연결사, 조사 등이 자주 나온다고 해도 데이터 분석 시 필요 없는 데이터로 간주됩니다.​마지막으로 워드 클라우드로 시각화를 합니다. 이때 중요도와 빈도수가 높은 단어는 크게 표현하고 중요도와 빈도수가 낮은 단어는 작게 표현하여 모든 단어를 같이 모아 표현합니다. 크기로 시각화를 시키는 방법도 있지만 적절한 색깔의 차이로 중요도를 표현해도 좋습니다.​​텍스트 마이닝의 응용 분야​​ 텍스트 마이닝의 응용 분야로는 기업의 소비자 감정 분석, 채용 및 고용 시스템, 사기 탐지시스템, 전자 상거래 업체의 장바구니 분석, 표적 광고 구축과 같은 다양한 산업 분야에서 광범위하게 사용되고 있습니다. ​​​​© enginakyurt, 출처 Unsplash​감정 분석텍스트 마이닝을 인한 감정 표현 분석 기술은 특정 회사에 대해 고객들이 어떻게 느끼고 있는지를 판단하는 데에 큰 도움을 줄 수 있습니다​흔히 오피니언 마이닝이라고 불리는 이러한 기술은뉴스, SNS 등의 분석을 통해 그 안에 사용된 단어마다 워드클라우드 가지는 부정적, 긍정적, 혹은 중립과같은 감정을 이해하고 표현의 강도에 따른 정량적인 값을 부여하게 됩니다.​행복, 짜증, 분노, 슬픔과 같은 감정을 마이닝 하여고객의 감정을 분석한 후매출 전략 수립과 마케팅 판단 결정에 반영시킬 수 있습니다.​​​​© cytonn_photography, 출처 Unsplash​​채용 및 고용채용담당자는 자연어 처리 기술을 활용하여수작업에 의존하지 않고도 이력서를 빠르게 검토할 수 있게 되었습니다​특히 특정 지원자로의 편향을 막는 객관적이고 중립적인 채용공고를 작성할 수 있도록 지원하여 효율적으로 구직자를 찾아낼 수 있게 됩니다구직자 또한 이력서에 사용된 단어, 표현과 의미 분석을 통해 가장 적합한 회사를 빠르게 찾아낼 수 있습니다.​​© ylannmeyer, 출처 Unsplash​광고​개인의 소셜 네트워크 서비스(SNS), 이메일, 검색 기록과 같은 데이터를 분석하여광고주들은 본인 회사의 잠재 고객을 쉽게 발견할 수 있습니다.​단순한 검색 키워드 매칭을 통해서 사이트에 어떤 시간대에 누구를 위해 광고해야 할지 좀 더 정확하게 알 수 있게 됩니다.이를 통해 기업은 광고 예산을 효율적으로 집행할 수 있습니다.​물론 각각의 워드클라우드 단어나 문장이 해당 문맥 속에서 어떤 의미를 지니는지 정확히 파악 하기까지는 다소 시간이 걸리겠지만, 텍스트 마이닝은 여전히 광고 산업에 있어 큰 역할을 수행하고 있습니다​​​​© austindistel, 출처 Unsplash​마켓 인텔리전스​기업의 마케터들은 이제까지만 해도 단순한 미디어 모니터링을 하는 일에만 그쳤습니다. 하지만 넘쳐나는 텍스트 데이터의 홍수 속에서 단순 댓글이나 SNS의 영화 리뷰, 상품 평가 등을 포함하는 모든 정보를 분석하는 것이 물리적으로 쉽지만은 않습니다​ 때문에 사람이 일일이 모니터링을 하는 것이 아니라 텍스트 마이닝을 통해 의미 있는 결과만을 미리 추려내는 작업이 필요합니다​ 즉 수백만 개의 블로그, 웹사이트, SNS 포스팅들을 마이닝 하여 해당 업계에서 어떠한 일이 일어나고 있는지에 대해 꾸준히 업데이트해 나가는 것이 중요합니다​이로 인해 경쟁사 동향 및 최신 업계 소식을 이용하여 기업들이 맞춤 전략을 구사할 수 있도록 도와줍니다​​​Walter(월터)​워드 클라우드우리 직접 만들어 볼까요?​​​​워드 클라우드 생성기를 이용해 만들었어요​​​​​​​​Walter(월터)​​​​워드 클라우드SW.AI 교구를 이용해 체험해 볼까요?​​;​​텍스트 마이닝 - 워드 워드클라우드 클라우드 만들기​​​​SW. AI 교육 언플러그드 체험 활동 교구 키트ㆍAI 워드 클라우드(텍스트 마이닝)​학습 목표 : 텍스트 마이닝에 대해 알아본 뒤, 체험 활동을 통하여 워드 클라우드를 직접 만들어 봅니다​​분야 : 인공지능 기초대상 : 초등 5,6학년 / 중학교 / 고등학교단원 : 인공지능의 원리와 활용 - 데이터, 분류, 탐색, 추론 / 데이터와 기계학습 - 정형 데이터, 비정형 데이터적용범위 : 데이터 시각화, 비정형 데이터, 데이터 마이닝활동시간 : 약 15분난이도 : ★★☆☆☆​​AI 워드 클라우드 - 텍스트 마이닝 구성 및 완성 크기​AI 워드 클라우드- 텍스트 마이닝 교구 키트 구성​도안 1 - 활동지 1장도안 2 - 스티커 1장도안 3 - 모조지 1장도안 4 - 엽서 1장 지도안·학생용 보고서 1부[ 친환경 소재 종이로 사이언스존에서 100% 제조합니다 ]​​개별 준비물필기도구​​AI 워드 클라우드 - 텍스트 마이닝 (교사용 보고서/학생용 보고서) ​​​​AI 워드 클라우드 - 텍스트 마이닝 체험(실험)과정​​​​​Yeti(예티)​​실험 과정 영상입니다 ^^​​​​​​​​​이제는 답을 워드클라우드 말할 수 있겠죠?​​데이터를 사람의 손으로 직접 분석하기 힘든 이유가 무엇인가요?워드 클라우드에서 크기가 크게 표현된 단어는 어떤 의미인가요?​​​​​​​온 가족이 다 함께~​​​AI 워드 클라우드-텍스트 마이닝 (언플러그드 활동 체험 교육교구 키트) 해요​데이터시각화, 데이터와 기계학습, 정형 데이터와 비정형 데이터, 데이터 마이닝 인공지능기초 학습용 과학실험로 우리 아이들이 재미있게 즐길 수 있는 키트로 구성하여 선생님(부모님)의 소중한 시간과 번거로움을 대폭 줄여주는 과학, SW, AI 학습교구입니다.​​​깨알 자랑입니다 ~ ☆​2020년 우수과학문화 상품 언플러그드 SW 교육 교구 키트 우수상 수상​2022년 우수 과학 문화상품 언플러그드 AI 교육 교구 키트 장관상 수상​​​축하해 주세요~~ :D​​​​쉽고, 재미있는 소프트웨어, 인공지능 개념을직접 체험하는 교육 교구 키트로개발하였습니다​현장에서 우리 아이들을지도하시는 선생님들과교육에 관심 많은 부모님들께좋은 SW AI 교육 교구 교재가 되길 바랍니다~​​​과학, 그 이상의 즐거움Science beyond the enjoyment모든 아이들에게 과학을Science for all children호기심의 시작 사이언스존​​​​​행복한 하루하루 보내세요~~ :D​​​​​