Q&A

인쇄하기

Home › 커뮤니티 › Q&A

[240514] 파이썬을 이용한 뉴스 크롤링, 워드클라우드 시각화...

페이지 정보

profile_image
작성자 Monet
댓글 0건 조회 236회 작성일 24-07-08 00:57

본문

지역문화 워드클라우드 데이터를 어떻게 활용해야할 지 모르겠다구요?문화 빅데이터 플랫폼에서 시각화를 해보고 싶은데, 어떻게 해야할 지 모르겠다구요?​오늘은 문화 빅데이터 플랫폼에서 지역문화 빅데이터 센터 데이터로 시각화 실습을 해보려 합니다.키워드에 대한 빈도를 한눈에 파악할 수 있는 워드클라우드 차트를 그려보는 것이 오늘의 목표!지역문화 데이터를 활용한 지역문화 예술인 워드클라우드 차트오늘 함께 해볼 시각화 절차는 크게 3단계로 정리됩니다.데이터 확보 >정제 >시각화1단계: 데이터 확보STEP 1. 문화 빅데이터 플랫폼 접속​먼저 지역문화 데이터를 다운받기 위해 문화 빅데이터 플랫폼에 접속해야겠죠?이미지를 클릭하면 문화 워드클라우드 빅데이터 플랫폼으로 연결됩니다.STEP 2. '지역문화예술인 콘텐츠 사용자 성별 관심도'데이터 다운로드​메인 검색창에서 '예술인'을 검색후, 한국문화원연합회에서 제공하고 있는 '지역문화예술인 콘텐츠 사용자 성별 및 관심도'데이터를 다운로드 합니다.​​다운로드 절차는 지난번 아래 포스트에서 소개한 적 있죠? 2022년, 바야흐로 데이터 홍수의 시대입니다. 가치 있는 데이터들은 다양한 분야에서 없어서는 안될 필수적...(0원) 결제 과정을 마친 후, 컬럼정의서와 데이터 CSV 파일을 모두 다운로드 했다면 파일을 한 번 열어봅니다. 파일명: KF_AREA_CLTUR_ARTS_INTRST_DATA_LIST_202209.CSV1라인은 컬럼, 2라인부터 데이터가 입력되어 있습니다. '컬럼'의 의미는 '컬럼정의서'를 확인해주세요.2단계: 워드클라우드 데이터 정제STEP 3. 데이터 가공 - 예술인명 추출​차트를 그리기에 앞서, 데이터 정제 작업이 필요합니다. 먼저 다운로드 받은 데이터 파일이 CSV 형식으로 저장되어 있으니, 엑셀 파일(.XLSX)로 저장해줍니다.CSV 파일은 수정 작업을 해도 저장되지 않습니다! 꼭 엑셀파일 형식으로 새로 저장해주세요. ​오늘 데이터 시각화의 목적은 지역문화포털 콘텐츠 사용자들이 예술가 누구를 얼마나 많이 찾아보았는지,'빈도'를 확인하는 작업이기 때문에 예술가 이름의 데이터값이 필요합니다.'DATA_TITLE_NM'컬럼에서 예술인 이름을 별도로 분리해야합니다. ​아래 순서로 진행해주세요.1G열 클릭, 마우스 오른쪽 버튼 클릭, 삽입 클릭2G2 워드클라우드 셀에 함수 입력 =TRIM(RIGHT(F2,3))3G2 셀 오른쪽 아래 모서리 더블클릭!=TRIM(RIGHT(F2,3)) 은F2 셀의 오른쪽 끝 3개 문자만을 잘라내는 함수입니다.예술인명을 추출하기 위해 사용되었습니다.일부 데이터는 아래와 같이 추가 정제 작업을 요하기도 합니다. 1) 예술인 한 사람의 명칭이 데이터에 없는 경우2) 인명의 이름이 네 글자인 경우3) 데이터에 한자가 병기되어 있어 한자 표기가 추출되는 경우교정을 위한 추가 작업이 필요합니다.​일단 이번에는 삭제 없이 진행하도록 하겠습니다.STEP 4. 데이터 가공 - 피벗 테이블 만들기엑셀 상단 메뉴에서 [삽입] - [피벗 워드클라우드 테이블] - [새 워크시트] - [확인] 클릭예술인명 추출까지 완료했다면, 이제 이중에서 우리가 분석에 사용할 데이터만을 선별해 피벗 테이블로 만들어야합니다.피벗 테이블은 데이터 처리 기법 중 하나로 종종 사용되는데요, 많은 양의 데이터 중 필요한 데이터만을 뽑아 재구성할때 사용되는 통계표입니다.​확인 버튼을 누르면, 어떤 데이터를 사용할지 선택하는 창이 뜨는데요.우리는 콘텐츠 사용자 성별에 따른 예술인 열람 빈도수를 확인할 것이기 때문에'열'에는 [성별], '행'에는 방금 추출해 만든 [예술인명], '값'에는 [방문수]를 선택합니다.완료하면 오른쪽과 같은 피벗 테이블이 생성된 것을 워드클라우드 확인할 수 있습니다.[ 열: 성별 / 행: 예술인명 / 값: 방문수 ]를 설정하면, 오른쪽과 같은 피벗 테이블이 생성된다. STEP 5. 데이터 가공 - 피벗 테이블 후처리​만들어진 피벗 테이블도 추가 후처리가 필요합니다.만들어진 피벗 테이블을 새로운 시트로 복붙해서 후처리 진행하겠습니다. ​아래 순서로 진행해주세요.1피벗 테이블 왼쪽 상단 모서리 클릭 후 (표 전체 선택)2셀 복사 (CTRL + C)3새로운 시트 추가한 후 4새로운 시트에서 붙여넣기 (CTRL + V)5붙여넣을 땐 '값'만!6총합계 셀을 삭제합니다. (오른쪽 열/최하단 행)7성별 워드클라우드 기준 내림차순 정렬제일 오른쪽과 같은 모양의 표가 나왔다면 80%는 완성입니다!작업 완료된 파일은 꼭 .XLSX 확장자 형태로 저장해야합니다.3단계: 시각화 하기STEP 6. 문화 빅데이터 플랫폼 시각화 하기 서비스 접속​다시, 데이터를 받은 문화 빅데이터 플랫폼으로 돌아갑니다.상단 메뉴 [데이터 분석]에서 [시각화 하기] 클릭, '빅데이터 비주얼라이제이션'[바로가기] 클릭합니다. ​오늘의 목표는 워드클라우드 차트 만들기이므로, 첫 번째 줄 일곱번째 아이콘을 클릭합니다.STEP 7. 샘플 파일 다운로드​워드 클라우드 차트를 선택하면, 샘플 파일과 샘플 차트를 볼 수 있습니다.샘플 파일을 다운로드합니다. STEP 워드클라우드 8. 차트 만들기​거의 다 됐습니다!사전에 가공한 데이터를 복사해서, 샘플 파일에 붙여넣은 후 파일로 저장합니다.​​저장한 파일을 시스템에서 업로드까지 하면?차트 생성 완료입니다!잘 따라해보셨나요?워드 클라우드 차트는 광고 마케팅에서도 널리 활용되는 차트라 익숙하실텐데요,데이터 정제 절차에 따라서 좀 더 정밀한 차트를 얻어보실 수 있을거에요.​사용자 데이터는 성별과 관심도 기반으로 수집되었기 때문에성별에 따른 차이도 비교해볼 만 한데요, 다음에는 '레이더 차트'로 성별에 따른 차이를 눈으로 살펴보도록 하겠습니다. ​궁금한 점이 있다면 댓글로 남겨주세요!​​​​▼ 지역문화 빅데이터 센터 데이터 살펴보러 가기 워드클라우드 ▼ bigdata-culture.kr​

댓글목록

등록된 댓글이 없습니다.