본문 바로가기

분류 전체보기

(101)
정제(Cleaning) / 정규화(Normalization) 코퍼스에서 용도에 맞게 토큰을 분류하는 작업 = 토큰화(tokenization) 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)해야 함 정제 및 정규화의 목적은 다음과 같다. 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 정제 작업은 토큰화 작업 전후에 방해가 되는 부분을 배제시키기 위해 지속적으로 이루어 지기도 함 1. 규칙에 기반한 표기가 다른 단어들의 통합 필요에 따라 정의할 수 있는 정규화 규칙의 예로서 같은 의미를 갖고 있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법이 있다. 가령, US..
자연어처리 무료 강의 자연어 처리 Natural Language Processing 강의 https://www.youtube.com/watch?v=2e9wnwuAVv0
마케터를 위한 SQL Intro 과정 목표 ● 데이터 분석에 대한 핵심만 설명 ● 단순 SQL이 아닌 분석 과정/환경과의 연계 설명 주요 커리큘럼 ●시대의 흐름과 SQL의 역할 ● 데이터베이스 기본 개념 및 용어 소개 ● 실습환경 및 사내 분석환경/툴 소개 ● 분석에 필요한 SQL 이론 설명 ● 실습 기획자와 마케터에게 SQL이 필요한 이유 기술과 트렌드의 대홍수 Digital Transformation 결론적으로 보면, 분석을 해야 하는 데이터의 양과 종류가 예전보다 훨씬 많아짐 그래서 회사는 우리에게, Data Scientist 역량을 요구 Data scientist 엑셀과 SQL로 데이터를 다루고 분석하는 영역의 상당 부분을 커버할 수 있음 일반적인 기업의 내부 데이터 저장/분석 환경은? 기업 내부의 데이터 저장/분석 ..
딥러닝 자연어처리 17장 딥러닝을 이용한 자연어 처리 1 | 텍스트의 토큰화 2 | 단어의 원-핫 인코딩 3 | 단어 임베딩 4 | 텍스트를 읽고 긍정, 부정 예측하기 딥러닝을 이용한 자연어처리 §인공지능 비서 서비스를 누구나 사용하는 시대가 올 것 § 자연어 처리(NLP, Natural Language Processing) - 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것 § AI 스피커 - 애플 시리, 구글 어시스턴트, 아마존 알렉사, SK Nugu, 네이버 클로바 § 딥러닝이 등장하면서 자연어처리 연구가 활발해짐 (대용량 데이터를 학습할 수 있는 딥러닝의 속성 때문) § 컴퓨터는 수치 데이터만 이해할 수 있기 때문에, 자연어처리는 텍스트 전처리 과정이 필수 딥 텍스트의 토큰화 먼저 해야 할 일은 텍스트(문장)를 잘..
텍스트 전처리 전처리 파이프라인 가장 재미없고(?) 반복적인 끝이 없는 작업 하지만 가장 중요 - 어쩌면 모델링만큼 데이터가 중요한 시대 - 중요한 데이터를 어떻게 처리해야 할까? SOTA* 알고리즘은 공개되어 있다. NLP Project Workflow -e.g. Task : 고객 상품 리뷰, 평점 데이터를 수집해서 감성 분석 모델을 만들어 볼까 1. 문제정의 -단계를 나누고 simplify, x와 y의 정의 2. 데이터수집 - 문제 정의에 따른 수집, 필요에 따라 레이블링 3. 데이터 전처리 및 분석 - 형태를 가공, 필요에 따라 EDA 수행 4. 알고리즘 적용 - 가설을 세우고 구현 / 적용 5. 평가 - 실험 설계, 테스트셋 구성 6. 배포 - RESTful API를 통한 배포, 상황에 따라 유지/보수 Text..
교보문고 베스트셀러 크롤링 from urllib.request import urlopen from bs4 import BeautifulSoup # 교보문고의 베스트셀러 웹페이지 html = urlopen("http://www.kyobobook.co.kr/bestSellerNew/bestseller.laf") bsObject = BeautifulSoup(html, "html.parser") # 책의 상세 웹페이지 주소를 추출하여 리스트 저장. book_page_urls = [] for cover in bsObject.find_all('div',{'class','detail'}): # {'class':'cover'}가 아닌 이유가 뭘까.... link = cover.select('a')[0].get('href')# link = cov..
공모전 사이트 모음 데이콘 : https://dacon.io/ 씽굿 : https://www.thinkcontest.com/ 위비티 : https://www.wevity.com/ 컨텐츠코리아 : https://www.contestkorea.com/ 요즘 것들 : https://allforyoung.com/posts/category/2/ 대외활동 공모전 요즘것들 공모전 대외활동 나의 관심분야에 맞는 공고추천 부터 후기까지 - 요즘것들. allforyoung.com 대회, 콘테스트, 공모전, 대외활동, 서포터즈 - 콘테스트코리아 대회, 콘테스트, 공모전, 대외활동, 서포터즈, 기자단, 체험, 봉사, 전시회, 문학, 네이밍, 아이디어, IT, 웹툰, 디자인, UCC, 블로거, 이벤트 www.contestkorea.com 공모전 ..
numpy.ndarray size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject number의 ndarray 사이즈가 바뀌었다는 오류메세지인데 numpy를 다시 설치하면 됩니다. pip install --upgrade numpy 혹은 pip uninstall numpy pip install numpy