반응형

빅데이터 | 머신러닝 | 딥러닝/빅데이터 분석 6

[pandas/Selenium/BeautifulSoup4] 야구 시즌 기록 데이터(STATIZ) 웹 크롤링 후 DataFrame 만들기. DataFrame을 csv로 만들고 csv파일 로컬에 저장하기! (feat. Colab)

Jsoup을 이용한 웹 크롤링은 tosuccess.tistory.com/119 을 참고하세요! 공공 데이터 XML 크롤링은 tosuccess.tistory.com/150 을 참고하세요! 오늘은 STATIZ라는 스포츠 기록 사이트에서 야구(투수)에 관련된 랭킹을 2011년도부터 2020년까지의 데이터를 크롤링하여 DataFrame으로 만들고 csv로 변환시켜 로컬에 저장하는 것까지 해보겠다. 내가 원하는건 모든 데이터를 원하지만 옵션에서 출력할 수 있는 개수는 100이 제한되어있다. 웹을 조금 다뤄본 사람이라면, www.statiz.co.kr/stat.php?mid=stat&re=1&ys=2011&ye=2020&se=0&te=&tm=&ty=0&qu=auto&po=0&as=&ae=&hi=&un=&pl=&da..

[pandas] 공공 데이터 XML 크롤링을 통해 dataFrame으로 만들어보기

공공 API를 통해 얻는 XML 형태의 파일은 여러 가지 방법으로 크롤링할 수 있다. 이 글에서 알려드릴 내용은 XML로 이루어진 페이지를 xmltodict 라이브러리를 이용해 API를 파싱 하는 방법에 대해 다루려고 한다. 공공 데이터 API을 발급받는 과정은 생략하고, url과 key값, 원하는 데이터 범위를 설정하는 방식으로 파싱 하는 방법이다. In [1]: !pip install xmltodict import pandas as pd import requests import xmltodict import time Collecting xmltodict Downloading https://files.pythonhosted.org/packages/28/fd/30d5c1d3ac29ce229f6bdc40b..

[pandas] 코로나 수치 예측하기 (feat. Linear Regression)

isna() : 사용할 수 없는 값 (null) notna() : 사용할 수 있는 값 (not null) astype() : 데이터 타입 변환 (ex Int65) loc[] : 행/열 인덱스 접근 np.histogram : 도수 분포표를 그릴 수 있게 해주는 함수 bins=나눌 구간 수, count와 나눈 구간들을 반환한다. count는 나눈 구간의 전체의 비율(?)을 반환한다. reshape(-1,1) : range를 1열로 만드는 함수, 즉 -1은 열을 1개로 두었을 때 나올 행 수를 추정한다. In [1]: #importing the required packages and csv file import pandas as pd import numpy as np import seaborn as sns i..

spark를 이용해서 Sales 정보 다루기(using groupBy, orderBy)

https://support.spatialkey.com/spatialkey-sample-csv-data/ Sample CSV Data – SpatialKey Support Jump right in and try out SpatialKey using sample data! SpatialKey unlocks the full potential of time- and location-based information like nothing else out there. In minutes, you can upload a data file and create and share interactive time- and map-based a support.spatialkey.com [위에서 제공하는 csv를 사용하였다] ..

spark를 이용해서 삼성전자 주식 분석하기

[수행 중 나타났던 Unsupported class file major version 55 해결방법] 자바 설치하기 sudo apt-get install openjdk-8-jdk 새로운 자바 버전으로 바꾸기 sudo update-alternatives --config java In [3]: import findspark #스파크를 찾을 때 사용하는 모듈 In [4]: findspark.init('/home/hak/spark-2.4.5-bin-hadoop2.7/') #내 스파크의 경로 In [5]: from pyspark.sql import SparkSession # Dataframe을 sql처럼 사용하기 위해 모듈 받기 In [6]: spark = SparkSession.builder.appName('B..

반응형