dataframe 2

[pandas/Selenium/BeautifulSoup4] 야구 시즌 기록 데이터(STATIZ) 웹 크롤링 후 DataFrame 만들기. DataFrame을 csv로 만들고 csv파일 로컬에 저장하기! (feat. Colab)

Jsoup을 이용한 웹 크롤링은 tosuccess.tistory.com/119 을 참고하세요! 공공 데이터 XML 크롤링은 tosuccess.tistory.com/150 을 참고하세요! 오늘은 STATIZ라는 스포츠 기록 사이트에서 야구(투수)에 관련된 랭킹을 2011년도부터 2020년까지의 데이터를 크롤링하여 DataFrame으로 만들고 csv로 변환시켜 로컬에 저장하는 것까지 해보겠다. 내가 원하는건 모든 데이터를 원하지만 옵션에서 출력할 수 있는 개수는 100이 제한되어있다. 웹을 조금 다뤄본 사람이라면, www.statiz.co.kr/stat.php?mid=stat&re=1&ys=2011&ye=2020&se=0&te=&tm=&ty=0&qu=auto&po=0&as=&ae=&hi=&un=&pl=&da..

spark를 이용해서 삼성전자 주식 분석하기

[수행 중 나타났던 Unsupported class file major version 55 해결방법] 자바 설치하기 sudo apt-get install openjdk-8-jdk 새로운 자바 버전으로 바꾸기 sudo update-alternatives --config java In [3]: import findspark #스파크를 찾을 때 사용하는 모듈 In [4]: findspark.init('/home/hak/spark-2.4.5-bin-hadoop2.7/') #내 스파크의 경로 In [5]: from pyspark.sql import SparkSession # Dataframe을 sql처럼 사용하기 위해 모듈 받기 In [6]: spark = SparkSession.builder.appName('B..