일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- ultra argv hunter
- 마크업 언어
- argv
- orge to troll
- IS함수
- R언어
- pythonexe
- argc
- 써니나타스 1번
- mode함수
- 포너블
- 서니나타스
- anxi0
- 데이터형
- 자료개방포털
- pythoncli
- lob 7번
- 쉘코드
- pyinstaller
- lob
- troll to
- 빅데이터
- 결측치
- kostat
- 범용레지스터 #레지스터 #어셈블리 #ASM #리버싱 #어셈블리어 #EAX #ESP
- wolfman to darkelf
- lob 9번
- kosis
- 써니나타스
- lob 10번
- Today
- Total
목록CODING/[PYTHON] WebCrawler Project (7)
ANX1-Z3R0의 불안극복(不安克服)

나는 생산성에 집착하는 사람이므로, 아이디어가 떠올랐을 때 그것이 금방 기억에서 사라지는것을 경계한다. 그래서 만든 프로그램 ideaTank! 1. idea를 간단히 저장하는 프로그램 제작 2. 환경변수에 올려서 cmd 켜면 바로 사용할 수 있게 만들기 1. 사용되는 모듈은 내장함수인 sys 뿐이다. c언어에서 사용되는 argc,argv를 사용할 수 있게 해준다. =>cli(command line interface) 프로그램을 만들게 해 준다. 진짜 cli 프로그램처럼 help도 만들어 주고 CRUD를 모두 구현했다. main함수에서는 argv길이 처리를 해주고, 정의한 main함수로 넘겨주었다. # made by anxi0 import sys def help(): helpStr = """ Option ..

크롤링을 먼저 배워야 하는 이유 1. 프로젝트에 사용하는 기술이다. 2. 제목 부분에 나오므로 먼저 쓰게 된다. 3. 재밌다. (파이썬 + pytube 입문의 이유) 크롤링이란, 음....... 그만 알아보도록 하자. 가 아니라. Crawling (이하 Web Scraping)은 -> 웹에서 필요한 정보를 웹페이지를 그대로 가져와서 데이터를 추출해 내는 행위이다. 크롤러는 그 기능을 하는 장치를 말한다. 자 이제 배워보자. 인터넷을 뒤져보니, URLLIB3 REQUESTS SELENIUM BEAUTIFUL SOUP 또는 API 가 있던데, 다 쓰임이 조금씩 다르고, 용법도 다르지만, 크롤링을 한다는 목적에선 일맥상통한다. 그 중에서 가장 다루기 쉬웠던 requests 모듈을 사용하겠다. 모든 것은 순서를..
데이터 관련으로 R은 내 관점에서 너무 어렵고 구식이었다. 하지만, 진정 나에게 흥미를 계속 주고 있었던 것은 파이썬 이었다. 그 중에서도, 웹을 조금 더 재밌게 손볼 수 있는 크롤링이라는 기술이 내 눈에 들어왔다. 나는 크롤링에 5월 중순부터 관심이 있었고, 실제로도 하고 싶었다. 근데 이제서야 글을 올리는 이유는, 데이터를 선택했던 R언어처럼 되버릴까봐, 처음엔 재밌고, 나중에는 너무 어렵고 힘들어질 까봐, 어느정도 단계를 경험하고 전환하는 것이 안정적이라 생각했다. 그래서 이걸로 무얼 해볼까 하다가 유튜브 영상을 긁어보자, 크롤링+다운로딩 기술을 합쳐서 UI도 좀 만져보고 할 생각이었다. 좀 더 구체적으로는 1. 영상 화질 고를 수 있게 2. URL만으로 다운로드 할 수 있게 3. 재생 목록도 다운..

http://kostat.go.kr/ 에 들어가보자. 음! 볼까? PM 10은 미세먼지이고 PM2.5는 초미세먼지 월별+도시별 대기오염도구나, 그럼 초미세먼지를 한 번 보자. 월별로 제공한다. 따라서 가공된 데이터다 조금 더 RAW한 데이터가 필요하다. 그래서 RAW한 데이터를 제공하는 KMA로 가자. https://data.kma.go.kr/ 기상자료개방포털 data.kma.go.kr 데이터 종류가 제공되고, 시기와 형태를 지정하여 조회할 수 있다. 2019년 데이터는 부족하므로, 연도를 대표 하기 어렵다. 따라서 2015년 부터 2018년 조금, 4년의 데이터를 분석해보기 위해 다운받는다. 수가 헷갈리니깐 디렉토리로 구분해놓고, 궁금하니깐 까보자. 정말 1시간마다 측정되어 있다. 그런데..........

계획이 바뀌었다. API가 예상대로 흘러가지 못했다. python 패키지가 생각보다 말을 많이 안 듣는다. 스택오버플로우와 깃헙을 들락날락해도 잘 되지 않아서 local로 조질 수 있는 Rstudio에서 모든 걸 끝내기로 했다. 그래서, 뭘 할 거냐면 미세먼지 농도 분석! 분석이라고 별게 아니라, 통계청에서 제공된 데이터를 이용해 결측치를 채우고, 그래프를 보정하여 직관적으로 뿌려주는 프로젝트이다. 준비물이라 하면, - (매우 구식의) RStudio - R언어 강좌 (Online + Offline) - 통계청 3개년치 자료 정도 되겠구만, 순서는 이렇다. 1. 자료 다운로드하기 2. 결측치 보정 + 가용 데이터화(사실 통계청이라 가공이 돼있다.) 3. 그래프 그리기(좀 여러 방법으로) 이렇게 직관적으로 ..

카테고리가 바뀌었으니 다른 스타일을 시도해보자. 학교에서 하는 프로젝트를 일지로 남겨서 나중에 참고할 생각으로 글로 쓰게되었다. 하려는 프로젝트는 선생님들께 양해를 구해서 음성인식 API로 단어를 분석해 어떤 단어를 가장 많이 사용하였는지 보는 실험이다. 사실 선생님들에 대한 팬심으로 시작한 프로젝트이다. 생산적이라고 하기는 좀 어렵다. 다음은 필요한 준비물이다. - 선생님의 음성파일, TXT파일 - R언어, R studio (데이터 분석) - GOOGLE Speech to Text API - 자연어 처리와 관련된 지식 - 등등등.....(사실 이쪽 분야는 잘 모른다) 일지 형태로 작성한다고 했지만, 아날로그 작업이 많고(제일 중요한 음성파일) 매일 할 시간이 안나므로, 주중엔 될 때 하고, 주로 주말에..