- Visualization with zeppelin notbook (.gif)
-
๊ฒฐ๊ณผ
-
'๋ถํ', 'ํต์ผ' ์ธ๊ธ ์ ์ฆ๊ฐ
-
๊ธ, ๋ถ์ ์ถ์ด ๋ณํ
-
'๋ถํ' ๊ธ, ๋ถ์ ์ถ์ด ๊ทธ๋ํ : 2017๋ ์๋ ์ ๋ฐ์ ์ผ๋ก ๋ถ์ ์ ์ด์์ง๋ง 2018๋ ์ ๋ถ์ ๋ณด๋ค ๊ธ์ ๋น์จ์ด ๋์ ๊ฒ์ ํ์ธํ ์ ์๋ค.
-
'ํต์ผ' ๊ธ, ๋ถ์ ์ถ์ด ๊ทธ๋ํ : ์ ๋ฐ์ ์ผ๋ก ๋ถ์ ์ด ๊ธ์ ๋ณด๋ค ๋์ง๋ง 2018๋ ์๋ ๊ธ, ๋ถ์ ์ฐจ์ด๊ฐ ๊ฐ์ํ ๊ฒ์ ํ์ธํ ์ ์๋ค.
-
-
'์ข ์ '
๊ฐ์ฅ ๋ง์ด ์ธ๊ธ๋ 15๊ฐ์ ํค์๋ ๊ทธ๋ํ์์ 2017๋ ์๋ '์ข ์ '์ด๋ ๋จ์ด๊ฐ ๋ฑ์ฅํ์ง ์์๋ค.
2018๋ 3์ 9์ผ ์ฒ์ ๋ฑ์ฅํ์ฌ 4์ 17, 18, 26, 27์ผ(1์ฐจ ๋จ๋ถ์ ์ํ๋ด), 9์ 19์ผ(3์ฐจ ์ ์ํ๋ด)์ ๋ํ๋๊ฒ ๋๋ค.
3์ 9์ผ 179๋ฒ ์ธ๊ธํ์๊ณ ํนํ 1์ฐจ ๋จ๋ถ์ ์ํ๋ด(4์ 27์ผ)์๋ 1,224๋ฒ ์ธ๊ธ์ผ๋ก ์ ์ ์ ์ฐ๊ฒ ๋๋ค
-
2018-11-04
- tweet scraper ์ฐพ๊ธฐ (twint, twitter-scraper)
- ๋ฐ์ดํฐ ์์ง..
๐
ํธ์ํฐ api ์ด์ฉํ๋ ๊ฒ์(tweepy) 7์ผ ์ด๋ด ๋ฐ์ดํฐ๋ง ๊ฐ๋ฅํ๊ณ ์ด์ ์๋ฃ๋ฅผ ๋ณด๋ ค๋ฉด ๋์ ๋ด์ผ๋จ -> ์น์์ ๊ธ์ด๋ชจ์ผ์...
๋ผ์ด๋ธ๋ฌ๋ฆฌ twint, twitter-scraper.. firefox ๋ฌดํ์คํฌ๋กค ์ด์ฉํด์ ์ง์ โฆโฆ
twitter-scraper๋ 25ํ์ด์ง ์ ๋๊น์ง๋ง ๋ณด์ฅ ๊ฐ๋ฅ(486ํธ์) -> twint ์ฌ์ฉ
python2.* =>
$ python
python3.* =>$ py
๐
Command "/Library/Frameworks/Python.framework/Versions/3.7/bin/python3.7 -u -c "import setuptools, tokenize;__file__='/private/tmp/pip-install-pdut0psv/cchardet/setup.py';
..-> twint install์ด ์๋จ. ์ด๊ฒ์ ๊ฒ ํ๋ค๊ฐ python ์๊ตฌ๋ฒ์ ์ด 3.6์ด๋ผ ์๋์ฐ๋ก ์ฎ๊ฒจ์ 3.6.7๊น์๋๋ ํด๊ฒฐ...์คํํ๋๋ =>
ModuleNotFoundError: No module named 'aiohttp_socks'
-> twint uninstallํ๊ณpip3 install --upgrade -e git+https://github.com/twintproject/twint.git@origin/master#egg=twint
์ด๋ ๊ฒ ์ค์นํ๋๋ ํด๊ฒฐ
์ด๋ ๊ฒ ์ฝ๊ฒ ํด๋ ๋๋ ๊ฑธ๊นโฆ.ใ โฆ ๋ฐ๋ก ๋๋น์ ์ ์ฅํด์ผ๋๋..?
- twint ์๋ฌ ํด๊ฒฐ
- vscode ์ฐ๊ฒฐ
- ๋ฐ์ดํฐ ํ์ผ read
- nifi ์ค์น โ> ํ๋๋ฐ hortonworks๋ก ๋ค์ ๊น๊ธฐ
๐
twint ์ ์ง๊ณ์ ํธ์๋๋ฉด ์๋ฌ๋จ -> output์ ์๋ฌ์ฒ๋ฆฌํด์ฃผ๊ธฐ(๋์ค์ ์ฌ๋ ค์ค์ผ์ง..)
vm๊ณผ vscode ์ฐ๊ฒฐ
vscode์์ extentsions 'Remote VSCode' ์ค์น
rmate ์ค์น
wget https://raw.githubusercontent.com/sclukey/rmate-python/master/bin/rmate chmod +x ./rmate sudo mv ./rmate /usr/local/bin/rmate
$ ssh -R 52698:localhost:52698 maria_dev@localhost -p 2222
$ rmate project/tw.py
๐
hdfs์ testํ์ผ ์ฌ๋ ธ๋๋ฐ ํ๊ธ ๋ค ๊นจ์ง ->
$ echo $LANG
$ locale
๋ณด๋ฉด ์ ๋๋ก(ko_KR.UTF-8) ๋์ด์๋๋ฐใdf๋ก ๋ง๋ค๋ฉด ์คํค๋ง๊ฐ ์ด์ํ๊ฒ c1, c2โฆ ์ด๋ ๊ฒ ๋จโฆ.. ---> csv loadํ๋ฉด์
header="true"
๋นผ๋จน์
UnicodeEncodeError: 'ascii' codec can't encode characters in position 1551-1552: ordinal not in range(128)
ํ์ผ ๋ถ๋ฌ์ฌ ๋ ์ธ์ฝ๋ฉ ์ค์ ํ๋๋ฐ๋ ์์ด๋ฌ์ง...
- ๋ฐ์ดํฐ ํ์ผ read -> ์ธ์ฝ๋ฉ
๐
nifi ์คํ :
./bin/nifi.sh start
-> ํฌ๊ธฐ^^;;๐
์ฌ์ ํ ํ๊ธ ์ธ์ฝ๋ฉโฆ
hadoop fs -text data/tweet_test.csv
ํ๋ฉด ์๋ณด์โฆ ํ ์คํธ์ฉ ๋ง๋ค์ด๋ณด์๋๋ฐ ์ฌ์ ํ ๋๊ฐ...df.show()
ํด์ ์๋์ค๋ ๊ฒ์ด..print(df)
ํ๋๊น ๋์ด...^^...print(sys.stdout.encoding) print(sys.stdout.isatty()) print(locale.getpreferredencoding()) print(sys.getfilesystemencoding())์ด์ ์ถ๋ ฅ์ ๋๋๋ฐ.. u"\ub098\ub3c4 \uc5ec\uae30\uc11c \uc774 \uc9c0\ub784\ub4e4 \ud558\uace0\uc788\uc9c0\ub9cc... \ubaa8\ub450 ์ด๋ ๊ฒ ์ถ๋ ฅ๋จ..
- nifi ์ค์น
- virtual box git..... -> ์ด๋ฏธ ์์..ใ
- date time ํฉ์น๊ธฐ
- ์๊ฐ ์กฐ์
- ํ์์๋ ์ด ์ญ์
- konlp ๋ช ์ฌ ๋๋๊ธฐ
๐
๋ค์ nifi ๋์ ํด๋ณด์..! hdf ์ค์น
๐
mount: unknown filesystem type 'vboxsf'
-> VBoxGuestAdditions ์ค์น(๋ฒ์ ๋ง๊ฒ)์คํx ->
sudo yum install gcc kernel-devel make bzip2
->VBoxLinuxAdditions.run
์คํ
Please install the Linux kernel "header" files matching the current kernel
mount: only root can use "--types" option
sys:1: DtypeWarning: Columns (0,1,2,6) have mixed types. Specify dtype option on import or set low_memory=False.
-> read_csv์์ dtype ์ค์ date ๋ณ๊ฒฝํ๋๋ฐ ์๋จ -> date์ ์ด์ํ ์ฃผ์๊ฐ ๋ค์ด๊ฐ ์์..
errors='coerce'
์ถ๊ฐ
AttributeError: type object 'datetime.datetime' has no attribute 'timedelta'
->from datetime import datetime
์import datetime
์ผ๋ก ๋ณ๊ฒฝkonlp ์ค์น ์ค
error: command 'gcc' failed with exit status 1
->xcode-select --install
๋ง์ฝ
xcode-select: command not found
๋ผ๊ณ ๋จ๋ฉด ์ง์ apple developers์์ command line tools๋ค์ด
RuntimeError: No matching overloads found for simplePos09 in find
-> string์ผ๋ก ํ์ ๋ฐ๊ฟ์ค
- nlp์๋ฅธ ๊ฒ df ์ ์ฅ
- nifi์ค์น
๐
ํ๋๋์ด ๋ค๋ฅธ ๊ฒ๋ณด๋ค ์ธ๋์ด, ์์ด, ํ์ ์ ์ก์๋.
๐
ValueError: Length of values does not match length of index
-> ํ๋ฒ์ ์ ์ฒด๋ก ๋์์ ๋ฐ๋ก ๋ฐ๋ก๋ฆฌ์คํธ df์ ์ ์ฅ์ด ์๋จ...
ImportError: No module named ambari_commons.exceptions
ambari ์ด์ํด์ ธ์ ๊ฐ์๋จธ์ ์๋ก ํ๋๋
unable to sign in. invalid username/password combination.
admin๊ณ์ ๋ก๊ทธ์ธ ์๋จ -># ambari-admin-password-reset
์์ฒญ๋ ์ฝ์ง ๋์..
# ambari-server setup
# ambari-server install-mpack --mpack=http://public-repo-1.hortonworks.com/HDF/centos7/3.x/updates/3.2.0.0/tars/hdf_ambari_mp/hdf-ambari-mpack-3.2.0.0-520.tar.gz --verbose
ambari์์ nifi ์ถ๊ฐํ๋๋ฐ ์ค์น ์๋จ -> ๋ฒ์ ์๋ง์์ใ ํ ambari ๋ฒ์ 2.6.2 ์ต์ 2.7 ์ด์ด์ผ๋จ.
https://supportmatrix.hortonworks.com/
https://docs.hortonworks.com/HDPDocuments/Ambari-2.7.0.0/bk_ambari-upgrade/content/upgrade_ambari.html < ๊ด๋ จ ๋ฌธ์. ๋ด์ผ ํด๋ณด์
- ambari update
๐
ImportError: No module named ambari_commons.exceptions
-> ์์ sudonifi ui๊ฐ ์คํ ์๋จ..9090ํฌํธ -> /private/etc/hosts์์
127.0.0.1 localhost sandbox.hortonworks.com sandbox-hdp.hortonworks.com sandbox-hdf.hortonworks.com
์ถ๊ฐ! -> ์๋จใ
Permission denied: 'conf/bootstrap.conf'
-> ๋ฃจํธ๊ณ์ ์ผ๋ก๊ฐ์ 1. ํฌํธ๋ฒํธ
- ๋ก์ปฌํธ์คํธ
- admin ๊ถํ
hive ์ด์ํด์ง๊ฒ ๋ฒ์ ๋ฌธ์ ์ธ ๊ฒ ๊ฐ๋ค.. HDP๋ฒ์ ์๊ฐ ๋ชปํจใ ๋ง์ง๋ง์ผ๋ก ๋ค์ ์ญ์ ์ค์นํด๋ณด๊ธฐ..^^;;;
๋ฒ์ ๋ง๋๋ฐ๋ ์๋จ.. -> hive nifi ์ถฉ๋์ธ๊ฐ ใ ใ
- ๋ช ์ฌ๋ก ๋๋ ๊ฒ str | ๋ก ๋๋ ๊ฒ์ผ๋ก ๋ณํ
- ์ค๋ณต ํ ์ ๊ฑฐ
- ์ด์์น ์ฒ๋ฆฌ
- hashtag ๋ถ๋ฆฌ
- mention ๋ถ๋ฆฌ
๐
iterrows()๋ณด๋ค itertuples()์ด ํจ์ฌ ๋น ๋ฆ
df ๊ฐ ๊ทธ๋ฅ updateํ๋ฉด ์๋ฌ๋จ -> index๋ก at[] ์ด์ฉํ์ฌ ๊ฐ ๋ณ๊ฒฝํ๊ธฐ
๋๋ฐฐํ๋ ํธ์๋ค ์์ ๋ฒ๋ฆด๊น?...
๐
ModuleNotFoundError: No module named 'NumPy'
-> numpy ์๋ฌธ์๋ก ์ฐ๋ ํด๊ฒฐ
- scraper ๋ ์ง ์ ๋์ ์ด๋๋ก ๊ณ ์น๊ธฐ + ํ์ผ ์ญ์
- oozie python shell
๐
python scraper oozie์ ์ฌ๋ฆฌ๊ธฐ
hdfs fs -put {vm} {hdfs}
๐
ํฐ๋ฏธ๋ ์๊ฐ ์ด์ํ๊ฒ ๋์ด ->
sudo date {month}{day}{hour}{minute}{year}
ex) 2018๋ 11์ 20์ผ 18์ 24๋ถ ->sudo date 1120182418
twitter๊ฐ ๊ณ์ ๋ง๋ค ์๊ฐ์ค์ ์ด์ํ๊ฒ ๋์ด์์ -> twitter ๋ก๊ทธ์ธ -> ์ค์ ์์ ๊ณ ์ณ์ฃผ๋ฉด ๋จ. GMT+9(csv๋ utc์๊ฐ)
/usr/bin/env: python3: No such file or directory
-> oozie์ python3 ์ค์นํด์ผ๋๋๋ฏ... ์ด๋ฏธ ์ค์น๋์ด์์.
๐
๊ธ๋ถ์ ํ์ตํ ๋ฐ์ดํฐ http://word.snu.ac.kr/kosac/lexicon.php ์์ ์ป์. > http://word.snu.ac.kr/kosac/pub/PACLIC26.pdf
https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0 -> KoNLPy tag chart -> ์ ํ์ต๋ฐ์ดํฐ๋ Komoran๊ณผ ๊ฐ์ฅ ๋น์ทํ๋ฏ
๐
ImportError: No module named numpy
->sudo pip install numpy
sudo pip install --trusted-host pypi.python.org --trusted-host files.pythonhosted.org --trusted-host pypi.org numpy
-> RegressionEvaluator import์์ ์ ์๋ฌ ๋จ. ์์ง ํด๊ฒฐx
- ํํ์ ๋๋ ๊ฒ ;/๋ก ๋ฐ๊ฟ
- ํ์ต๋ฐ์ดํฐ ๋ง๋ค ๊ฒ ์ฒ๋ฆฌ : ํํ์ ๋ถ๋ฆฌ, ๊ฐ์ ์ฌ์ ์ฝ์ด์์ ๋น๊ต
๋ค ์คํํฌ๋ก ์ ์ฒ๋ฆฌ ํด์ผํ ๋ฏ... -> ์๊ฐ์ด ์์๊น???ใ ๋ค๋ฅธ ๊ฒ๋ถํฐํ๊ณ ์๊ฐ ๋จ์ผ๋ฉด ๋ฐ๊พธ์..
์คํฌ๋ํผ.. ๊ตณ์ด hdfs์์ ํ์ผ ์ญ์ ํ ํ์๊ฐ ์์๊น? -> ์ผ๋จ ์ฃผ์์ฒ๋ฆฌ
๊ฐ์ ๋ถ์ -> ๊ฐ์ ์ฌ์ ๋ฐ์ ์์.. -> ์ด๊ฒ ์ด์ฉํด์ ๋ด๊ฐ ํ์ต๋ฐ์ดํฐ ๋ง๋ค์
๐
[UnicodeEncodeError: 'ascii' codec can't encode character](https://stackoverflow.com/questions/39662384/pyspark-unicodeencodeerror-ascii-codec-cant-encode-character)
-> spark์์ showํ ๋๋ง๋ค ๋๋ ์๋ฌ => spark runํ๊ธฐ ์ ์$ export PYTHONIOENCODING=utf8
์ ๋ ฅํ๋ฉด ๋จ!oozie... running 8์๊ฐ์งธโฆโฆ
๋ค์ ์ค์นํ๋๋ ์นด์ฐ๋๋ผ ์๋จ... ๋ง์ง๋ง์ผ๋ก ๋ ์ญ์ ํด๋ณด์..^... -> ์ญ์ ์ญ์ ๋ ์ง๋ฆฌ๋ค
๐
python ์คํํ ๋ ๋งจ ์ python argument์ ํ์ผ ์ด๋ฆ!!!! ๊ทธ๋ฆฌ๊ณ file์ ํด๋น ํ์ผ ๋ฃ๊ธฐ!!! ๋ฉฐ์น ๋์์ฝ์ง์ด์๋ใ
python3.6์ผ๋ก ์ ๋ ฅํ๋ฉด 3๋ฒ์ ๋ ๋จ!
๐
oozie ์ echo๋ ์๋๋,,,,,,
Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.ShellMain]
- ๊ฐ์ ๋ถ์์ ์ค๋ณต์ ์๋๋ ๊ฒ ํด๊ฒฐ
- spark noun ๋๋ ์ top 20 ๋ฝ๊ธฐ
- python์ผ๋ก ์ ์ฒ๋ฆฌํ ๊ฒ => ์คํํฌ๋ก ๋ฐ๊พธ๊ธฐ
- twitter๋ก tokenizer ๋ฐ๊พธ๊ธฐ
- csv ์ ์ฅ
- hbase ์ ์ฅ
๐
๊ฐ์ ์ฌ์ ์๋ฃ๊ฐ pos(์ฝ ๋ง์ด์ฒ๊ฐ), neg(์ฝ ์ฌ์ฒ๊ฐ)๋ผ์ ํญ์ ๊ธ์ ์ผ๋ก ๋์ค๋๋ฐ ์ด๋กํ๋โฆโฆ... ๋๋ฌด ์๋์ ์ด๋ผ์ %๋ ์๋จ..
์คํํฌ๋ tokenizer๊ฐ ์๊ณ (์๋์ค์์๋๋ฐ pyspark๊ฐ์๋์์..)... python์ oozie์์ ํ์๋... gcc๊ฐ ์๋๊ณ ......
๐
xcode-select: command not found
์ฌ๊ธฐ์๋ xcode CLT ๋ชป์ค์นํ๋๋ฐ ๊ทธ๋ผ ๋ก์ปฌ์์ ํด์ผ๋๋๊ฑด๊ฐ....ใ -> yum์ผ๋ก gcc ์ค์น ๊ฐ๋ฅ
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 371: ordinal not in range(128)
->with open("./data/result.csv", "r", encoding="utf-8")
- date ์ถ์ถ๋๋์ง ํ์ธํ ๊ฒ!
- python -> vm์์
- hbase ์ ์ฅํ column ์ง์ (๋ ์ง๋ฅผ ๋งจ ์์ ๋ฆฌํธ์์, word, @, ํด์ํ๊ทธ...)
- python module๋ฌถ์ด์ oozie
๐
SyntaxError: Non-ASCII character '\xec' in file variable.py on line 1,
-> python2๋ฒ์ ์ ๋งจ ์์ ์ธ์ฝ๋ฉ..python2๋ฒ์ ์์๋ gcc jpype ์ ๋จ
UnicodeDecodeError: 'ascii' codec can't decode byte 0xea in position 0: ordinal not in range(128)
->#-*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8')http://www.adaltas.com/en/2018/03/06/execute-python-in-an-oozie-workflow/ -> oozie python module
ImportError: Missing required dependencies ['numpy']
pandas.. ๋์ import๋ฅผ ๋ฐ๊ฟ์ฃผ๋ ํด๊ฒฐ
ImportError: cannot import name 'multiarray'
- ์คํํฌ ์ธ์ฝ๋ฉ ๋๋ ๋ค๋ฅธ ๊ฒ์ผ๋ก ๋ฐ๊ฟ ๊ฒ..
๐
hive๋ก ๋ฐ๊ฟ๊น...ใ
๐
hive๋ก ํ๋๋ฐ๋ ??๋ธ.. ์ธ์ฝ๋ฉํด๋... -> ์คํํฌ sql์ ์ฐ์ง๋ง๊ณ ..
๐
๋จ์ด ๋น๋์ ๋ถ์ํ๋๋ฐ ์ธ๋ชจ์๋ ๋ฐ์ดํฐ ๋๋ฌด ๋ง์ -> ๋ช ์ฌ ์ค์์๋ ๋ณดํต๋ช ์ฌ, ๊ณ ์ ๋ช ์ฌ, ์์ฌ ๋ง ์ถ์ถ(์์ฌ๋ ๋บ๊น..) -> ๊ทธ๋๋ ์ฐ๋ ๊ธฐ๊ฐ๋ง์ใ ใ ใ ใ ํ์ง๋ง 22๊ฐ ์ต๋์น
์์ด ์ถ์ถํ๋ ค๋ฉด nlp ์จ์ผํ๋ ๊ฑฐ๋..? -> ์ธ๊ตญ์ด ํ๊ทธ F์์... ํ์ง๋ง..
์ธ๋ถ๋งํฌ ์ญ์
๋ฌธ์ฅ๋ถํธ ์ถ์ถ
๋ง์ถค๋ฒ, ๋์ด์ฐ๊ธฐ๊ฐ ์์๋์ด์์ด์ ๊ฐ์ด ์ ์๋์ค๋ ๊ฒ ๊ฐ๋ค -> ํ ์คํธํด๋ณด๋ ์ ๋๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์์ใ ใ ํ
๐
๋ง์ถค๋ฒ ๊ฒ์ฌํ๋๋ฐ
ValueError: No JSON object could be decoded
๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋งจ๋ ๊ณ ์ณ์ฐ๋๋ฏ.. py_hanspell์์ baseurl, req import ๋ฐ๊ฟ์ผ๋จ
๐
๋ถ์ฉ์ด ๋ฐ์ดํฐ
https://github.com/6/stopwords-json
๐
xml.etree.ElementTree.ParseError: not well-formed (invalid token) in Python
-> string์ &์ด ์์ด์ ๋ฐ์ํ ์ค๋ฅ. ๊ตฌ๋์ , ํน๋ฌธ ๋ค ์ ๊ฑฐํด์ผ๊ฒ ์.๋ถ์ฉ์ดํ์ธํ๋๊น..๋ญ๊ฐ ์ด์ํด์ง
- sentiment ํํ์ ๋ณ๋ก ๋ถ๋ฆฌ
- sentiment dict๋ก ๋ง๋ค๊ธฐ(ํํ์๋ณ๋ก?)
- ๋ค์ ์ฉ์ธ๋ ๋ฃ๊ธฐ
- date๋ณ ๊ฐ์ฅ ๋ง์ 15๊ฐ ๋จ์ด ์ถ์ถ
๋ถ์ฉ์ด๋ฅผ konlpy ์ ์ ํ๋๊น ๋ฌธ์ฅ์ด ์ด์ํด์ง -> ์๋ฅด๊ณ ๋ถ์ฉ์ด ์ญ์ ํ์
๋ถ์ : date count null ์ญ์
๐
ํธ์ํฐ์์ ๊ณท ์ด๋ฐ ๋จ์ด๋ฅผ ์ธ์ฝ๋ฉ ๋ชปํจ.. ->
str(hangul_text).decode('utf-8', errors="replace")
https://konlpy-ko.readthedocs.io/ko/v0.4.3/examples/wordcloud/
- oozie scraper
- oozie local to hdfs
- sentiment ํจ์ (์์ง ํ์ธ ๋ชปํจ)
dict keyerror๋๋ ๊ฒ ํ์ ์ด ์๋ง์์ ๊ทธ๋ฐ ๊ฒ์ด ์๋๋ผ ํด๋น ํค๊ฐ ์์ด์์๋ค..
hive
oozie๋ ๋ฃจํธ๊ณ์ ์์!
๐
sudo: no tty present and no askpass program specified
-> oozie์์ sudoํ์ ๋ ๋น๋ฐ๋ฒํธ๋ฅผ ์์ง ๋ชปํด์ ๋์ค๋ ์๋ฌ
org.apache.oozie.action.hadoop.launcherexception: output data exceeds its limit [2048]
-> oozie์์ ์ถ๋ ฅ์ด ๋๋ฌด ๋ง์์ ์๊ธฐ๋ ์๋ฌ. capture output์ ๋๊ณ ์คํํ๋ฉด ๋จoozie์์ ํด๋ permission denied ๋จ..-> chmod ๋ณ๊ฒฝ
- oozie data_preprocessing
- data_preprocessing encoding ํ์ธ
- get_sentiment ํ์ธ
- ์ค์ ๋ฐ์ดํฐ๋ก ๋๋ฆฌ๊ธฐ
๐ -> ์ด๊ฑฐ ์ ์์ฌ๋ผ์ง๋ ์ง์ง..... U+1F495 ๋ค๋ฅธ๊ฑฐ ๋ค ์ฌ๋ผ์ง๋๋ฐ ์ ํผ์... ๊ทธ๋งํด...์ ๋ฐ....
ํ๊ธ ์ ๋์ฝ๋๋ก reg ๋ฐ๊ฟ์ ํ๋๊น ์๋จ ใ ใ ์ง์....์ง์ง ์ค์ํ๋ค ์์ง๋ง์๋ผ.. ์ ๋์ฝ๋...
- get_sentiment ํ์ธ
- ์ฉ์ธ์ -๋ค ๋ถ์ด๊ธฐ
- spark ๊ฒฐ๊ณผ -> mysql
๐
sre_constants.error: bad character range
emoji unicodepython2 ๋ฒ์ ์์ cmd ํ๊ธ ์ถ๋ ฅ ์๋๋ฉด
str(text).decode('utf-8s')
์ฉ์ธ์ผ ๊ฒฝ์ฐ -๋ค ๋ถ์ด๊ธฐ
mysql ํ๊ธ ๋ฌผ์ํ =>
$ cd /etc/my.cnf
์ถ๊ฐ[client] default-character-set=utf8 [mysql] default-character-set=utf8 [mysqld] collation-server = utf8_unicode_ci init-connect='SET NAMES utf8' character-set-server = utf8
ALTER DATABASE [DB๋ช ] DEFAULT CHARACTER SET utf8; show variables like โc%โ
spark-submit --packages mysql:mysql-connector-java:5.1.39 [ํ์ผ ์ด๋ฆ]
๐
mysql ์์ฒ๋ผ ํด๋ ์๋จ -> ๋ณด๋ผ ๋ url์
jdbc:mysql://localhost/[db_name]?useUnicode=true&characterEncoding=utf-8
-> ํด๊ฒฐ
java.lang.ClassNotFoundException: om.mysql.jdbc.Driver
-> ์ ํ๋ฆฐ์๊ทธ๋ํ..pos ๋ํ๋ผ ์ ์๋๊ฒ ์์..
pyspark ์์ python 2๋ฒ์
- zeppelin helium ์ค์น
- centos ์๊ฐ ๋๊ธฐํ
- percent ๊ตฌํ๊ธฐ
bubble... ์ ํ๋ฆฐ..
์ฆ์ ๋๊ธฐํ ๋ช ๋ น์ด
$ chronyc -a makestep
positive, negative, neutral, complex
๐
RROR: Exception DBusException: org.freedesktop.DBus.Error.AccessDenied
->
$ systemctl restart dbus
$ systemctl restart firewalld
- scraper 2๊ฐ ํ์ผ ์ป๋๋ก
- multiprocessing
- ์ ์ฒ๋ฆฌ 2๊ฐ
- import hbase
- zeppelin mysql ์ฐ๋
๐
hbase ์ฌ๋ฌ ๊ฐ์ ์ ์ฅํ๋ ค๋ฉด versions ์ง์ ํด์ฃผ๋ฉด ๋จ! -> starbase์๋ ์์
alter "test", NAME => "tweets", VERSIONS => 1000000
-> ์ฌ๋ฐ๋ฅธ ๋ฐฉ๋ฒ ์๋..๐
Gcc error: gcc: error trying to exec 'cc1': execvp: No such file or directory
->$ sudo yum install gcc-c++
pandas read_json
ValueError: Expected object or value
-> ์๋ ๊ฒฝ๋ก๊ฐ ์๋ชป๋ ๊ฒhbase์๋์๋ ๊ฒ์ create(column family)
- hbase ์ฐ๋
- hbase data insert
- sentiment_analysis ์ ๋ฆฌ
- zeppelin hbase ์ฐ๋
- zeppelin ๊ทธ๋ํ ๋ง๋ค๊ธฐ(๋ ์ง)
- '๋ถํ' ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ->
- oozie
๐
ntp ๋๊ธฐํ
systemctl enable ntpd
์ด๊ฑฐ ํ๋๊น ์ ๋๋ก ์๋ํ๊ตญ์๊ฐ
timedatectl set-timezone Asia/Seoul
Submitting job to Oozie failed. Please check your definition/configuration. org.apache.oozie.ambari.view.exception.WfmException:
-> sanbox domain name์ ๋ํ host file ๋ณ๊ฒฝ
๐
sudo must be owned by uid 0 and have the setuid bit set
->chown root:root /usr/bin/sudo && chmod 4755 /usr/bin/sudo
๋ฐ์ดํฐ ์๊ฐํ
https://zzsza.github.io/development/2018/08/24/data-visualization-in-python/#
https://www.dremio.com/trump-twitter-sentiment-analysis/ > ํธ๋ผํ
http://www.zinicap.kr/archives/2433 ๋์ค์ ์ด๋ฐ์์ผ๋ก ์์งํ ์ ์์ด๋ ์๋ ค์ฃผ๋ฉด ๋ ๋ฏ
https://github.com/Ahneunjeong/bigdata-foodelivery/blob/master/๋ฐฐ๋ฌ๋ถ์๋ฐํ์๋ฃ.pdf
http://wiki.gurubee.net/pages/viewpage.action?pageId=28117507