import与收取框架封装

Hadoop实战(4),Hadoop实战(4)

CDH Hadoop连串目录:

CDH Hadoop连串目录:

Hadoop实战(3)_设想机搭建CDH的全遍及情势

Hadoop实战(3)_设想机搭建CDH的全布满形式

Hadoop实战(4)_Hadoop的集群管理和财富分配

Hadoop实战(4)_Hadoop的集群管理和财富分配

Hadoop实战(5)_Hadoop的运行阅世

Hadoop实战(5)_Hadoop的运营经历

Hadoop实战(8)_CDH添加Hive服务及Hive基础

Hive体系构造

Hive有2个服务端守护进度:Hiveserver2:支撑JDBC访谈,Thrift服务。MetaStore
Server:支撑访谈元数据库的劳动。

Hadoop实战(9)_Hive进阶及UDF开发

Hive内核构造

Complier:编译器,编译hql语法。

Optimizer:优化hql代码,发生最优实行安顿。通过explain select
…查看执行安顿。

Executor:实行最终转化的类(MOdysseyjob卡塔尔(قطر‎。

Sqoop语法表明

Sqoop官方学习文档:

http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.9.0/

Sqoop import是相持于HDFS来说,即从关全面据库import到HDFS上。

mysql的驱动包放到sqoop/lib下。

Hive客户接口

顾客接口紧要有四个:CLI, JDBC/ODBC和WebGUI。

CLI,即hive shell命令行,Command line。

JDBC/ODBC是Hive的JAVA,与应用古板数据库JDBC的方法周边。

WebGUI是由此浏览器访问Hive,遗弃作用。

案例风华正茂:把多少导入到HDFS上

/root/project
mkdir sqoop_prj
cd sqoop_prj/
mkdir DBS
cd DBS/
touch DBS.opt

hadoop fs -mkdir /user/hive/warehouse/DBS
which sqoop

施行opt文件,不能够传参,sqoop --options-file aa.opt-m,内定map数,要是抽出的表数据量大,则调大map数。假若-m设置为5,5个线程,则在HDFS上发出5个文件。

把sqoop写到shell脚本的益处,能够传参数。

#!/bin/sh
. /etc/profile

hadoop fs -rmr /user/hive/warehouse/DBS



sqoop import  --connect "jdbc:mysql://cdhmaster:3306/hive"    \
--username root                                                          \
--password 123456                                                        \
-m    1                                                             \
--table  DBS                                                           \
--columns   "DB_ID,DESC,DB_LOCATION_URI,NAME,OWNER_NAME,OWNER_TYPE"         \
--target-dir  "/user/hive/warehouse/DBS"    

#--where "length(DESC)>0"                                               \                               
#--null-string ''

bug,驱动难题

ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@3c1a42fa is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.
java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@3c1a42fa is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.

充实参数,参照他事他说加以考察

https://stackoverflow.com/questions/29162447/sqoop-import-issue-with-mysql

https://stackoverflow.com/questions/26375269/sqoop-error-manager-sqlmanager-error-reading-from-database-java-sql-sqlexcept

--driver com.mysql.jdbc.Driver

日增参数后的警告,

WARN sqoop.ConnFactory: Parameter --driver is set to an explicit driver however appropriate connection manager is not being set (via --connection-manager). Sqoop is going to fall back to org.apache.sqoop.manager.GenericJdbcManager. Please specify explicitly which connection manager should be used next time.

bug,sql语法难题,

Error: java.io.IOException: SQLException in nextKeyValue

去掉关键词列DESC,参考,

https://community.cloudera.com/t5/Data-Ingestion-Integration/sqoop-throws-SQLException-in-nextKeyValue/m-p/42653

添加Hive服务

增加期服用务-Hive,Gateway空,Hive Metastore
Server选取cdhmaster,HiveServer2采用cdhslave1。使用嵌入式数据库测量检验连接跳过。

案例二:数据写Hive普通表(非分区表卡塔尔(قطر‎

# mysql
create table test (id int, pdate date);
insert into test(id, pdate) values (1, '2017-11-05');
insert into test(id, pdate) values (2, '2017-11-06');
insert into test(id, pdate) values (3, '2017-11-05');
insert into test(id, pdate) values (4, '2017-11-06');

# hive
drop table if exists test;
create table test(id int, pdate string);

--hive-import,内定要写入hive表,该参数无value。

--hive-overwrite

--hive-table,test。

安装MySQL

yum list | grep mysql
yum install -y mysql-server
# 启动mysql服务
chkconfig --list | grep mysql
service mysqld start
chkconfig mysqld on
chkconfig --list | grep mysql
# 创建root管理员
mysqladmin -u root password 123456
# 登录mysql
mysql -u root -p
# 设置字符集,否则会造成转码问题
create database hive;
alter database hive character set latin1;
# 设置访问权限
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

字符集不得法的话,只怕报错。

FAILED: Error in metadata: MetaException(message:Got exception: org.apache.thrift.transport.TTransportException null)
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

MySQL驱动,把mysql的驱动mysql-connector-java-5.1.18-bin.jar放在/opt/cloudera/parcels/CDH/lib/hive/lib/下。

(可选)复制mysql-connector-java-5.1.18-bin.jar/usr/share/cmf/lib/,供cm分界面用,加多hive服务跳过元数据库配置即那些驱动包大概会找不到。

案例三:写Hive分区表,so,salesorder

注意事项:

1、用什么样字段做分区?
创造时间,而不是last_modify_time

Q:
用创制时间收取至hive分区,订单状态变化周期是45天,订单状态变化后,hive数据怎样联合?

hive不扶植update,天天抽出近15天的订单到Hive的分别分区里。Hive是做总计深入分析,平时最关切是昨日的情景。

# cdhmaster
cd ~
mysql -uroot -p123456 < so.sql
ERROR 1046 (3D000) at line 3: No database selected

vi so.sql
use test;

mysql -uroot -p123456 < so.sql

# hive
CREATE TABLE so (
  order_id bigint,
  user_id bigint,
  order_amt double ,
  last_modify_time string
) partitioned by (date string);

Sqoop执行后,注意:

  • 会在该客商HDFS的home目录下,产生一个与源表同名的目录,如/user/root/so
    若果sqoop import至hive成功,该目录会自动删掉。
  • 在实践的目录下发出二个java文件,即opt转变的MPRADO Job代码。
  • sqoop import中,不论hive表是何等列分隔符,均可以自动相称。

Sqoop收取框架封装:

  • 建三个mysql配置表,配置要求收取的表及新闻;
  • Java读取mysql配置表,动态生成opt文件;
  • Java中实践Process类调当地系统命令—sqoop –options-file opt文件;

Sqoop-imp -task 1 “2015-04-21”

Sqoop-imp “2015-04-21”

Hive元数据库设置

进入cm的hive服务-配置中,

先实行能源管理,Hive Metastore Server的Java货仓大小,200M。Hive
Server2的Java货仓大小,200M。

Hive Metastore数据库,选取MySQL。Hive Metastore数据库名称,hive。Hive
Metastore数据库主机,cdhmaster。Hive Metastore数据库端口,3306。Hive
Metastore数据库顾客,root。Hive
Metastore数据库密码,123456。自动创设和升级Hive
Metastore数据库布局,打勾。严谨的Hive Metastore构造验证,不打勾。

然后运转Hive服务,观看Metastore
Server是或不是能连上mysql(实例点进去查看剧中人物的日记卡塔尔(英语:State of Qatar)。假诺连不上,就反省grant访谈mysql的权能。

[main]: Failed initialising database.
Unable to open a test connection to the given database. JDBC url = jdbc:mysql://cdhmaster:3306/hive?useUnicode=true&characterEncoding=UTF-8, username = root. Terminating connection pool (set lazyInit to true if you expect to start your database after your app). Original Exception: ------
java.sql.SQLException: Access denied for user 'root'@'cdhmaster' (using password: YES)

GRANT ALL PRIVILEGES ON *.* TO 'root'@'cdhmaster' IDENTIFIED BY '123456' WITH GRANT OPTION;

Sqoop export

# mysql test
create table so1 as 
select * from so where 1=0;

根源必得是HDFS/Hive,指标关周密据库。

表so1的datelast_modify_time修改为varchar

长途元数据库

元数据库能够安装在别的节点上,顾客端通过MetaStoreServer服务寻访元数据库。

(Meta Store Client/Hive CLI)-MetaStore Server(thrift)-MySQL Server

属性 默认值
hive.metastore.local true false
hive.metastore.uris 如thrift://192.168.1.110:9083

Sqoop工具打包

Flow etl 实行全数已陈设的表收取。

Flow etl -task 1

Flow etl -task 1 2017-01-01

  • 读取mysql的extract_to_hdfsextract_db_info,依照陈设音讯生成.opt文件。
  • 通过Java的Process类调Linux命令:sqoop --options-file opt文件

idea打包Flow.jar,'D:/Java/idea/IdeaProjects/Hive_Prj/src/META-INF/MANIFEST.MF' already exists in VFS,删掉文件夹META-INF

db.properties是访谈mysql数据库的配备。

extract_db_info,抽出的表来自的数据库的铺排。

Flow.jar上传至/root/project/lib

/root/project/bin,创建Flow命令。

配置FLOW_HOME

vi /etc/profile

export FLOW_HOME=/root/project

source /etc/profile

配置db.properties

# FLOW_HOME
mkdir conf

vi db.properties

db.driver=com.mysql.jdbc.Driver
db.url=jdbc:mysql://cdhmaster:3306/test
db.user=root
db.password=123456

配置sqoop option目录sqoop/opts

# FLOW_HOME
mkdir -p sqoop/opts

举个例子要在推行时发出生之日志,须要开荒jar时配置log4j。

ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@310d117d is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.
java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@310d117d is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.

HDFSExtract.java,扩大铺排--driver com.mysql.jdbc.Driver,重新包装上传。

学业能够对应做改良,如sh ./so.sh

# /root/project/sqoop_prj/DBS
vi so.sh

Flow etl -task 1 $yestoday

你或然还想看

数据解析/数据开掘/机器学习

Python数据开采与机械和工具学习_通讯信用风险评估实战(1卡塔尔国——读数据

Python数据开采与机具学习_通讯信用危害评估实战(2卡塔尔——数据预管理

Python数据开掘与机械和工具学习_通讯信用风险评估实战(3卡塔尔(قطر‎——特征工程

Python数据发掘与机械和工具学习_通讯信用风险评估实战(4卡塔尔(英语:State of Qatar)——模型操练与调优

爬虫

Python爬虫实战之爬取链家巴塞罗那房价_01简易的单页爬虫

Python爬虫实战之爬取链家都柏林房价_02把小爬虫变大

Python爬虫实战之爬取链家广州房价_03存储

Python爬虫实战之爬取链家迈阿密房价_04链家的比葫芦画瓢登陆(记录卡塔尔(قطر‎

搜狗词库爬虫(1):底子爬虫架议和爬取词库分类

搜狗词库爬虫(2):底子爬虫框架的运转流程


Wechat公众号「数据深入分析」,分享数据地艺术学家的自己修养,既然遇见,不比一齐成长。

图片 1

数量分析

转发请表明:转发自Wechat民众号「数据拆解剖判」


Hive命令

show databases;
use default;
create table test(id int, name string);
desc test;


个中表,又称托管表,drop后数据错过。

外表表:create external table tableName,drop表时数据不会去除。

alter table set location '';
alter table add partition(date='') location '';

暗中同意分隔符,列为\001,行为\n。

create external table page_view_stg
(userid bigint,
 url string,
 ip string comment 'IP Address of the User')
row format delimited fields terminated by '\t'
partitioned by (ds string, type string)
lines terminated by '\n'
stored as textfile
location '/user/hive/external/city';

字段类型

  • int
  • bigint,长整型
  • double,金额类
  • string,字符串,日期,非数值型的整个能够用string

Cli

hive -e “select …”

hive -f aa.sql

hive -e -i -i的功效是加载起头化命令,比如UDF

create database dw location '/user/hive/dw';

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache.hadoop.security.AccessControlException Permission denied: user=root, access=WRITE, inode="/user/hive":hive:hive:drwxrwxr-t

解决办法,用hdfs帐户实行

su - hdfs
hadoop fs -chmod 777 /user/hive

hive
use dw;
create table aa(name string);

分区

论及DB的分区都是先行建好,平日都以通过有些字段的范围,例如date。

Hive的分区是写多少进去的时候自动建的,分区表insert时必得内定分区。

把一个文件入到Hive表有2中方法:

方式1:通过load命令

方式2:首先hadoop fs -put至HDFS,然后alter location。

Hive的insert有2种,insert overwrite(覆盖),insert into(追加)。

create table track_log (
id                         string ,
url                        string ,
referer                    string ,
keyword                    string ,
type                       string ,
guid                       string ,
pageId                     string ,
moduleId                   string ,
linkId                     string ,
attachedInfo               string ,
sessionId                  string ,
trackerU                   string ,
trackerType                string ,
ip                         string ,
trackerSrc                 string ,
cookie                     string ,
orderCode                  string ,
trackTime                  string ,
endUserId                  string ,
firstLink                  string ,
sessionViewNo              string ,
productId                  string ,
curMerchantId              string ,
provinceId                 string ,
cityId                     string )  
PARTITIONED BY (date string,hour string)  
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

hive -e "LOAD DATA LOCAL INPATH '/root/data/2015082818' OVERWRITE INTO TABLE track_log PARTITION (date='2015-08-28',hour='18');"

hive -e "LOAD DATA LOCAL INPATH '/root/data/2015082819' OVERWRITE INTO TABLE track_log PARTITION (date='2015-08-28',hour='19');"

select date,count(url) as pv, count(distinct guid) as uv from track_log where date='2015-08-28' group by date;

分区字段名无法和日常字段重复,分区字段用起来和平日字段没分别。

动态分区

表1是日期分区,供给把表1中多少写入表2(日期、刻钟分区卡塔尔?

insert overwrite table table2 partition(date='', hour='00') 
select 
from table1 
 where hour(time)=0;

create table rpt_visit_daily_hour 
(
    pv bigint,
    uv bigint
) partitioned by (date string, hour string);

insert overwrite table rpt_visit_daily_hour partition (date='2015-08-28', hour) 
select count(url) as pv, 
count(distinct guid) as uv, 
hour 
from track_log 
where date='2015-08-28' group by date,hour;

Hive表数据的发源

  • 业务种类,sqoop用于关系db和hive/hdfs导入导出。
  • 数据文件,hive load命令,用于加载网址顾客作为数据。
  • 别的数据表,insert … select
  • 音讯中间件,举个例子kafka离线开支写HDFS。

Q:drop后的外表表在怎么样岗位?

A:外部表数据尚未去除,只是删除了表的元数据音讯,手工业把HDFS目录映射到hive表分区:
hive -e “alter table tt add partition (date=”,hour=”) location
‘/user/hive/warehouse/track_log/date=2015-08-28/hour=18′”

Hive官方文书档案:

https://cwiki.apache.org/confluence/display/Hive/Tutorial


你恐怕还想看

数量解析/数据发掘/机器学习

Python数据开采与机械和工具学习_通讯信用风险评估实战(1卡塔尔国——读数据

Python数据开采与机械和工具学习_通讯信用风险评估实战(2卡塔尔(قطر‎——数据预管理

Python数据开采与机械和工具学习_通讯信用风险评估实战(3卡塔尔(英语:State of Qatar)——特征工程

Python数据发掘与机械和工具学习_通讯信用危机评估实战(4卡塔尔(英语:State of Qatar)——模型操练与调优

爬虫

Python爬虫实战之爬取链家苏黎世房价_01轻便的单页爬虫

Python爬虫实战之爬取链家里斯本房价_02把小爬虫变大

Python爬虫实战之爬取链家圣菲波哥伦比亚大学房价_03存储

Python爬虫实战之爬取链家广州房价_04链家的模仿登陆(记录卡塔尔

搜狗词库爬虫(1):基本功爬虫架议和爬取词库分类

搜狗词库爬虫(2):底工爬虫框架的运作流程


Wechat公众号「数据解析」,分享数据物史学家的自个儿修养,既然遇见,比不上一同成年人。

数码拆解解析

转发请注解:转发自微信大伙儿号「数据拆解剖判」