pentaho
简介
我们在上一篇数据仓库选型中已经确定了用使用Pentaho作为BI可视化分析工作。
Pentaho的中文文档多,国际化做的比较好。
巧合的是我们之前使用的ETL数据清洗工具kettle也是属于Pentaho公司的。
Pentaho是世界上最流行的开源商务智能软件。Pentaho是基于java平台的商业智能套件,之所以说它是套件是因为它包括一个Web Server 平台和几个工具软件:报表、分析、图表、数据集成、数据挖掘等。
所以我们在查询资料时容易眼花缭乱,这时我们可以先在官网中对Pentaho进行结构的了解:
https://wiki.pentaho.com/display/COM/Community+Wiki+Home
或者也可以从Pentaho组件的下载资源上进行结构的分析了解。
https://sourceforge.net/projects/pentaho/files/
除了一些辅助工具和插件之外,Pentaho主要分为三大块。
一个是数据清洗
对应的名称和下载文件名称为:
kettle
Data Integration
pdi-ce-7.1.0.0-12.zip
一个是BI服务端以及Web管理控制后台
对应的名称和下载文件名称为:
BI Platform
Business intelligence Server
pentaho-server-ce-7.1.0.0-12.zip
pentaho-server-manual-ce-7.1.0.0-12.zip
pentaho-server内置了Pentaho BI服务器及管理控制台,带有manual的是自定义安装Pentaho BI平台,资深用户可能会使用到这一组件
一个是报表设计器
Reporting
Report Designer
PRD-ce-7.1.0.0-12.zip
其他相关组件
Mondrian
Mondrian是OLAP引擎,多维数据分析利器。 Mondrian 是业界不错的多维数据分析引擎,许多开源 BI 套件集成了它。
Pentaho BI也集成了Mondrian。不需要单独下载。
Mondrian的jar包下载:
https://sourceforge.net/projects/mondrian/files/
Weka
Weka是数据挖掘工具,内置了各种数据挖掘算法支持。
在众多开源 BI 套件中,能够提供数据挖掘能力的不多。
Pentaho的提供了基于Weka的数据挖掘解决方案。
Pentaho Metadata
元数据管理编辑器
Design Studio
开发工具,目前支持Action sequence的图形化开发工作。
Action Sequence是以 XML 形式存在的一组动作( .xaction)。它主要由一般性设置、输入、资源、动作集合、输出等内容构成。
主要用来把流程串联起来完成各种复杂的BI工作,它是Pentaho BI解决方案中非常重要、基础的特性。
Action Sequence能够被Pentaho服务器直接执行。
Pentaho dashboard
仪表盘开发
Pentaho Dashboard 工具基于 CDF( Community Dashboard Framework)项目架构而成,
在Pentaho BI服务器中内置 CDF。
后面再做相关组件的了解。
首先需要了解三大板块。
kettle作为数据清洗我们已经比较熟悉了。
通过kettle清洗数据到数据源中
然后需要安装BI平台(pentaho-server包括了服务端和web管理控制台)
最后通过报告设计器来设计报表发布到pentaho-server中展示。
这就是我们完整的数据仓库搭建使用流程。
Pentaho中报表系统由三部分组成:报表解释器(内核)、报表设计器(Pentaho Report Designer)、报表发布平台(Pentaho BI Server)。
报表解释器即Pentaho报表相关的Java Api ,其中报表相关Api又分为: Designer 、Engine 、Libraries 三部分。
报表设计器可以配置数据源、完成数据查询的生成、报表排版、报表预览、导出或发布报表模板。在报表发布平台上用户可以看到之前发布过来的报表模板(发布平台上的数据源配置应该和报表设计器上一致才行)。
用户可以导出自己想要的格式(目前支持Html、pdf、excel、excel2007、CSV、RTF、Text),其中报表设计器和报表发布平台都支持导出数据,换句话说可以单独使用报表设计器也可以结合发布平台使用。因为它们都支持配置数据源、按报表格式查看、导出数据,唯一的区别就是发布平台没有编辑报表模板的功能。
相关资料
Pentaho官方网站:http://www.pentaho.com/
Pentaho社区Wiki:http://wiki.pentaho.com/display/COM/Community+Wiki+Home
这是重要的知识宝库,我们应该时常去这里研读、实践,以获得第一手的Pentaho知识。如有可能,您还可以贡献自身的Pentaho经验
Pentaho社区论坛:http://forums.pentaho.org
对Pentaho的任何疑问,您都可以透过它获得答案
Matt Casters的博客: http://www.ibridge.be/
他是Kettle项目创始人,现为Pentaho Dataintegration产品主架构师。很有价值的地方
Julian Hyde的博客:http://julianhyde.blogspot.com
他是Mondrian项目创始人
Jaspersoft官方网站: http://www.jaspersoft.com/
Pentaho 报表相关Api地址:
http://javadoc.pentaho.com/reporting710/
Pentaho Report Designer 下载地址:
https://sourceforge.net/projects/pentaho/files/Report%20Designer/
Pentaho BI Server下载地址:
https://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/
集成到Java程序中
官网示例:https://help.pentaho.com/Documentation/7.1/0R0/140
Pentaho Report Designer
官方使用教程:https://help.pentaho.com/Documentation/7.1/0L0/130
https://help.pentaho.com/Documentation/7.1/Installation/Archive/030_Use_mysql_as_repository_databas
配置过程踩过的坑:
1)Mysql中需要新增hibuser、jcr_user、pentaho_user等用户,执行示例中的SQL提权后还是导致报错的话,可以手动提权一下。
2)BI Server的插件库中有个中文插件,不过版本比较旧。有兴趣的可以参考下面资料做下汉化。
3)配置过程中如果报错,可以尝试运行下pentaho-server文件夹下面的start-pentaho-debug.BAT(linux下运行start-pentaho-debug.sh)
4)如果BI Server 配置的MySQL是本地的话localhost即可,如果是远程机器的话,需要设置成Ip地址的形式,注意在MySQL中开启权限。
5)因为7.1版本里没有sampledata_mysql.sql所以可以去之前的版本里面找找,手动导入到Mysql配置下示例数据
6)安装一些插件的话可能会导致一些报错或诡异的问题,所以对待插件要慎重
7)Report Designer 和 BI Server如果要做数据库迁移的话,都需要添加MySQL驱动,可以网上下载。
8)如果遇到如下报错:[org.pentaho.platform.dataaccess.datasource.wizard.service.impl.ConnectionServiceImpl] ConnectionServiceImpl.ERROR_0002 - Unable to get the list of connections: DatasourceMgmtService.ERROR_0004 - error occurred during retrieving the datasource 可以先关闭BI Server然后删除或改名如下文件夹 /pentaho-solutions/system/jackrabbit/repository 然后重启BI Server
视频教程: https://www.youtube.com/watch?v=nYI7A9giFzE
Pentaho介绍: https://baike.baidu.com/item/Pentaho/3674418?fr=aladdin
项目中集成报表
http://blog.csdn.net/gancheng/article/details/3858922
http://hudeyong926.iteye.com/blog/1583838
http://wiki.pentaho.com/pages/viewpage.action?pageId=9800175
Pentaho社区: http://community.pentaho.com/
Sourceforge介绍: https://baike.baidu.com/item/sourceforge/6562141?fr=aladdin
BIServer下载地址: https://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/
Pentaho Report Designer教程: http://blog.csdn.net/zhaizhisheng/article/details/45190663
下载Jre: https://www.java.com/en/download/windows-64bit.jsp
Jre的安装及配置: http://blog.csdn.net/tiantang_1986/article/details/53894947
下载Jdk: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
PRD教程: http://www.doc88.com/p-1857576569700.html
Pentaho论坛: http://www.itisbi.com/forum.php?mod=forumdisplay&fid=15
Pentaho国外论坛: http://forums.pentaho.com/index.php
BIserver使用教程: http://www.cnblogs.com/driftingshine/p/6114065.html
Pentaho汉化: http://www.itisbi.com/forum.php?mod=viewthread&tid=281&extra=page=2
mysql安装包: https://dev.mysql.com/downloads/file/?id=471661
MySQl安装失败问题: unable_to_configure_service/”>https://www.crifan.com/resolved_mysql_5517_installation_configuration_error_when_mysql-server-55-winx64_100-_unable_to_configure_service/
Pentaho配置Mysql: http://blog.sina.com.cn/s/blog_7253d6540102w79v.html
http://www.cnblogs.com/chinas/p/6544981.html
http://blog.csdn.net/kissmelove01/article/details/49362003
Pentaho插件配置: http://www.cnblogs.com/driftingshine/p/6114065.html
Pentaho Java文档: http://javadoc.pentaho.com/bi-platform710/pentaho-platform-api-7.1.0.0-12-javadoc/index.html
Pentaho报表集成到Java: https://help.pentaho.com/Documentation/7.1/0R0/140
MySQL迁移问题解决资料: http://www.cnblogs.com/littlehb/archive/2013/05/06/3062402.html
http://biwithui.blogspot.com/2014/04/error0002-unable-to-get-list-of.html
报表发布: https://ask.hellobi.com/blog/doudou1/3551