1. 开源数据挖掘工具有哪些
1、RapidMiner该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。值得一提的是,该工具在数据挖掘工具榜上位列榜首。
另外,除了数据挖掘,RapidMiner还提供如数据预处理和可视化、预测分析和统计建模、评估和部署等功能。更厉害的是它还提供来自WEKA(一种智能分析环境)和R 脚本的学习方案、模型和算法。
RapidMiner分布在AGPL开源许可下,可以从SourceForge上下载。SourceForge是一个开发者进行开发管理的集中式场所,大量开源项目在此落户,其中就包括维基网络使用的MediaWiki。
2、WEKA
WEKA原生的非Java版本主要是为了分析农业领域数据而开发的。该工具基于Java版本,是非常复杂的,并且应用在许多不同的应用中,包括数据分析以及预测建模的可视化和算法。与RapidMiner相比优势在于,它在GNU通用公共许可证下是免费的,因为用户可以按照自己的喜好选择自定义。
WEKA支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取。
添加序列建模后,WEKA将会变得更强大,但目前不包括在内。
3、R-Programming
如果我告诉你R项目,一个GNU项目,是由R(R-programming简称,以下统称R)自身编写的,你会怎么想它主要是由C语言和FORTRAN语言编写的,并且很多模块都是由R编写的,这是一款针对编程语言和软件环境进行统计计算和制图的免费软件。R语言被广泛应用于数据挖掘,以及开发统计软件和数据分析中。近年来,易用性和可扩展性也大大提高了R的知名度。
除了数据,它还提供统计和制图技术,包括线性和非线性建模,经典的统计测试,时间序列分析、分类、收集等等。
2. 特征词提取的开源工具有哪些
联分析方法,得到频繁集。再删除不是特征 词的频繁集。利用关联分析法可找到频率较高的特征词,但找不到低频率的 特征词。基于上述思想,利用高频特征词找到对应的观点词,然后利用观点 词找出附近低频特征词,可以提高召回率。 4. 文献[13]提出一种利用互信息(PMI)的特征提取方法。该方法首先提取出 频率高于某一阈值的名词或名词短语来作为候选特征词,然后利用搜索引擎
3. 去哪里找python的开源项目
GitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名GitHub。作为开源代码库以及版本控制系统,Github拥有超过900万开发者用户。随着越来越多的应用程序转移到了云上,Github已经成为了管理软件开发以及发现已有代码的首选方法。在GitHub,用户可以十分轻易地找到海量的开源代码。
下面给大家介绍一些GitHub上25个开源项目:
(1)TensorFlow Models
如果你对机器学习和深度学习感兴趣,一定听说过TensorFlow。TensorFlow Models是一个开源存储库,可以找到许多与深度学习相关的库和模型。
(GitHub: https://github.com/tensorflow/models )
(2)Keras
Keras是一个高级神经网络API,用Python编写,能够在TensorFlow,CNTK或Theano之上运行。旨在完成深度学习的快速开发(GitHub: https://github.com/keras-team/keras )
(3)Flask
Flask 是一个微型的 Python 开发的 Web 框架,基于Werkzeug WSGI工具箱和Jinja2 模板引擎,使用BSD授权。
(GitHub: https://github.com/pallets/flask )
(4)scikit-learn
scikit-learn是一个用于机器学习的Python模块,基于 NumPy、SciPy 和 matplotlib 构建。,并遵循 BSD 许可协议。
(GitHub: https://github.com/scikit-learn )
(5)Zulip
Zulip是一款功能强大的开源群聊应用程序,它结合了实时聊天的即时性和线程对话的生产力优势。Zulip作为一个开源项目,被许多世界500强企业,大型组织以及其他需要实时聊天系统的用户选择使用,该系统允许用户每天轻松处理数百或数千条消息。Zulip拥有超过300名贡献者,每月合并超过500次提交,也是规模最大,发展最快的开源群聊项目。
(GitHub: https://github.com/zulip/zulip )
相关推荐:《Python入门教程》
(6)Django
Django 是 Python 编程语言驱动的一个开源模型-视图-控制器(MVC)风格的 Web 应用程序框架,旨在快速开发出清晰,实用的设计。使用 Django,我们在几分钟之内就可以创建高品质、易维护、数据库驱动的应用程序。
(GitHub: https://github.com/django/django )
(7)Rebound
Rebound 是一个当你得到编译错误时即时获取 Stack Overflow 结果的命令行工具。 就用 rebound 命令执行你的文件。这对程序员来说方便了不少。
(GitHub: https://github.com/shobrook/rebound )
(8)Google Images Download
这是一个命令行python程序,用于搜索Google Images上的关键字/关键短语,并可选择将图像下载到您的计算机。你也可以从另一个python文件调用此脚本。
(GitHub: https://github.com/hardikvasa/google-images-download )
(9)YouTube-dl
youtube-dl 是基于 Python 的命令行媒体文件下载工具,完全开源免费跨平台。用户只需使用简单命令并提供在线视频的网页地址即可让程序自动进行嗅探、下载、合并、命名和清理,最终得到已经命名的完整视频文件。
(GitHub: htt ps://github.com/rg3/youtube-dl )
(10)System Design Primer
此repo是一个系统的资源集合,可帮助你了解如何大规模构建系统。
(GitHub: https://github.com/donnemartin/system-design-primer )
(11)Mask R-CNN
Mask R-CNN用于对象检测和分割。这是对Python 3,Keras和TensorFlow的Mask R-CNN实现。该模型为图像中对象的每个实例生成边界框和分割蒙版。它基于特Feature Pyramid Network(FPN)和 ResNet101 backbone。
(GitHub: https://github.com/matterport/Mask_RCNN )
(12)Face Recognition
Face Recognition 是一个基于 Python 的人脸识别库,使用十分简便。这还提供了一个简单的face_recognition命令行工具,可以让您从命令行对图像文件夹进行人脸识别!
(GitHub: https://github.com/ageitgey/face_recognition )
(13)snallygaster
用于扫描HTTP服务器上的机密文件的工具。
(GitHub: https://github.com/hannob/snallygaster )
(14)Ansible
Ansible是一个极其简单的IT自动化系统。它可用于配置管理,应用程序部署,云配置,支持远程任务执行和多节点发布 - 包括通过负载平衡器轻松实现零停机滚动更新等操作。
(GitHub: https://github.com/ansible/ansible )
(15)Detectron
Detectron是Facebook AI 研究院开源的的软件系统,它实现了最先进的目标检测算法,包括Mask R-CNN。它是用Python编写的,由Caffe2深度学习框架提供支持。
(16)asciinema
终端会话记录器和asciinema.org的最佳搭档。
(GitHub: https://github.com/asciinema/asciinema )
(17)HTTPie
HTTPie 是一个开源的命令行的 HTTP 工具包,其目标是使与Web服务的CLI交互尽可能人性化。它提供了一个简单的http命令,允许使用简单自然的语法发送任意HTTP请求,并显示彩色输出。HTTPie可用于测试,调试以及通常与HTTP服务器交互。
(GitHub: https://github.com/jakubroztocil/httpie )
(18)You-Get
You-Get是一个小型命令行实用程序,用于从Web下载媒体内容(视频,音频,图像),支持国内外常用的视频网站。
(GitHub: https://github.com/soimort/you-get )
(19)Sentry
Sentry从根本上讲是一项服务,可以帮助用户实时监控和修复崩溃。基于Django构建,它包含一个完整的API,用于从任何语言、任何应用程序中发送事件。
(GitHub: https://github.com/getsentry/sentry )
(20)Tornado
Tornado是使用Python开发的全栈式(full-stack)Web框架和异步网络库,,最初是由FriendFeed上开发的。通过使用非阻塞网络I / O,Tornado可以扩展到数万个开放连接,是long polling、WebSockets和其他需要为用户维护长连接应用的理想选择。
(GitHub: https://github.com/tornadoweb/tornado )
(21)Magenta
Magenta是一个探索机器学习在创造艺术和音乐过程中的作用的研究项目。这主要涉及开发新的深度学习和强化学习算法,用于生成歌曲,图像,绘图等。但它也是构建智能工具和界面的探索,它允许艺术家和音乐家使用这些模型。
(GitHub: https://github.com/tensorflow/magenta )
(22)ZeroNet
ZeroNet是一个利用比特币的加密算法和BitTorrent技术提供的不受审查的网络,完全开源。
(GitHub: https://github.com/HelloZeroNet/ZeroNet )
(23)Gym
OpenAI Gym是一个用于开发和比较强化学习算法的工具包。这是Gym的开源库,可让让你访问标准化的环境。
(GitHub: https://github.com/openai/gym )
(24)Pandas
Pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。此外,它还有更广泛的目标,即成为所有语言中最强大,最灵活的开源数据分析/操作工具。它目前已经朝着这个目标迈进。
(GitHub: https://github.com/pandas-dev/pandas )
(25)Luigi
Luigi 是一个 Python 模块,可以帮你构建复杂的批量作业管道。处理依赖决议、工作流管理、可视化展示等等,内建 Hadoop 支持。(GitHub: https://github.com/spotify/luigi )
4. 大数据专业都需要学习哪些软件啊
大数据处理分析能力在21世纪至关重要。使用正确的大数据工具是企业提高自身优势、战胜竞争对手的必要条件。下面让我们来了解一下最常用的30种大数据工具,紧跟大数据发展脚步。
第一部分、数据提取工具
Octoparse是一种简单直观的网络爬虫,可以从网站上直接提取数据,不需要编写代码。无论你是初学者、大数据专家、还是企业管理层,都能通过其企业级的服务满足需求。为了方便操作,Octoparse还添加了涵盖30多个网站的“任务模板 (Task Templates)”,操作简单易上手。用户无需任务配置即可提取数据。随着你对Octoparse的操作更加熟悉,你还可以使用其“向导模式 (Wizard Mode)”来构建爬虫。除此之外,大数据专家们可以使用“高级模式 (Advanced Mode)”在数分钟内提取企业批量数据。你还可以设置“自动云提取 (Scheled Cloud Extraction)”,以便实时获取动态数据,保持跟踪记录。
02
Content Graber
Content Graber是比较进阶的网络爬网软件,具有可用于开发、测试和生产服务器的编程操作环境。用户可以使用C#或VB.NET调试或编写脚本来构建爬虫。Content Graber还允许你在爬虫的基础上添加第三方扩展软件。凭借全面的功能,Content Grabber对于具有基本技术知识的用户来说功能极其强大。
Import.io是基于网页的数据提取工具。Import.io于2016年首次启动,现已将其业务模式从B2C转变为B2B。2019年,Import.io并购了Connotate,成为了一个网络数据集成平台 (Web Data Integration Platform)。凭借广泛的网络数据服务,Import.io成为了商业分析的绝佳选择。
Parsehub是基于网页的数据爬虫。它可以使用AJax,JavaScript等等从网站上提取动态的的数据。Parsehub提供为期一周的免费试用,供用户体验其功能。
Mozenda是网络数据抓取软件,提供企业级数据抓取服务。它既可以从云端也可以从内部软件中提取可伸缩的数据。
第二部分、开源数据工具
01Knime
KNIME是一个分析平台,可以帮助你分析企业数据,发现潜在的趋势价值,在市场中发挥更大潜能。KNIME提供Eclipse平台以及其他用于数据挖掘和机器学习的外部扩展。KNIME为数据分析师提供了2,000多个模块。
02OpenRefine(过去的Google Refine)是处理杂乱数据的强有力工具,可用于清理、转换、链接数据集。借助其分组功能,用户可以轻松地对数据进行规范化。
03R-Programming
R大家都不陌生,是用于统计计算和绘制图形的免费软件编程语言和软件环境。R语言在数据挖掘中很流行,常用于开发统计软件和数据分析。近年来,由于其使用方便、功能强大,得到了很大普及。
04RapidMiner
与KNIME相似,RapidMiner通过可视化程序进行操作,能够进行分析、建模等等操作。它通过开源平台、机器学习和模型部署来提高数据分析效率。统一的数据科学平台可加快从数据准备到实施的数据分析流程,极大地提高了效率。
第三部分、数据可视化工具
01
Datawrapper
Microsoft PowerBI既提供本地服务又提供云服务。它最初是作为Excel附加组件引入的,后来因其强大的功能而广受欢迎。截至目前,它已被视为数据分析领域的领头羊,并且可以提供数据可视化和商业智能功能,使用户能够以较低的成本轻松创建美观的报告或BI仪表板。
02
Solver
Solver专用于企业绩效管理 (CPM) 数据可视化。其BI360软件既可用于云端又可用于本地部署,该软件侧重于财务报告、预算、仪表板和数据仓库的四个关键分析领域。
03
Qlik
Qlik是一种自助式数据分析和可视化工具。可视化的仪表板可帮助公司有效地“理解”其业务绩效。
04
Tableau Public
Tableau是一种交互式数据可视化工具。与大多数需要脚本的可视化工具不同,Tableau可帮助新手克服最初的困难并动手实践。拖放功能使数据分析变得简单。除此之外,Tableau还提供了入门工具包和丰富的培训资源来帮助用户创建报告。
05
Google Fusion Tables
Fusion Table是Google提供的数据管理平台。你可以使用它来收集,可视化和共享数据。Fusion Table与电子表格类似,但功能更强大、更专业。你可以通过添加CSV,KML和电子表格中的数据集与同事进行协作。你还可以发布数据作品并将其嵌入到其他网络媒体资源中。
06
Infogram
Infogram提供了超过35种交互式图表和500多种地图,帮助你进行数据可视化。多种多样的图表(包括柱形图,条形图,饼形图和文字云等等)一定会使你的听众印象深刻。
第四部分、情感分析工具
01
HubSpot’s ServiceHub
HubSpot具有客户反馈工具,可以收集客户反馈和评论,然后使用自然语言处理 (NLP) 分析数据以确定积极意图或消极意图,最终通过仪表板上的图形和图表将结果可视化。你还可以将HubSpot’s ServiceHub连接到CRM系统,将调查结果与特定联系人联系起来。这样,你可以识别不满意的客户,改善服务,以增加客户保留率。
02
Semantria
Semantria是一款从各种社交媒体收集帖子、推文和评论的工具。Semantria使用自然语言处理来解析文本并分析客户的态度。通过Semantria,公司可以了解客户对于产品或服务的感受,并提出更好的方案来改善产品或服务。
03
Trackur
Trackur的社交媒体监控工具可跟踪提到某一用户的不同来源。它会浏览大量网页,包括视频、博客、论坛和图像,以搜索相关消息。用户可以利用这一功能维护公司声誉,或是了解客户对品牌和产品的评价。
04
SAS Sentiment Analysis
SAS Sentiment Analysis是一款功能全面的软件。网页文本分析中最具挑战性的部分是拼写错误。SAS可以轻松校对并进行聚类分析。通过基于规则的自然语言处理,SAS可以有效地对消息进行分级和分类。
05
Hootsuit Insight
Hootsuit Insight可以分析评论、帖子、论坛、新闻站点以及超过50种语言的上千万种其他来源。除此之外,它还可以按性别和位置对数据进行分类,使用户可以制定针对特定群体的战略营销计划。你还可以访问实时数据并检查在线对话。
第五部分、数据库
01
Oracle
毫无疑问,Oracle是开源数据库中的佼佼者,功能丰富,支持不同平台的集成,是企业的最佳选择。并且,Oracle可以在AWS中轻松设置,是关系型数据库的可靠选择。除此之外,Oracle集成信用卡等私人数据的高安全性是其他软件难以匹敌的。
02
PostgreSQL
PostgreSQL超越了Oracle、MySQL和Microsoft SQL Server,成为第四大最受欢迎的数据库。凭借其坚如磐石的稳定性,它可以处理大量数据。
03
Airtable
Airtable是基于云端的数据库软件,善于捕获和显示数据表中的信息。Airtable提供一系列入门模板,例如:潜在客户管理、错误跟踪和申请人跟踪等,使用户可以轻松进行操作。
04
MariaDB
MariaDB是一个免费的开源数据库,用于数据存储、插入、修改和检索。此外,Maria提供强大的社区支持,用户可以在这里分享信息和知识。
05
Improvado
Improvado是一种供营销人员使用自动化仪表板和报告将所有数据实时地显示在一个地方的工具。作为营销和分析领导者,如果你希望在一个地方查看所有营销平台收集的数据,那么Inprovado对你再合适不过了。你可以选择在Improvado仪表板中查看数据,也可以将其通过管道传输到你选择的数据仓库或可视化工具中,例如Tableau、Looker、Excel等。品牌,代理商和大学往往都喜欢使用Improvado,以大大节省人工报告时间和营销花费。