当前位置:首页>> >>


搜索引擎语义排序的研究与实现.rar

收藏

资源目录
    文档预览:
    编号:20180913143533107    类型:共享资源    大小:10.29MB    格式:RAR    上传时间:2018-09-13
    尺寸:148x200像素    分辨率:72dpi   颜色:RGB    工具:   
    40
    金币
    关 键 词:
    搜索引擎 语义 排序 研究 实现
    资源描述:
    太原理工大学毕业设计(论文)用纸1太 原 理 工 大 学毕业设计(论文)任务书毕业设计(论文)题目:搜索引擎语义排序的研究与实现毕业设计(论文)要求及原始数据(资料):1.综述国内外搜索引擎语义排序技术研究现状;2.深入了解搜索引擎语义排序原理及其插件的相关技术;3.熟练掌握排序模型的应用与分析,训练实现排序算法程序的能力;4.设计并实现某一排序模型的程序;5.深入分析排序模型的关键技术与编写语言;6.训练检索文献资料和利用文献资料的能力;7.训练撰写技术文档与学位论文的能力。太原理工大学毕业设计(论文)用纸2毕业设计(论文)主要内容:1.综述语义排序在搜索引擎中的应用和背景;2.了解语义排序的相关算法和技术;3.熟悉网络爬虫以及插件的开发环境;4.设计基于网络爬虫的排序算法;5.深入分析排序算法的关键技术与编写语言JAVA的设计流程;6.熟练掌握基于网络爬虫的排序算法的编写;7.设计与实现基于某一网络爬虫的排序算法。学生应交出的设计文件(论文):1.内容完整、层次清晰、叙述流畅、排版规范的毕业设计论文;2.包括毕业设计论文、源程序等内容在内的毕业设计电子文档及其它相关材料。太原理工大学毕业设计(论文)用纸3主要参考文献(资料):1 王桂华,秦湘清等.语义技术在搜索引擎算法中的应用研究[J].郑州牧业工程高等专科学校图书馆,2012,(01)2 张映海,何中市等.搜索引擎结果中Web文档的排序研究[J]. 重庆大学计算机学院,2007,(02)3 王桂华,秦湘清. 一种面向专业搜索引擎的查询推荐算法[J]. 四川大学,20124 王三虎,李香林. 网络搜索应用分析[J]. 吕梁高等专科学校学报, 2005,04 5 王改香. 搜索引擎的体系结构与索引技术探析[J].长江大学学报(自然科学版),2011,036 孙立伟,何国辉,吴礼发. 网络爬虫技术的研究[J]. 电脑知识与技术,2010,157 许静芳.指南针联邦:突破集中式搜索之困[J].中国教育网络,2007, 068 Sepandar D.Kamvar,Taher H.Haveliwala, et al. Extrapolation Methods forAcceleratingPageRankComputations[M].ACMPress.20039 Amy Laneville, Carl Meyer. A reordering for the Page Rank problem[J].Scientific Computing, 2006,27(6):2112-212010 Amy N. Langville and Carl D.Meyer.Deeper inside Page Rank[J]. InternetMathematics-cs.2004,1 (3):335-380专业班级 软件1008班 学生 范文斌要求设计(论文)工作起止日期 2014年3月17日~2014年6月27日指导教师签字 日期 2014年3月17日教研室主任审查签字 日期系主任批准签字 日期太原理工大学毕业设计(论文)用纸i搜索引擎语义排序的研究与实现摘 要随着互联网的发展,信息检索的环境正发生着重大变化。而基于搜索引擎的排序算法直接关系到用户在信息检索时的用户体验。搜索引擎基于关键字的检索成为网页文本数据检索的主要方法。首先对基本的网页分析算法进行分析综述:如基于广度优先策略和最佳优先策略的网页抓取方法。页面分析算法可以大到从网页以及网页粒度分析甚至网站粒度分析,还有基于内容的网页分析算法。海量网络信息以使传统通用搜索引擎出现各种局限性。当今主流的网页搜索算法是由引文分析算法发展而来的PageRank算法。PageRank算法是当今网络搜索引擎巨匠Google的核心技术。本文将对国内外搜索引擎的发展背景进行研究分析。在此基础之上,将对PageRank进行深入研究,通过网络链接示意图简单阐述PageRank算法的核心,并重点研究计算Pagerank值,最后研发一个基于PageRank的文献检索系统以便于更好的深入理解和研究PageRank。首先从传搜索引擎的局限性来提出PageRank算法,然后从网页中悬挂节点问题出发,引入网页超链接矩阵,提出一种基于悬挂节点的线性系统来计算PageRank值。然后引入基于乘幂法的外推插值方法计算PageRank值,它是通过计算齐次方程的特征向量,来计算PageRank值,然后从线性系统出发,通过递归方式寻找超链接矩阵中的全零行来计算PageRank值。最后,将PageRank算法应用于文献检索系统,该系统的客户端是基于Flex4的RIA应用,后台是基于三层架构的java程序。随着Pagerank不断成熟,它将在更广的领域发挥更大的作用,越来越方便用户定位自己需要的信息,剔除更多的冗余信息。关键词 搜索引擎;排序;PageRank;Google;特征向量太原理工大学毕业设计(论文)用纸iResearchandImplementationofSemanticSearchEngineRankingAbstractWith the development of Internet, information retrieval environment is undergoingmajor changes. Based on the search engine ranking algorithm is directly related to the user'sexperience in information retrieval.The search engine has become the main method Webpage retrieval based on text dataretrieval keywords.Firstly, the basic Web page analysis algorithm to analyze summary: ifbased on the breadth first crawl Web page strategies and best first strategy. Page analysisalgorithm can be large sites and even particle size analysis from Webpage and Webpageparticle size analysis, and content analysis Web page based algorithm. Massive network ofinformation to the traditional limitations of general search engines there.Today's mainstream web search algorithm is PageRank algorithm algorithm evolved bycitation analysis . PageRank algorithm is today the Internet search engine giants Google'score technology. Development of domestic and international background paper will study andanalyze the search engine . On this basis , PageRank will conduct in-depth research , sketchesbriefly discusses the core PageRank algorithm through the network link, and focus oncomputing Pagerank value of PageRank finally developed a system based on the literaturesearch in order to better understand and study in depth PageRank . First, from the limitationsof the search engines to put forward pass PageRank algorithm , then hang from a web pagestarting node problem , introducing web hyperlink matrix , proposed a suspension of nodesbased on linear system to calculate PageRank value. Then calculate the PageRank value byintroducing a power law interpolation method based on extrapolation , it is by calculating theeigenvectors homogeneous equation to calculate PageRank value, and then starting from thelinear system , look for the hyperlink in the matrix of all zeros line to recursively computingPageRank values. Finally, the PageRank algorithm is applied to document retrieval system,the client of the system is based on Flex4 of RIA applications , the background is based onthe three-tier java program .As Pagerank continues to mature,it will play a greater role in the broader field, more andmore convenient information users to locate their needs, removing more redundantinformation.Keywords: search; engine; ranking; PageRank; Google; feature; vector太原理工大学毕业设计(论文)用纸1目 录摘 要.........................................................................................................................................iAbstract.......................................................................................................................................i1. 绪论.....................................................................................................................................11.1 研究背景和意义.......................................................................................................11.2 搜索引擎介绍...........................................................................................................11.3 研究现状.................................................................................................................11.4 工作内容及组织结构...............................................................................................11.4.1 主要内容........................................................................................................11.4.2 论文组织结构................................................................................................22. PageRank算法....................................................................................................................32.1 Pagerank简介...........................................................................................................32.1.1 通用搜索引擎的局限性................................................................................32.2 Pagerank算法过程步骤...........................................................................................32.2.1 基本原理........................................................................................................32.3 Pagerank算法的理解...............................................................................................42.3.1 算法描述........................................................................................................42.3.2 PageRank算法简单模型...............................................................................42.3.3 PageRank算法模型.....................................................................................42.4 计算PageRank值.....................................................................................................52.5 计算方法原理...........................................................................................................52.6 举例说明...................................................................................................................52.7 算法实现...................................................................................................................73. 基于PageRank算法的文献检索系统...............................................................................103.1 开发背景.................................................................................................................103.2 可行性分析.............................................................................................................103.2.1 技术可行性................................................................................................103.2.2 经济可行性...............................................................................................103.2.3 操作可行性................................................................................................103.2.4 法律可行性................................................................................................113.3 需求分析.................................................................................................................113.4 概要设计.................................................................................................................123.4.1 系统流程......................................................................................................123.4.2 系统架构......................................................................................................143.5 详细设计.................................................................................................................143.5.1 界面设计......................................................................................................143.5.2 数据库设计..................................................................................................183.5.3 系统实现......................................................................................................193.6 系统测试.................................................................................................................283.6.1 测试的目的..................................................................................................283.6.2 测试方法......................................................................................................29太原理工大学毕业设计(论文)用纸23.6.3 测试方案......................................................................................................293.6.4 测试总结......................................................................................................30结论..........................................................................................................................................31参考文献..................................................................................................................................32致 谢....................................................................................................................................33太原理工大学毕业设计(论文)用纸11. 绪论1.1 研究背景和意义随着人们生活水平的提高和互联网计算机技术的飞速发展,网民数量不断增加,网络信息不断关联着人们生活的方方面面。此时,单独的一个网民个体就如行驶在广袤无际的大海中的一叶孤舟,很难寻找正确的方向,而这个方向就是在这浩瀚无边的网络世界里找到自己此时所需的信息。1998年,美国斯坦福大学的博士研究生,也就是后来Google创始人之一的Larry Page发明的算法Pagerank,作为Google公司的最核心算法,它源于学术论文中引文分析的方法,打破了一般的网络搜索引擎中大多数公司基于的关键字匹配方法,因为后者产生的查询质量往往不尽如人意,Pagerank则是按照网页的重要性来排序查询结果。笔者认为为提高搜索引擎性能,对Pagerank算法进行深入研究是十分必要的。1.2 搜索引擎介绍搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。1.3 研究现状主要有两大类页面排序的方法,第一种是基于网页内容分析的排序,另外一种是基于超链接结构分析进行排序。前者源于传统的信息检索,因为互联网中产生海量数据,网页检索对传统信息检索提出巨大难题。Google公司2005年统计显示,它搜索的网页是24个billion,Yahoo 2005年统计的数据是20个billion。基于链接分析的排序将互联网搜索与传统的信息检索区分开来,从而引发了互联网搜索研究的高潮。Google创始人Sergey Bin和Lawrence Page于1998年提出的Pagerank算法是目前被认为最为成功的一种链接分析方法。1.4 工作内容及组织结构1.4.1 主要内容本来主要对web结构挖掘算法一PageRank算法做了详细分析研究,并通过实验,重点研究计算PageRank值。(1) 从通用搜索引擎的局限性提出PageRank算法,然后从网页中悬挂节点问题出发,太原理工大学毕业设计(论文)用纸2引入网页超链接矩阵,提出一种基于悬挂节点的线性系统。(2)引入基于乘幂法的外推插值方法计算PageRank值,它是通过计算齐次方程的特征向量,来计算PageRank值,然后从线性系统出发,通过递归方式寻找超链接矩阵中的全零行来计算PageRank值。1.4.2 论文组织结构第一章为绪论。主要介绍选题背景和研究现状以及论文的组织结构,引出了本文要研究的主要内容为PageRank算法。第二章为PageRank算法。首先简介PageRank算法,然后介绍PageRank算法的理论核心,并通过建立超链接矩阵模型,通过幂乘法求PageRank值第三章为基于PageRank算法的文献检索系统的工程说明书。第四章为总结与展望。总结本文的研究工作,并展望了未来的研究方向。太原理工大学毕业设计(论文)用纸32. PageRank算法2.1 Pagerank简介2.1.1 通用搜索引擎的局限性对于全球的普通网民或者网络维护人员或者科研人员来说,Google都是无可争议的首选搜索引擎,Google每天需要处理的用户搜索请求次数高达数亿,ComScore在2009年5月的搜索引擎市场数据批露,Google的市场占有率已经达到65%,雅虎,ask,微软bing等远远落后于它,顺便说一下,百度仅仅是在大陆作为中文搜索引擎出现,在全球所占份额远远小于Google,虽然它现在开始进军日本和韩国市场。这里要提到的局限性就是语言的局限性,英语和汉语,简直是两个无法逾越的文字障碍,这一障碍严重妨碍了搜索引擎在互联网中的作用。传统的搜索工具也有一些无法规避无法解决的问题:(1) 由于汉语的博大精深,一词多义或不同的词被赋予同一含义等等因素,以及不同行业的用户往往有不同的侧重点,这样得到的结果大多数都是无用的。(2) 由于网络正在无限扩张,大量的数据散落在互联网中,通用搜索引擎所在的服务器的计算能力毕竟有限,这样无形中降低了网页抓取范围,犹如逆水行舟,不进则退。(3) 由于页面中的数据格式越来越多,mp3,rm,doc,avi,mp4等等,而大量信息又会嵌入这里面,目前搜索技术还无法智能区识别这些信息,比如一个名为:《2012》的电影可能介绍了很多玛雅文化,而这些计算机搜索引擎是无论如何都无法猜到的。(4) 如今搜索引擎都是简单机械识别字面意思,无法深层次去提取语意。2.1.2 Pagerank的介绍互联网发展早期的搜索引擎, 对Web页面的排序, 是根据搜索的词组(短语)在页面中的出现次数(Occurence) ,并用页面长度和HTML标签的重要性提示等进行权重修订。链接名气(Link Popularity) 技术通过其它文档链接到当前页面(InboundLinks)的链接数量来决定当前页的重要性, 这样可以有效地抵制被人为加工的页面欺骗搜索引擎的手法。PageRank算法是通过对互联网络超链接拓扑结构的挖掘,获取互联网络中的权威网页, 在用户查询时将相关领域内的权威网页作为查询结果推荐给用户, 提高用户查询的质量。2.2 Pagerank算法过程步骤2.2.1 基本原理PageRank有效地利用了Web所拥有的庞大链接构造的特性。例如, 从网页A导向网页B的链接被看作是对页面A对页面B的支持投票, Google根据这个投票数来判断页面的重要性。可是Google不单单只看投票数(即链接数) ,对投票的页面也进行分析。重要性高的页面所投的票的评价会更高, 因为接受这个投票页面会被理解为重要的物
    展开阅读全文
    1
      金牌文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:搜索引擎语义排序的研究与实现.rar
    链接地址:http://www.gold-doc.com/p-116487.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们
    copyright@ 2014-2018 金牌文库网站版权所有
    经营许可证编号:浙ICP备15046084号-3
    收起
    展开