海豚搜索:电子书搜索系统

大家好,我们做了一个小小的系统。这个系统是一个电子书搜索引擎系统,提供免费电子书搜索、免费编程视频搜索等等,这个项目会长期维护并不断的迭代升级。


产品叫:海豚搜索。

1

   

为什么做这个系统?

编程越来越流行,并且慢慢的成为了一门基础学科。每年都有非常多的大学生加入编程的大军,并且少儿编程也已经在全球流行。计算机知识日新月异,学习编程离不开长期的学习,电子书就成为了大家学习必不可少的资料。


我平常工作中,也经常会下载以下电子书、或者观看一些和编程相关的视频;另外由于工作需要,经常会到各大网站、包括一些国外的网站搜索一些免费的素材,身边的同行也经常需要,所以决定用自己开发这个系统。


另外这个系统,一方面是可以自己使用,同时也可以提供给大家使用,最主要的是也想通过这个系统作为一个例子,可以和大家分享、相互交流编程经验。


海豚搜索:电子书搜索系统


2

   

海豚系统与搜索引擎区别

目前搜索引擎已经非常强大了,但搜索电子书的时候,还是需要进行筛选,并且很多下载链接,没经过验证;搜索结果并不准确、或者无法下载了。

海豚系统会通过蜘蛛爬虫,收集各大网盘、文库、下载系统的链接,并验证结果的准确性。

海豚搜索:电子书搜索系统

3

   

海豚系统所需编程技术点

这个系统涉及的技术还是还是比较典型的,涉及爬虫、大数据量、高性能搜索能力,我大概列举以下的知识点,接下去分享的内容会包括以下内容:

1、信息采集:蜘蛛爬虫。

2、信息分析:页面解码、网页分析、链接提取、文本的分析与理解。

3、信息存储:数据库存储。

4、信息查询:多关键字搜索、关键词理解与分词等。

5、爬虫性能:多线程爬虫、重复爬取的方案、链接的过滤与筛选。

6、后端性能:数据库设计、后端缓存的运用。

7、前端性能:前端页面性能优化、前端缓存的运用。

8、等其他知识点

产品已经上线,目前系统还不是正式版本。采集还不够全面,只有电子书搜索,目前只采集了百度文库、百度网盘的链接,并且性能还没优化,大家可以先体验下。

体验链接:http://www.haitunbook.top,请在PC端体验。

海豚搜索:电子书搜索系统》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:https://www.hashtobe.com/706.html