`
mfcai
  • 浏览: 412223 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

怎样用baidu作为工具分析商业对手案例

阅读更多
商家对自己的商业数据应该有自己的保密措施,至少这些商业数据不应该被baidu搜索引擎抓取到,百合网号称实名婚恋网的开创者,实名认证,交友更诚信,姓名保护,隐私更安全。
但是我不知道连百度都能随便的获取到用户的隐私,这个隐私更安全做何解?
当我告知他的用户信息能被百度搜索到时,居然没有引起任何人的重视.通过非你莫属知道了百合,知道了慕岩.慕岩稳重干练,待人宽厚,从每期节目张绍刚老师总喜欢拿慕总开玩笑可以看得出来.但是手下人却没有这种稳重和干练.

扯远了,还是回到主题。通过用百度作为工具分析商业对手最重要的一点是关键词的使用
第一:筛选关键词。就是你想知道什么内容,大概的圈出个范围
第二:选定关键词。经过几次筛选之后,就可以选取比较重要的关键词
有了这些关键词,就能获得你想要的信息。再对这些信息入库、筛选、比对、挖掘、分析。
那么这些数据就可以辅助你进行决策了

还是以百合网为例,比如,在百度中输入:北京海淀征婚用户 个人资料 百合婚恋交友网。
我们能够搜到在该地区百合网注册的全部用户。然后将这些信息入库。将重复的数据进行过滤整合。再进行数据挖掘分析,经过这一系列的处理,我们可以分析出:
1)每个城市的百合的会员数
2)每个城市会员数的男女比例
3)百合有多少水晶会员
4)百合会员的学历、年龄分布
5)百合会员有多少通过认证
6)百合会员的收入情况



顺带用java做了个例子,把搜索的数据保存到本地。说明做这些工作不是很困难。
1、只搜索海淀区的前800条数据
2、把搜索引擎搜索到标题、摘要保存到本地文件。
3、做一个目录,每800条数据放到此目录下的一个文件中
当然如果往下引申,
可以把全国各地的数据以城市名为搜索条件,来一个遍历
可以搜索到数据再进行细分之后,保存到数据库中

package com.test;

import java.io.*;
import java.net.*;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Test {
    static List urlList = new ArrayList() ;
    static List titleList = new ArrayList();
    static List contentList = new ArrayList();
//获得百度的搜索页面,前100个搜索结果
public String getHTML(String key,String rec_cnt) throws IOException
{
  StringBuilder sb=new StringBuilder();
  String path="http://www.baidu.com/s?tn=06008006_3_dg&lm=-1&wd="+URLEncoder.encode(key,"utf-8")+"&pn="+rec_cnt+"&ie=utf-8&rn=100";
  System.out.println("搜索的url为:"+path);
  URL url=new URL(path);
  BufferedReader breader=new BufferedReader(new InputStreamReader(url.openStream()));
  String line=null;
  while((line=breader.readLine())!=null)
  {
   sb.append(new String(line.getBytes(),"utf-8"));
  }
  return sb.toString();
}

//对HTML进行析取,析取出URL、标题和摘要
public boolean parseHTML(String key,String rec_cnt)
{
  String page=null;
  try
  {
   page=getHTML(key,rec_cnt);
  }
  catch(Exception ex)
  {
   ex.printStackTrace();
  }
        if(page == null)
         return false;
  if(page!=null)
  {
   String regx="";
   Pattern pattern=Pattern.compile(regx);
   Matcher matcher=pattern.matcher(page);
   int i =0;
      while(matcher.find())
      {
                if(i == 0){
                 i++;
                 continue;
                }
              
       //获得table中的数据
       String table_content=matcher.group().toString();
             
       String reg_URL="href=\"(.*?)\"";
                Pattern pattern_URL=Pattern.compile(reg_URL);
                Matcher matcher_URL=pattern_URL.matcher(table_content);
                String page_URL=null;
       if(matcher_URL.find())
       {
        page_URL=matcher_URL.group().toString();
       }
       page_URL=page_URL.substring(6);
       //得到了URL
       page_URL=page_URL.substring(0,page_URL.length()-1);
       String reg_title="(.+?)";
       Pattern patter_title=Pattern.compile(reg_title);
       Matcher matcher_title=patter_title.matcher(table_content);
       String page_title=null;
       if(matcher_title.find())
       {
        //得到了标题
        page_title=matcher_title.group().toString();
       }
       //从table_content中析取出正文
       String page_content = null;
       page_content = table_content.substring(table_content.lastIndexOf("")+5);
      
       urlList.add(page_URL);
       titleList.add(page_title);
       contentList.add(page_content);
          i++;
       }
     }
  return true;
    }

  public static void writeToFile(String javaListFile)//写入文件中
  {
   BufferedWriter bf=null;
   try
   {
    bf=new BufferedWriter(new FileWriter(javaListFile));
    for(int i=0;i
     bf.write("URL:"+urlList.get(i));
     System.out.println("第"+(i+1)+"条结果:");
     System.out.println("URL:"+urlList.get(i));
     bf.newLine();
     bf.write("标题:"+titleList.get(i));
     bf.newLine();
     bf.write("摘要:"+contentList.get(i));
     bf.newLine();
     bf.newLine();
     bf.newLine();
     bf.flush();
    }

  
  
   }
   catch (IOException e)
   {
   new RuntimeException(e);
   }
 
   finally
   {
    try
    {
     if (bf!=null)
     {
      bf.close();
     }
    }
    catch(IOException e)
    {
   
     new RuntimeException(e);
    }
  
   }
 
  }



public void saveHtml(String key){
  try{
   String path="http://www.baidu.com/s?tn=ichuner&wd="+URLEncoder.encode(key,"utf-8")+"&ie=utf-8";
   System.out.println("搜索的url为:"+path);
   URL url=new URL(path);
   InputStream in=new BufferedInputStream(url.openStream());
   InputStreamReader theHTML=new InputStreamReader(in);
   int c;
   File file=File.createTempFile("temp",".html");
   FileOutputStream fos=new FileOutputStream(file);
   BufferedOutputStream bos=new BufferedOutputStream(fos);
   OutputStreamWriter osw=new OutputStreamWriter(bos);
   while((c=theHTML.read())!=-1){
   osw.write(c);
   }
   Runtime.getRuntime().exec("explorer "+file.toString());
   }catch(MalformedURLException ex){
   System.err.println(ex);
   }catch(IOException ex){
   System.err.println(ex);
   }
}

public static void main(String[] args) {
     int page_count=0;
     Test test = new Test();
//     test.saveHtml("北京海淀征婚用户 个人资料 百合婚恋交友网");
     while(test.parseHTML("北京海淀征婚用户 个人资料 百合婚恋交友网",page_count+"") && page_count<800){
      test.writeToFile("e:\\haidingqu\\temp"+page_count+".txt");
      page_count+=100;
      urlList = new ArrayList() ;
      titleList = new ArrayList();
      contentList = new ArrayList();
     }
}
}

1
2
分享到:
评论

相关推荐

    百度的战略分析资料.rar

    标签中提到了“GE的英文案例分析”,这可能是指通用电气(GE)的案例,作为全球多元化企业的典范,其案例常被用作商业分析的教学材料。尽管百度与GE业务性质不同,但通过对比分析,可以借鉴GE的成功经验或教训,为...

    丹尼尔·肯尼迪思考工具:最伟大的商业计划书(下).zip

    《丹尼尔·肯尼迪思考工具:最伟大的商业计划书(下)》是一份深入探讨商业计划书创作的重要资源,旨在帮助创业者和企业家构建出有力且成功的商业蓝图。商业计划书是任何新业务或扩展项目的核心,它不仅用于吸引投资...

    商业模式及其典型案例课件.pptx

    百度的竞价排名系统则是利用其搜索引擎平台创造了新的盈利模式,它将搜索结果与商业利益相结合,为企业提供了一种有效的市场推广工具。盛大的网络游戏模式则通过提供多样化的在线游戏服务,创造了巨大的用户基础和...

    关键词采集器,长尾关键采集器,百度关键词采集

    在压缩包文件"guanjianci"中,可能包含有各种关键词采集工具的使用教程、案例分析或数据样本,这些资源可以帮助我们更深入地理解和掌握关键词采集技巧,进一步提升网站的搜索引擎优化效果。通过学习和实践,我们可以...

    网络营销策划案例分析报告.doc

    佳能公司,作为知名的数码产品制造商,面对尼康等竞争对手的挑战,需要制定详尽的网络营销策略来提升市场份额,降低成本,增强产品质量和售后服务。 首先,网络营销的目标在于提高品牌知名度,扩大产品覆盖范围,...

    case in point中文版.pdf

    4. 案例分析工具和结构框架:咨询行业常用的分析工具和框架包括5C分析(公司、竞争对手、客户、气候变化、变化趋势)、4P营销理论(产品、价格、地点、促销)、波士顿矩阵(用于业务组合分析的工具)、迈克尔·波特...

    SEO实战指导:知识·策略·案例

    本书将教授如何进行有效的关键词研究,包括使用工具进行关键词挖掘、分析竞争对手的关键词策略、评估关键词的竞争程度和潜在价值等。 ### 二、核心策略篇 #### 2.1 内容优化 优质的内容是SEO成功的关键。本书将...

    [工具查询]渝海SEO工具之搜狗关键词筛选工具 v1.1_yh_fenci_sogou.zip

    - "资料整理"可能是包含使用教程、案例分析或其他相关资料的文件夹,用户在使用工具时可参考这些资料以提高效率。 通过以上分析,我们可以看出【渝海SEO工具之搜狗关键词筛选工具 v1.1_yh_fenci_sogou.zip】对于...

    《电子商务数据分析》—教学大纲.pdf

    在技术应用方面,课程涵盖了多种数据分析工具的实际运用,例如Alexa工具、阿里指数、百度指数、生意参谋以及CRM客户关系管理系统。通过对这些工具的学习和应用,学员们能够掌握如何获取区域、行业、趋势、需求、人群...

    [案例]××信息科技有限公司商业计划书[策划&调研].ppt

    XX公司的主打产品是ISPY软件,它是一款先进的非结构化信息处理工具,致力于提供信息收集、分析、加工、传递和反馈等全面服务。ISPY软件的核心优势在于其人工智能系统,能帮助企业实时获取和处理信息,构建内部情报...

    极简点线科技风商业计划书PPT模板.pptx

    【极简点线科技风商业计划书PPT模板】是一个设计简洁、科技感十足的商业计划展示工具,适合用于向投资者、合作伙伴或团队成员呈现创新的商业理念和战略规划。以下将详细介绍如何利用该模板来制作一份高效且具有吸引...

    茶叶网店的网络营销策划书

    4. **即时通讯工具推广**:利用QQ、MSN、百度Hi等即时通讯软件的签名和个人资料页面展示网店信息。 5. **论坛、博客推广**:在相关论坛和博客发布有价值的文章,嵌入网店链接,实现“病毒式”传播。 6. **关键词优化...

    互联网+”大学生创新创业项目计.docx

    这个计划书涵盖了多个关键知识点,包括项目概述、市场分析、产品介绍、商业模式、营销策略以及财务分析。 一、项目概述 项目概述是整个计划的基础,通常包括项目的目标、愿景和核心价值。在“互联网+”背景下,大学...

    一篇《奥康报》文章引发的大数据思考

    在当前的商业环境中,数据分析与大数据的应用变得越来越重要。《奥康报》中的一篇文章不仅是一个营销案例,它也展示了一个品牌如何通过大数据来思考和决策。文章引发了关于大数据如何帮助品牌定位以及如何通过分析...

    经典seo教程 网站运营

    1. **SEO工具使用**:如Google Search Console、百度站长工具等,用于监控关键词排名、抓取错误、网站性能等。 2. **数据分析**:通过分析流量来源、用户行为等数据,不断优化策略,提升SEO效果。 **七、案例分析*...

    NPDP考试真题 电子版

    5. 商业分析:涉及商业案例的构建、财务评估、投资回报率计算等,用于验证新产品的商业可行性。 二、NPDP考试题型 NPDP考试由200道选择题组成,分为单选题和多选题,考试时间为3.5小时。题目涵盖上述五个知识领域...

    Game Theory A Multi-Leveled Approach 2ed

    - 这一部分作为本书的入门章节,旨在为读者提供游戏理论的基本概念和分析工具。 - 主要内容包括博弈论的基本定义、博弈结构、博弈表示法(如标准形式、扩展形式)、纳什均衡等核心概念。 - 通过具体案例分析,...

    [南开大学本部]网络营销19秋期末考核(答案参考.pdf

    1. **电子商务类应用**:电子商务类应用中,即时通信的使用率位居首位,这表明人们在商业交流和日常生活中,对实时沟通工具的依赖程度很高。 2. **O2O营销**:O2O(Online To Offline)营销模式结合了线上和线下的...

    拼多多基础班+进阶班+突破班视频课程下载整理.zip

    2. **数据分析**:讲解如何使用拼多多后台的数据分析功能,对店铺流量、转化率、客单价等进行深度分析,为决策提供依据。 3. **供应链管理**:探讨如何优化供应链,降低成本,提高库存周转率,保证货源稳定。 4. **...

    Big_Data .pdf

    ### 大数据:案例与指南 #### 执行摘要 尽管“大数据”这一术语时常被过度炒作,但其背后的意义远不止于一个简单的流行词汇。它正在成为推动组织创新、竞争优势构建以及成本节约的重要驱动力。本文旨在为决策者...

Global site tag (gtag.js) - Google Analytics