Posts tagged with nutch

Apache Nutch - Issues for beginners

Apr 30, 2013 in nutch | blog

Check this message in Nutch-dev mailing list archive, where Tejas Patil picked issues for beginners that are looking to contribute to Apache Nutch.


Apache Nutch logo

Apache Nutch is an open source web-search software project. Nutch is a project of the Apache Software Foundation and is part of the larger Apache community of developers and users

Use Jenkins plug-ins API in Apache Nutch

Oct 02, 2012 in nutch, jenkins, ideas | blog

I’m working in an Apache Nutch project that involves some new plug-ins and customization in existing parts parts of Nutch, however, after reading Nutch’s code base and learning about its plug-in architecture, I believe someone could use part of Jenkins API to enhance the plug-in API in Nutch.

Nutch uses a similar concept, with the same name as in Jenkins, Extension Points. However, it’s quite hard to create a plug-in project separate from the core project (it uses Ivy and plug-ibs have some dependencies to the core project). And you have to extend certain classes and configure XML files to prepare your plug-in.

Part of this could be automatically done with inheritance + Java annotations. I’ll have a cycle for Open Source in the next days, and will give it a try to see if that really makes sense.

Integrando Nutch 2.x, MySQL e Solr

Sep 15, 2012 in nutch | tutorials

Esse post é uma tradução do post: http://www.kinoshita.eti.br/2012/09/14/integrating-nutch-2-x-mysql-and-solr/

No momento estamos trabalhando em um projeto usando Apache Nutch 2.x, Apache Hadoop, Apache Solr 4 e um monte de outras ferramentas/módulos/API’s/etc legais. Depois de seguir as instruções encontradas em http://nlp.solutions.asia/?p=180, consegui conectar Apache Nutch, MySQL e Apache Solr.

mysql_hadoop_solr_nutch

Resumindo:

  • Criar um banco de dados para guardar seus dados
  • Usar SQLDataStore e adicionar a configuração para seu servidor MySQL
  • Atualizar a configuração do Apache Nutch
  • Atualizar o esquema Solr

Agora nosso Apache Nutch usa MySQL como data store (o local onde se armazena o resultados do processo de crawling, como a URL, conteúdo, texto, metadata, e assim por diante). Isso é ótimo, mas há mais um passo faltando no esquema Solr disponibilizado no post do blog.

Devido ao bug SOLR-3432, depois de seguir o tutorial e substituir o esquema original, você não conseguirá deletar todo o índice. Depois de seguir as instruções nos comentários do bug, e adicionar a seguinte entrada no arquivo schema.xml isso voltou a funcionar.

<field name="version" type="long" indexed="true" stored="true"/>

Reinicie o Apache Solr e execute o seguinte comando e o seu índice estará reiniciado.

curl http://localhost:8983/solr/collection1/update?commit=true -H "Content-Type: text/xml" --data-binary ":"

Espero que ajude se você estiver criando um ambiente semelhante.

Até mais! -B