Esse post é uma tradução do post: http://www.kinoshita.eti.br/2012/09/14/integrating-nutch-2-x-mysql-and-solr/
No momento estamos trabalhando em um projeto usando Apache Nutch 2.x, Apache Hadoop, Apache Solr 4 e um monte de outras ferramentas/módulos/API’s/etc legais. Depois de seguir as instruções encontradas em http://nlp.solutions.asia/?p=180, consegui conectar Apache Nutch, MySQL e Apache Solr.
Resumindo:
- Criar um banco de dados para guardar seus dados
- Usar SQLDataStore e adicionar a configuração para seu servidor MySQL
- Atualizar a configuração do Apache Nutch
- Atualizar o esquema Solr
Agora nosso Apache Nutch usa MySQL como data store (o local onde se armazena o resultados do processo de crawling, como a URL, conteúdo, texto, metadata, e assim por diante). Isso é ótimo, mas há mais um passo faltando no esquema Solr disponibilizado no post do blog.
Devido ao bug SOLR-3432, depois de seguir o tutorial e substituir o esquema original, você não conseguirá deletar todo o índice. Depois de seguir as instruções nos comentários do bug, e adicionar a seguinte entrada no arquivo schema.xml isso voltou a funcionar.
<field name="version" type="long" indexed="true" stored="true"/>
Reinicie o Apache Solr e execute o seguinte comando e o seu índice estará reiniciado.
curl http://localhost:8983/solr/collection1/update?commit=true -H "Content-Type: text/xml" --data-binary ":"
Espero que ajude se você estiver criando um ambiente semelhante.
Até mais! -B