it-swarm-eu.dev

velké / obrovské příklady databází .sql soubory ke stažení na webu?

Kde najdu opravdu velké databáze .sql soubory se 100 MB nebo pár GB textu, 10 000 000 plus řádky textu, abych mohl otestovat indexování vyhledávacího nástroje sfingy

2
larens

Pokud opravdu chcete strávit takový čas stahování, zde je odkaz na Wikipedia výpisy - "VAROVÁNÍ: 6,07 GB komprimované, přibližně 27 GB nekomprimované od 2010-09-20" (a vy ' Stále budu mít 3 428 557 článků)

Zde je rychlý skript PHP, který vám ho vyrobí (stačí vytvořit prázdnou databázi, dočasně udělit oprávnění $db_user CREATE + INSERT a naplnit konfigurační proměnné ve skriptu):

<?php

$db_Host = '127.0.0.1';
$db_name = 'testing';

$db_user = 'root';
$db_pass = '';

$entries = 10000000;
$entry_words_min = 250;
$entry_words_max = 1000;

/*
  End configuration
*/

function get_Rand_Word( $len_min, $len_max ) {
    for ( $i = 0; $i < ( Rand( 0, $len_max - $len_min ) + $len_min ); $i++ ) {
        $Word .= chr(Rand(65, 90));
    }
    return $Word;
}
function get_title() {
    for ( $i = 0; $i < ( Rand( 4, 10 ) ); $i++ ) {
        $title .= get_Rand_Word( 2, 9 ) . ' ';
    }
    return $title;
}
function get_fulltext() {
    for ( $i = 0; $i < ( Rand( 250, 500 ) ); $i++ ) {
        $fulltext .= get_Rand_Word( 2, 9 ) . ' ';
    }
    return $fulltext;
}

$dsn = 'mysql:dbname=' . $db_name . ';Host=' . $db_Host;

try {
    $dbh = new PDO($dsn, $db_user, $db_password);
} catch (PDOException $e) {
    echo 'Connection failed: ' . $e->getMessage();
    die();
}

$dbh->query('CREATE TABLE IF NOT EXISTS `sphinx` (
  `id` int(10) unsigned NOT NULL auto_increment,
  `title` varchar(150) collate utf8_bin NOT NULL,
  `fulltext` text collate utf8_bin NOT NULL,
  PRIMARY KEY  (`id`)
) ENGINE=MyISAM  DEFAULT CHARSET=utf8 COLLATE=utf8_bin');

$sth = $dbh->prepare('INSERT INTO `sphinx` (`title`,`fulltext`) VALUES (:title, :fulltext)');

$counter = 0;
for ( $i = 0; $i < $entries; $i++ ) {
    $sth->execute(array(
        ':title' => get_title(),
        ':fulltext' => get_fulltext()
    ));
    $counter++;
}

echo $counter . ' rows inserted';

?>

Poznámka: Pravděpodobně budete muset změnit konfiguraci prostředí PHP nebo Vyladit počet položek, aby se tento skript spustil ...

3
danlefree

Kromě vynikající odpověď danlefree , najdete celý text v síti Overflow Stack zde . Pokud používáte server MSSQL, je možné tento datový soubor snadněji importovat (protože Stack Overflow používá MSSQL).

2
Jesper Mortensen

Často používám GenerateData.com , který má mnoho typů dat, které můžete použít, a může generovat kód SQL i CSV atd. Nevím, jak dobře (nebo jestli) by zvládl miliony řádků , Ačkoli, i když, ale, však, nicméně.

2
DisgruntledGoat