Kde najdu opravdu velké databáze .sql soubory se 100 MB nebo pár GB textu, 10 000 000 plus řádky textu, abych mohl otestovat indexování vyhledávacího nástroje sfingy
Pokud opravdu chcete strávit takový čas stahování, zde je odkaz na Wikipedia výpisy - "VAROVÁNÍ: 6,07 GB komprimované, přibližně 27 GB nekomprimované od 2010-09-20" (a vy ' Stále budu mít 3 428 557 článků)
Zde je rychlý skript PHP, který vám ho vyrobí (stačí vytvořit prázdnou databázi, dočasně udělit oprávnění $db_user
CREATE + INSERT a naplnit konfigurační proměnné ve skriptu):
<?php
$db_Host = '127.0.0.1';
$db_name = 'testing';
$db_user = 'root';
$db_pass = '';
$entries = 10000000;
$entry_words_min = 250;
$entry_words_max = 1000;
/*
End configuration
*/
function get_Rand_Word( $len_min, $len_max ) {
for ( $i = 0; $i < ( Rand( 0, $len_max - $len_min ) + $len_min ); $i++ ) {
$Word .= chr(Rand(65, 90));
}
return $Word;
}
function get_title() {
for ( $i = 0; $i < ( Rand( 4, 10 ) ); $i++ ) {
$title .= get_Rand_Word( 2, 9 ) . ' ';
}
return $title;
}
function get_fulltext() {
for ( $i = 0; $i < ( Rand( 250, 500 ) ); $i++ ) {
$fulltext .= get_Rand_Word( 2, 9 ) . ' ';
}
return $fulltext;
}
$dsn = 'mysql:dbname=' . $db_name . ';Host=' . $db_Host;
try {
$dbh = new PDO($dsn, $db_user, $db_password);
} catch (PDOException $e) {
echo 'Connection failed: ' . $e->getMessage();
die();
}
$dbh->query('CREATE TABLE IF NOT EXISTS `sphinx` (
`id` int(10) unsigned NOT NULL auto_increment,
`title` varchar(150) collate utf8_bin NOT NULL,
`fulltext` text collate utf8_bin NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COLLATE=utf8_bin');
$sth = $dbh->prepare('INSERT INTO `sphinx` (`title`,`fulltext`) VALUES (:title, :fulltext)');
$counter = 0;
for ( $i = 0; $i < $entries; $i++ ) {
$sth->execute(array(
':title' => get_title(),
':fulltext' => get_fulltext()
));
$counter++;
}
echo $counter . ' rows inserted';
?>
Poznámka: Pravděpodobně budete muset změnit konfiguraci prostředí PHP nebo Vyladit počet položek, aby se tento skript spustil ...
Kromě vynikající odpověď danlefree , najdete celý text v síti Overflow Stack zde . Pokud používáte server MSSQL, je možné tento datový soubor snadněji importovat (protože Stack Overflow používá MSSQL).
Často používám GenerateData.com , který má mnoho typů dat, které můžete použít, a může generovat kód SQL i CSV atd. Nevím, jak dobře (nebo jestli) by zvládl miliony řádků , Ačkoli, i když, ale, však, nicméně.